zenn.skin 무료버전 배포중!
자세히보기

pandas 15

Python/Syntax
[Pandas] 행 인덱스를 제외하고 DataFrame을 csv 파일로 저장

데이터가 저장된 파일의 종류는 엄청나게 다양합니다. 그중에서도 간단하지만 많이 사용되는 csv파일의 저장방법에 대해 공부해보려 합니다. DataFrame을 csv파일로 저장하면 다른 확장자와는 다르게 row index까지 같이 저장되기 때문에 index가 포함되지 않도록 해주어야 합니다. data = [list('abc'), list('def'), list('ghi')] data = pd.DataFrame(data) data.to_csv("ex.csv") data = pd.read_csv("ex.csv") print(data) 별도의 옵션을 지정하지 않고 DataFrame을 csv파일로 저장한 후 불러오면 기존에 있던 row index까지 열로 포함됩니다. 저장된 csv파일을 직접 열어 확인해도 row ..

Python/Syntax
[Pandas] DataFrame 열 순서 변경

DataFrame의 열 순서를 변경하는 메소드는 별도로 없어서 열 순서를 변경하는 방법을 정리해보려 합니다. 1. 열의 순서를 직접적으로 변경 exam_data = {'수학': [90, 80, 70], '영어': [98, 89, 95], '음악': [11, 22, 33], '체육': [44, 55, 66]} exam_data = pd.DataFrame(exam_data) col = ['체육', '수학', '영어', '음악'] exam_data = exam_data[col] 열의 순서를 직접 설정하여 변경하는 방법입니다. 열의 개수가 많지 않으면 사용할 수 있지만 개수가 많아지면 사 용하기 힘들다는 단점이 있습니다. 2. reindex를 이용한 방법 exam_data = {'수학': [90, 80, 70]..

Python/Syntax
[Pandas] DataFrame - 2 (행/열 추가, 값 선택/변경, 전치)

1. 행/열의 추가 1) 행의 추가 - DataFrame의 loc() 메서드를 이용해 행을 추가 - DataFrame.loc['새로운 행 이름'] = value or List - value를 전달할 경우 해당 행에 모두 동일한 값이 들어간다 - List를 전달할 경우 행에 값이 차례로 들어간다 - 전달되는 리스트의 개수는 열의 개수와 동일해야 한다 ① 값의 추가 df = pd.DataFrame([[1, 2, 3, 4, 5], [6, 7, 8, 9, 10], [11, 12, 13, 14, 15]], index=list('xyz'), columns=list('ABCDE')) df.loc['v'] = 30 print(df) ② 리스트의 추가 df.loc['w'] = [16, 17, 18, 19, 20] pri..

Python/Syntax
[Pandas] DataFrame - 1 (자료형, 생성, 행/열 이름변경, 행/열 삭제)

1. DataFrame? - 행과 열로 만들어지는 2차원 배열 구조의 자료형 - 행을 index, 열을 columns, 값을 values로 갖는다 df = pd.DataFrame([[1, 2, 3, 4, 5], [6, 7, 8, 9, 10], [11, 12, 13, 14, 15]], index=list('xyz'), columns=list('ABCDE')) print('index: ', df.index) print('columns: ', df.columns, end='\n\n') print('values: ', df.values, end='\n\n') print('dtypes: ', df.dtypes) 2. DataFrame의 생성 1) Dictionary를 인자로 받는 경우 - Dictionary의 k..

DataScience
[Pandas] Series

1. Series? - 데이터가 순차적으로 나열된 1차원 배열의 형태 - index와 value가 일대일 대응되어 저장 - value의 값은 다양한 자료형이 될 수 있음(정수, 부동소수, 문자열, Bool형 ...) 2. Series의 생성 1) Dictionary를 인자로 받는 경우 - key는 Series의 index, value는 Series의 value로 저장 import pandas as pd dict_data = {'a': 1, 'b': 2, 'c': 3} sr = pd.Series(dict_data) sr 2) List를 인자로 받는 경우 - 각각의 list인자가 Series의 value로 저장 - index는 0부터 차례대로 저장 list_data = [1, True, 'Koo', 1.23..

Python/Syntax
read_excel로 xlsx 파일 열기

pandas 라이브러리의 read_excel을 이용해 xlsx파일을 읽으려하면 지원하지 않는다며 오류가 발생한다. df = pd.read_excel('data/회원정보.xlsx', sheet_name='Sheet1') print(df) xlrd는 파이썬에서 엑셀 파일을 불러올 수 있도록 도와주는 라이브러리인데 xlrd2부터 xls파일 이외의 파일은 지원하지 않는다고 한다. pandas는 엑셀파일을 읽을 때 기존과 동일하게 xlrd를 기본엔진으로 사용하고 있어 지원하지 않는다고 뜨는 것이다. engine을 xlrd이외의 라이브러리로 변경해주면 정상적으로 xlsx파일을 읽을 수 있다. df = pd.read_excel('data/회원정보.xlsx', sheet_name='Sheet1', engine='ope..