zenn.skin 무료버전 배포중!
자세히보기

Python 68

DataScience
[ML] 교차 검증(cross validate)

train_test_split을 사용하면 데이터셋을 train 데이터와 test 데이터로 분리할 수 있습니다. 하지만 train 데이터를 이용해 모델을 학습하고 test 데이터로 모델의 적합성 여부를 계속해서 판단하다 보면, 모델은 test데이터에 맞춰지게 됩니다. 그렇기 때문에 test 데이터는 마지막에 한 번만 사용해야 합니다. train 데이터를 다시 train 데이터와 검증용 데이터로 나누고, train 데이터로 학습한 후 검증용 데이터로 모델을 평가합니다. 교차 검증 train 데이터의 일부를 사용해 검증 세트를 만들었기 때문에 train 데이터가 많이 줄어들었습니다. 하지만 train 데이터를 늘리려고 검증 세트를 줄이게 되면 검증 점수가 불안정해집니다. 교차검증을 사용하면 안정적인 검증 점수..

DataScience
[ML] train_test_split을 이용한 데이터 분할

모델은 데이터를 이용해 학습을 합니다. 학습용 데이터만 가지고 모델이 학습한다면, 학습용 데이터에만 너무 과대적합(overfitting)되어 새로운 데이터가 들어왔을 때 정확한 예측이 어려울 수 있습니다. 그렇기 때문에 데이터셋을 먼저 학습용 데이터와 테스트용 데이터로 나누는 작업이 필요합니다. 학습용 데이터로 모델을 학습한 후에, 테스트용 데이터를 사용했을 때의 점수와 비교하여 모델이 잘 학습되었는지 평가합니다. sklearn.model_selection의 train_test_split은 데이터가 입력되면 학습용 데이터와 테스트용 데이터로 나누어집니다. import seaborn as sns from sklearn.model_selection import train_test_split iris = sn..

Python/Syntax
[Pandas] DataFrame 조건부 검색 시 주의사항

DataFrame은 bool값을 이용한 boolean indexing을 사용할 수 있습니다. import pandas as pd df = pd.read_csv('./data.csv') df[df['country'].isin(['Australia', 'New Zealand')] 위와 같이 boolean indexing을 사용하면 원하는 조건의 값을 쉽게 찾을 수 있습니다. 파이썬에서 if문을 사용할 때처럼, | 또는 & 연산자를 사용하여 동시에 여러 개의 조건을 사용할 수도 있습니다. 이 때는 꼭 각 조건들을 '(', ')'을 사용하여 묶어주어야 합니다. df[df['country'].isin(['Australia', 'New Zealand']) & df['points'] >= 95] 괄호를 사용하지 않고..

Math
[Matplotlib] 시그모이드 함수 그리기

Python을 이용해 시그모이드 함수를 그려보려합니다. 시그모이드 함수(Sigmoid Function) 1. 시그모이드 함수 시그모이드 함수는 S자 모양의 함수로 로지스틱 함수, 오차 함수나 정규분포의 cdf, arctan(역 탄젠트) 함수 등 다양한 함수에서 찾을 수 있다. 시그모이드 함수는 다음 특징을 koosco.tistory.com 1. 정의를 이용한 구현 import numpy as np import matplotlib.pyplot as plt x = np.linspace(-8, 8, 100) y = 1 / (1 + np.exp(-x)) plt.figure(figsize=(12, 8)) plt.plot(x, y) plt.show() 2. scipy.special의 expit 함수 사용 from ..

DataScience
[ML] K-NeighborsRegressor (K-최근접 이웃 회귀)

1. K-NeighborsRegressor(K-최근접 이웃 회귀 알고리즘) K-최근접 이웃 모델은 분류 모델뿐만 아니라 회귀 모델도 만들 수 있습니다. 분류 모델에서는 범주형 데이터를 예측한다면, 회귀 모델에서는 연속형 데이터를 예측합니다. 분류 모델과 마찬가지로 train 데이터가 입력되면 데이터를 저장하고 있다가 새로운 값들이 들어오면 근접한 이웃들의 평균값을 계산해 예측값으로 반환합니다. 오늘은 농어의 길이와 무게 데이터를 이용해 K-최근접 이웃 회귀 모델을 공부해보겠습니다. 농어의 길이와 무게 데이터 농어의 길이와 무게 데이터. GitHub Gist: instantly share code, notes, and snippets. gist.github.com import numpy as np perc..

DataScience
[ML] SimpleImputer (누락값 처리)

데이터를 정제하는 과정에서 반드시 필요한 과정 중 하나는 누락값(Nan)의 처리입니다. 누락값을 처리하는 방법에는 1) 누락값을 갖고 있는 행의 삭제, 2) 누락값을 갖는 열(특성)의 삭제, 3) 대체값으로 대체하는 방법이 있습니다. 1. 일반적인 누락값 처리 방법 import pandas as pd df = pd.DataFrame(data) # 누락값을 갖는 행(레이블) 삭제 df.dropna(subset=['col1']) # 누락값을 갖는 열(특성) 삭제 df.drop('col1', axis=1) # 누락값을 대체값으로 채움 mean = df['col1'].mean() df['col1'].fillna(mean) 데이터를 모으는 과정에서 누락값의 처리는 꼭 필요한 작업입니다. 누락값을 너무 많이 제거해..

DataScience
[ML] K-NeighborsClassifier(K-최근접 이웃)

도미의 길이, 무게 데이터 도미의 길이, 무게 데이터. GitHub Gist: instantly share code, notes, and snippets. gist.github.com 빙어의 길이, 무게 데이터 빙어의 길이, 무게 데이터. GitHub Gist: instantly share code, notes, and snippets. gist.github.com 위 데이터를 이용해 K-최근접 이웃 모델에 대해 공부해보겠습니다. K-최근접 이웃 분류 모델은 지도학습 중에서도 분류 알고리즘에 해당하는 알고리즘입니다. K-최근접 이웃 모델은 별도의 규칙을 찾기보다는 전체 데이터를 메모리에 저장하는 역할만 합니다. 새로운 데이터가 주어지면 기존에 있던 데이터들 중에서 새로운 데이터와 유클리디언 거리가 가장 ..

Python/Syntax
[JupyterNoteBook] 사용자 정의 ipynb 파일 임포트 (다른 ipynb 파일 임포트)

JupyterNotebook에서는 py 파일이 아닌 ipynb 파일을 사용해 코드를 작성합니다. 일반적인 py 파일의 경우 import를 하면 바로 사용할 수 있지만 JupyterNotebook에서는 별도의 라이브러리를 임포트 한 이후에 사용할 수 있습니다. 다음과 같은 사용자 정의 함수를 만들고 다른 notebook에서 임포트 해보겠습니다. 그냥 ipynb 파일을 임포트하려하면 multiply라는 module이 존재하지 않는다고 합니다. pip3 install import_ipynb pip를 통해 import_ipynb를 설치한 다음 다시 사용자 정의 함수를 임포트 해보겠습니다. 정상적으로 ipynb 파일을 임포트하는 것을 확인할 수 있습니다.