zenn.skin 무료버전 배포중!
자세히보기

DataScience 56

DataScience
[ML] 머신러닝 시스템의 종류

머신러닝 알고리즘의 종류는 매우 다양합니다. 이들을 넓은 범주에서 분류하고 사용한다면 이해하는 데 도움을 줄 수 있습니다. 사람의 감독하에 훈련하는 것인지의 여부: 지도, 비지도, 준지도, 강화 학습 실시간으로 점진적 학습을 하는지 여부: 온라인 학습, 배치 학습 저장하고 있는 데이터와 새로운 데이터를 비교 or 데이터에서 패턴을 발견 해 예측 모델을 만드는지: 사례 기반 학습, 모델 기반 학습 위 범주들은 서로 배타적이지 않습니다. (ex) 지도학습이며 배치 학습이며 사례 기반 학습인 머신러닝 알고리즘) 1. 지도학습과 비지도 학습 "학습하는 동안의 감독 형태나 정보량" 에 따라 분류 지도 학습, 비지도 학습, 준지도 학습, 강화 학습으로 구분 ① 지도학습 훈련 데이터가 레이블을 포함하고 있음 분류 알..

DataScience
[Numpy] Poly1d 그래프 plot

[Numpy] 다항식을 다룰 수 있는 polynomial class, poly1d 회귀방정식을 구하거나 수치 연산을 할 때 다항식을 다룰 일이 엄청나게 많습니다! Numpy에서는 다항식을 사용하기 쉽게 polynomial class를 제공하고 있는데 오늘은 이 polynomial class에 대해 공부해보 koosco.tistory.com 지난 번에 다항식을 다룰 수 있도록 해주는 numpy의 poly1d class에 대해 알아보았습니다. stack overflow에서 polynomial을 plot하는 내용의 질문을 보고 한 번 정리해두려 합니다. import matplotlib.pyplot as plt import numpy as np p = poly1d([1, 2, 1]) plt.plot(p) 위 다..

DataScience
[Matplotlib] PieChart(파이차트)

1. 파이 차트 - 항목 별 비율차이를 파악하기 편한 그래프 - 범주형 자료를 표현하기에 적합 - 전체 데이터 중 특정 데이터의 비율을 보기 쉽게 표현 2. 파이 차트 사용 import matplotlib.pyplot as plt size = [30, 20, 15, 60] label = ['A', 'B', 'C', 'D'] color = ['darkmagenta', 'deeppink', 'hotpink', 'pink'] plt.title("Example Pie") plt.pie(size, labels=label, colors=color, autopct="%.1f%%", explode=(0, 0, 0.1, 0)) plt.legend() plt.axis('equal') pie chart의 파라미터 사용 - ..

DataScience
모집단과 표본집단, 표본평균의 의미

𝑋1,𝑋2,𝑋3,...,𝑋𝑛을 추출했을 때, 해당하는 확률표본들의 평균이다 ※주의: 확률표본 𝑋1,𝑋2,𝑋3,...,𝑋𝑛은 각각이 크기가 n이 아니라 크기가 1인 표본들이 n개 있는것! 2. 중심극한정리 표본의 수 n이 충분히 큰 경우(보통 n > 30 정도) 모집단의 분포에 관계없이 표본평균의 분포는 정규분포를 따른다는 정리입니다. 확률표본을 추출한 후 이들의 평균을 구하는 시행을 반복하면, 이들 평균의 분포는 정규분포에 근사하게 됩니다. 이렇게 구해진 정규분포는 다음과 같습니다.

DataScience
[Numpy] 다항식을 다룰 수 있는 polynomial class, poly1d

회귀방정식을 구하거나 수치 연산을 할 때 다항식을 다룰 일이 엄청나게 많습니다! Numpy에서는 다항식을 사용하기 쉽게 polynomial class를 제공하고 있는데 오늘은 이 polynomial class에 대해 공부해보려 합니다. 1. poly1d 다항식이 주어질 때 poly1d는 다항식의 계수만을 이용해 다항식을 나타냅니다. 위 다항식 같은 경우 poly1d([1, 1])과 같이 나타냅니다. 연산을 통해 다항식의 값을 계산하는 것도 가능합니다. 두 개의 다항식이 주어질 때 덧셈 연산을 수행하면, 다음은 곱셈 연산을 해보겠습니다 마지막으로 나눗셈 연산도 해보면 2) 다항식의 차수 len 함수를 통해 다항식의 차수를 구할 수 있습니다. 오늘은 numpy를 통해 polynomial class를 나타내는..

DataScience
정규분포를 왜 표준화하는걸까?

1. 정규분포를 표준화하는 이유 정규분포를 사용할 때는 먼저 평균과 표준편차를 ~N(0, 1)인 표준정규분포로 표준화한 후에 사용합니다. 정규분포를 따르는 분포는 많지만 각각의 평균과 표준편차가 다르기 때문에 일반화할 수 없기 때문입니다. 평균과 표준편차가 아무리 다르더라도 N(0, 1)로 만든다면 모두 같은 특성을 가지는 동일한 확률분포로 사용할 수 있습니다. 그렇다면 어떻게 이런 표준화가 가능할까요 2. 표준화하는 방법 데이터를 표준화하는 방법은 간단합니다. 지금부터 왜 이렇게 표준화가 되는지 차근차근 알아보려합니다. [5, 7, 11, 13, 8, 4] 라는 공부시간 데이터가 있을 때 해당 자료를 정규화하려 합니다. 1) 평균 주어진 데이터는 평균으로 8을 갖습니다. 이 때 모든 데이터에 대해 평균..

DataScience
통계적 추론, 추정의 의미?

오늘은 추론 통계학 중에서도 통계적 추정에 대해 정리해보려 합니다. 통계적 가설 검정은 "어떤 불확실한 현상이 특정 분포를 따른다고 하면, 해당 분포의 성질을 이용해서 불확실한 현상을 예측할 수 있지 않을까"하는 생각에서 출발합니다. 여기서는 가장 많이 사용되는 분포 중 하나인 표준정규분포를 살펴보려 합니다. 1. 표준편차의 범위 (μ−σ, μ+σ)에 포함되는 데이터는 전체의 68.26% 입니다. 포함되는 데이터가 전체의 68.26%라는 것은 하나의 수를 뽑아서 그 값을 맞추려할 때 (μ−σ, μ+σ) 안에 있는 숫자를 말하면 68.26% 확률로 적중하는 것을 의미합니다. 표준편차의 범위가 커지게 되면 포함되는 데이터의 양은 더 커지게 됩니다. (μ−2σ, μ+2σ)에 포함되는 데이터는 늘어나 95.44..

DataScience
기하평균의 의미

1. 기하평균 평균을 구하는 방법에는 여러가지 방법이 있다. 가장 많이 사용되는 산술평균은 여러 가지 방법 중에 하나로 오늘은 기하평균에 대해 알아보려 한다. 두 개의 값의 기하평균은 다음과 같이 구할 수 있다. 처음 기하평균을 보면 무슨 의미인지 잘 다가오지 않아 헷갈릴 수 있다. 기하평균의 의미는 "같은 수를 두 번 곱한값이 x와 y를 곱한 값과 같도록 하는 수"이다. 기하평균은 성장률을 구하는 경우에 주로 사용된다. 해마다 증가하는 증가량의 평균을 구하면 평균적으로 어느정도 성장했는지를 알 수 있다. 값의 개수가 n개라면 위와 같이 구할 수 있다. 값의 개수로 나눠주는 산술평균과 값의 개수로 제곱근을 취해주는 기하평균은 개념이 동일하다. 2. 예제 기업의 성장률이 첫해 20%, 다음 해 -10%, ..

DataScience
[Pandas] Series

1. Series? - 데이터가 순차적으로 나열된 1차원 배열의 형태 - index와 value가 일대일 대응되어 저장 - value의 값은 다양한 자료형이 될 수 있음(정수, 부동소수, 문자열, Bool형 ...) 2. Series의 생성 1) Dictionary를 인자로 받는 경우 - key는 Series의 index, value는 Series의 value로 저장 import pandas as pd dict_data = {'a': 1, 'b': 2, 'c': 3} sr = pd.Series(dict_data) sr 2) List를 인자로 받는 경우 - 각각의 list인자가 Series의 value로 저장 - index는 0부터 차례대로 저장 list_data = [1, True, 'Koo', 1.23..