zenn.skin 무료버전 배포중!
자세히보기

정규 분포 6

DataScience
정규분포를 왜 표준화하는걸까?

1. 정규분포를 표준화하는 이유 정규분포를 사용할 때는 먼저 평균과 표준편차를 ~N(0, 1)인 표준정규분포로 표준화한 후에 사용합니다. 정규분포를 따르는 분포는 많지만 각각의 평균과 표준편차가 다르기 때문에 일반화할 수 없기 때문입니다. 평균과 표준편차가 아무리 다르더라도 N(0, 1)로 만든다면 모두 같은 특성을 가지는 동일한 확률분포로 사용할 수 있습니다. 그렇다면 어떻게 이런 표준화가 가능할까요 2. 표준화하는 방법 데이터를 표준화하는 방법은 간단합니다. 지금부터 왜 이렇게 표준화가 되는지 차근차근 알아보려합니다. [5, 7, 11, 13, 8, 4] 라는 공부시간 데이터가 있을 때 해당 자료를 정규화하려 합니다. 1) 평균 주어진 데이터는 평균으로 8을 갖습니다. 이 때 모든 데이터에 대해 평균..

DataScience
통계적 추론, 추정의 의미?

오늘은 추론 통계학 중에서도 통계적 추정에 대해 정리해보려 합니다. 통계적 가설 검정은 "어떤 불확실한 현상이 특정 분포를 따른다고 하면, 해당 분포의 성질을 이용해서 불확실한 현상을 예측할 수 있지 않을까"하는 생각에서 출발합니다. 여기서는 가장 많이 사용되는 분포 중 하나인 표준정규분포를 살펴보려 합니다. 1. 표준편차의 범위 (μ−σ, μ+σ)에 포함되는 데이터는 전체의 68.26% 입니다. 포함되는 데이터가 전체의 68.26%라는 것은 하나의 수를 뽑아서 그 값을 맞추려할 때 (μ−σ, μ+σ) 안에 있는 숫자를 말하면 68.26% 확률로 적중하는 것을 의미합니다. 표준편차의 범위가 커지게 되면 포함되는 데이터의 양은 더 커지게 됩니다. (μ−2σ, μ+2σ)에 포함되는 데이터는 늘어나 95.44..

DataScience
오차함수와 정규분포와의 관계

1. 오차 함수 다음과 같은 함수를 오차 함수(Error Function)라 한다. 줄여서 erf라고도 한다. 2. 오차 함수와 정규분포와의 관계 오차 함수는 정규분포의 cdf와 밀접한 관계가 있는데 둘의 관계를 확인해 보려 한다. 즉, 정규분포의 cdf와 오차함수는 본질적으로 같은 함수임을 알 수 있다. 오차 함수에 값을 대입하고 평행이동을 하면 정규분포의 cdf를 구할 수 있다. 3. 그래프 확인하기 math.erf 함수를 이용하면 정규분포의 CDF를 구할 수 있다 import matplotlib.pyplot as plt import math def normal_cdf(x, mu=0, sigma=1): return (1+math.erf((x-mu)/math.sqrt(2)*sigma))/2 xs = n..

DataScience
[Matplotlib] 정규분포 그리기

Python을 이용해 정규분포를 그려보려 한다. 정규분포의 pdf는 다음과 같다. 1. 직접 생성 위 식을 함수로 정의하면, 다음과 같다 import matplotlib.pyplot as plt import math def normal_pdf(x, mu=0, sigma=1): return(math.exp(-(x-mu)**2)/(2*sigma**2))/(math.sqrt(2*math.pi)*sigma) 다음과 같이 xs_1에 대한 정규분포를 구해보자(plot에 정수값을 넣을 수 없으므로, x/10을 대입) xs_1 = [x/10 for x in range(-50, 50)] plt.plot(xs_1, [normal_pdf(x) for x in xs_1]) 다양한 정규분포를 구해보면, plt.plot(xs, ..

DataScience
정규분포의 정의와 평균, 분산

1. 정규 분포의 랜덤 변수 정규 분포는 Gaussian Distribution 또는 Normal Distribution이라 한다. 고등학교 때 확률과 통계에서도 배우고 대학교에 올라와서도 제일 중요하게 배우는 분포이다. 정규분포는 중심 극한 정리나 이외에도 여러 공식을 유도할 때도 많이 사용되는 통계에서 가장 중요한 분포이다. 2. 정규분포의 특성 1) 종모양의 분포 : 좌우가 대칭인 종모양의 분포를 갖는다 2) 평균값 = 중앙값 = μ 3) P(x =μ) = 1/2 4) 평균이 0, 분산이 1인 표준 정규분포를 갖는다 5) 표준정규분포는 별도의 표가 존재해 값을 구하기 편하다 3. 평균 이 때, 앞의 식은 기함수와 우함수가 곱해져 기함수이므로, 적분 값은 0이 되고, 뒤의 식을 적분하면, 이 된다. ..