zenn.skin 무료버전 배포중!
자세히보기

DataScience

통계적 추론, 추정의 의미?

koosco! 2022. 6. 7. 20:43

오늘은 추론 통계학 중에서도 통계적 추정에 대해 정리해보려 합니다.

통계적 가설 검정은 "어떤 불확실한 현상이 특정 분포를 따른다고 하면, 해당 분포의 성질을 이용해서 불확실한 현상을 예측할 수 있지 않을까"하는 생각에서 출발합니다. 여기서는 가장 많이 사용되는 분포 중 하나인 표준정규분포를 살펴보려 합니다.

 

1. 표준편차의 범위

(μ−σ, μ+σ)에 포함되는 데이터는 전체의 68.26% 입니다. 포함되는 데이터가 전체의 68.26%라는 것은 하나의 수를 뽑아서 그 값을 맞추려할 때 (μ−σ, μ+σ) 안에 있는 숫자를 말하면 68.26% 확률로 적중하는 것을 의미합니다.

표준편차의 범위가 커지게 되면 포함되는 데이터의 양은 더 커지게 됩니다. (μ−2σ, μ+2σ)에 포함되는 데이터는 늘어나 95.44 %가 됩니다. (95.44%의 적중률)

만약 표준편차의 범위가(μ−σ, μ+σ) 라면 모든 데이터가 포함될 것이고 적중할 확률은 100%가 될 것입니다.

 

하지만 표준편차가 커진다는 것은 그만큼 수의 범위가 넓어지는 것을 의미합니다. 미지의 수를 추정하는데 -∞ ~ ∞ 안에 있는 숫자 중 하나라고 말하는 것은 추정하는 의미가 사라집니다. 평균으로부터 ±2σ 표준편차 안에 드는 데이터는 95.44%의 데이터가 포함됩니다. 위에서 말한 것과 같이 전체에서 하나의 수를 뽑아 그 값을 맞추려할 때 해당하는 수가 (μ−2σ, μ+2σ) 안에 들 확률이 95.44%라는 것을 의미합니다. 값이 틀릴 확률도 생겼지만 4.56%의 틀릴 확률을 제외하면 숫자가 포함되는 범위가 엄청나게 줄어든 것을 알 수 있습니다!

 

보통은 95.44%보다 조금 작지만 깔끔하게 떨어지는 95%의 정확도를 갖고, 5%의 틀릴 확률을 갖도록 (μ−1.96σ, μ+1.96σ)의 범위를 설정합니다. 외에도 좀 더 높은 정확도를 요할 때는 99%로 정확도를 설정할 때도 있습니다.

 

2. 평균을 기준으로 대칭이 되게 구간을 구하는 이유?

통계적 가설검정에 많이 사용되는 정규분포는 1)대칭성을 갖고 2)평균에서 최댓값을 갖습니다. 평균에서부터 ±Aσ로 범위를 정하는 것이 아니라 임의로 정할 수도 있습니다. 하지만 가장 짧은 구간을 선택하기 위해 ±Aσ의 범위를 선택합니다.

 

가설검정에서 양측검정이 아닌 단측검정을 할 때는 대칭이 아닌 한 쪽 방향만으로 구간을 정할 수도 있습니다!! 별도에 게시물에서 양측검정과 단측검정에 대해서도 정리해보려 합니다

 

3. 일반정규분포의 표준화

데이터가 정규분포를 따른다고 하더라도 각각의 정규분포는 서로 다른 평균과 표준편차를 갖습니다. 정규분포의 적절히 변형해 평균을 0, 표준편차를 1로 만드는 과정을 표준화라고 하는데 정규분포를 사용할 때는 이렇게 표준화를 한 후 표준 정규분포를 사용합니다.

 


의 = μ σ 

 

정규분포의 표준화에 대해서도 별도의 게시물로 다룰 예정입니다!

4. 평균과 표준편차를 알고 있는 경우의 값의 추정

평균과 표준편차를 모두 알고 있는 데이터에 대해 값이 포함되는 구간을 구해보려 합니다.

 


 평균이 160, 표준편차가 10인 여성의 키 데이터가  정규분포를 따른다고 한다. 전체 데이터 중에서 하나의 데이터를 뽑았을 때,  95%의 데이터가 포함되는 범위는?


 

정리)- 통계적 추정은 어떤 특정 분포의 성질을 이용해 불확실한 현상을 예측하는 것(ex. 모수 추정)- 분포의 α%만큼의 데이터가 포함된다는 것은 데이터 전체에서 하나의수를 뽑았을 때 해당 범위 안에 있을 확률이 α라는 것을 의미- 평균으로부터 표준편차가 멀어질수록 포함되는 데이터의 수는 늘어남 -> 맞출 확률이 늘어남 But, 값의 범위도 늘어나게 됨- 표준편차가 ∞가 되면 100%확률로 맞출 수 있지만 값의 범위가 ∞이기 때문에 추정하는 의미가 사라짐- μ±1.96σ 안에 포함되는 데이터는 전체 데이터의 95%가 된다- 보통 95%, 99%의 정확도로 많이 추정하지만 편의에 따라 더 낮추거나 높일 수 있다(낮출경우 범위가 좁아짐, 높일 경우 범위가 넓어짐)- 정규분포의 추정의 경우 정규분포가 대칭성을 가지며 평균에서 최댓값을 가져 평균으로부터 ±Aσ로 범위를 정한다- 정규분포를 따르더라도 각각의 평균과 표준편차가 다르기 때문에 표준화를 한 후 표준 정규분포를 사용한다

 

오늘은 통계적 추정이 어떤 식으로 진행되는지 살짝만 정리했습니다. 실제 추정을 하는 경우 모집단에 대한 정보를 모르기 때문에 위의 예제처럼 간단하게 구하는 것이 표본으로부터 모수를 추정을 해야합니다. 다음에는 표본으로부터의 모수 추정에 대해 공부해 보려합니다!

'DataScience'의 다른글

  • 현재글 통계적 추론, 추정의 의미?

관련글