목록통계 (31)
Koo's.Co
두 표본에 대한 모평균 검정을 할 때는 표본이 대응하는 표본인지, 독립된 표본인지에 따라 표준편차를 구하는 방법이 달라집니다. 또 독립된 표본이라도 모분산을 알고 있을 때와 모분산을 모를 때의 검정 방법에 차이가 있습니다. 1. 대응표본 t검정(Paired-sample t test) 대응표본은 검정하려고 하는 두 표본이 동일한 대상일 때 사용 가능합니다. A, B, C, D라는 표본이 있고, 어떠한 처리가 주어진 후 결과가 A', B', C', D'이 될 때, 표본은 동일하지만 통계치는 달라지게 됩니다. 처리 전 처리 후 A 13 15 B 16 18 C 19 17 D 11 13 위와 같이 검정하고자하는 표본이 동일한 경우에 대응표본 t검정을 수행할 수 있습니다. import numpy as np from..
t분포를 사용한 신뢰구간을 구해보겠습니다. 신뢰수준이 주어졌을 때, t분포의 단방향 신뢰구간은 위와 같이 구할 수 있습니다. 오른쪽에 대한 신뢰구간도 동일하게 구할 수 있습니다. from scipy.stats import t from typing import Tuple from math import sqrt from numpy import inf def one_side_interval(x_bar: float, s: float, n: int, alpha: float, lower: bool=True) -> Tuple[float, float]: if lower: critical_value = x_bar - t.ppf(1 - alpha, n - 1) * s / sqrt(n) return tuple([round(..
scipy.stats에서 제공하는 ttest_ind를 사용하면 t검정을 수행할 수 있습니다. 하지만 ttest_ind는 입력값으로 array_like를 받기 때문에 원본 데이터값이 있을 때만 사용할 수 있습니다. 데이터가 없고 데이터에 대한 통계량만 있는 경우 t검정과 z검정을 수행하는 방법에 대해 정리해보겠습니다. 1. t검정(t-test) 파라미터 설명 x_bar 표본평균 float mu 검저하고자 하는 평균값 float s 표본표준편차 float n 표본크기 int alpha 신뢰수준 float default=0.05 two_sided 양측검정 여부 bool defalut=True t검정을 하기 위해서는 먼저 검정통계량인 t0를 구해야 합니다. t_value = (x_bar - mu) * sqrt(..
1. pandas.crosstab crosstab은 범주형 변수를 기준으로 데이터의 개수를 파악할 때 사용합니다. crosstab을 사용해 빈도표를 만들어 카이제곱검정을 할 때도 유용합니다. 파라미터 설명 index: array-like, Series,list, arrays 행으로 지정할 데이터 columns: array-like, Series, list, arrays 열로 지정할 데이터 values: array-like, optional 집계할 데이터 (aggfunc을 같이 사용해야 합니다) aggfunc: function, optional 집계할 방법을 선택(count, mean, median ...) margins: bool, default=False 총계를 보고 싶은 경우 사용 dropna: bo..
1. 부트스트랩(Bootstrap) 표본분포를 추정하는 쉽고 효과적인 방법은, 현재 있는 표본에서 추가적으로 표본을 복원추출하여 통계량과 모델을 다시 계산하는 방법입니다. 이러한 방법을 부트스트랩이라 하며, 부트스트랩을 할 때 데이터나 표본통계량이 정규분포를 따라야 한다는 가정은 필요하지 않습니다. 원래 부트스트랩은 갖고있는 표본을 무한대로 복제한 후 거기에서 표본을 추출하는 방법을 의미합니다. 하지만 실제로는 표본을 복제하지 않고 복원추출하는 방법으로 부트스트랩을 사용합니다. 부트스트랩을 사용하는 이유는 작은 표본크기를 보완하거나 새로운 데이터를 만드는 것이 아닙니다. 표본을 이용해 가상의 모집단을 만들고 거기서 표본추출을 했을 때, 새로운 표본이 원래의 표본과 얼마나 비슷할지를 보여주는 역할을 합니다..
- Chapter3 목표: 전통적인 실험설계에 대해 알아보고 데이터 과학에도 적용되는 어려움에 대해 공부 - 실험설계는 모든 응용 연구 분야에서 통계분석의 토대가 됩니다. - 실험설계의 목적은 가설을 확인하거나 기각하는 것입니다. - 통계적 추론 방법: 1) 가설을 설정 -> 2) 가설 검정을 위한 실험 설계 -> 3) 데이터 수집 -> 4) 데이터 분석 -> 5)결론 도출 - 추론이라는 용어는 제한된 데이터로 주어진 실험 결과를 더 큰 과정( 또는 모집단)에 적용하려는 의도를 반영합니다 1. A/B 검정(A/B test) - A/B 검정은 두 가지 처리 방법 중 어느 쪽이 다른 쪽보다 더 우월하다는 것을 입증하기 위해, 실험군을 두 그룹으로 나누어 진행하는 실험을 의미합니다. - 한 쪽 그룹에만 처리를..
- 표본 추출의 필요성: 다양한 데이터를 효과적으로 다루고 데이터 편향을 최소화하기 위해 표본 추출이 필요합니다 - 데이터 프로젝트도 결국 작은 표본 데이터를 이용해 모델을 개발하고 학습시킵니다 - 전통적인 통계학: 이론적 가정에 기초해 모집단을 규명하는 것이 목적 - 현대 통계학: 표본을 중점적으로 연구 1. 임의표본추출과 통계량(random sampling & statistic) - 모집단(population): 연구하고자 하는 전체 데이터 집단 - 표본(sample): 전체 모집단을 확인하는 것이 불가능하기 때문에, 모집단으로부터 추출한 전체 데이터의 부분집합 - 임의표본추출(random sampling): 모집단에서 선택 가능한 원소들을 무작위로 추출하는 표본추출 방법 - 단순임의표본(simple..
랜덤 함수를 사용할 때마다 다시 찾아봐야해서 정리를 해두려 합니다. 제공하는 함수가 워낙 많아서 그 중에서 자주 사용하는 함수 몇 개만 추리겠습니다. 랜덤함수에 대해 좀 더 공부하고 싶으신 분은 help(random)을 통해 도움말을 보거나, random — 의사 난수 생성 — Python 3.10.5 문서 random — 의사 난수 생성 소스 코드: Lib/random.py 이 모듈은 다양한 분포에 대한 의사 난수 생성기를 구현합니다. 정수에 대해서는, 범위에서 균일한 선택이 있습니다. 시퀀스에 대해서는, 무작위 docs.python.org random 공식 문서를 확인하시면 좋을 것 같습니다. 1. choice( seq) import random random.choice([1, 2, 3, 4]) # ..