zenn.skin 무료버전 배포중!
자세히보기

통계 29

DataScience
기하평균의 의미

1. 기하평균 평균을 구하는 방법에는 여러가지 방법이 있다. 가장 많이 사용되는 산술평균은 여러 가지 방법 중에 하나로 오늘은 기하평균에 대해 알아보려 한다. 두 개의 값의 기하평균은 다음과 같이 구할 수 있다. 처음 기하평균을 보면 무슨 의미인지 잘 다가오지 않아 헷갈릴 수 있다. 기하평균의 의미는 "같은 수를 두 번 곱한값이 x와 y를 곱한 값과 같도록 하는 수"이다. 기하평균은 성장률을 구하는 경우에 주로 사용된다. 해마다 증가하는 증가량의 평균을 구하면 평균적으로 어느정도 성장했는지를 알 수 있다. 값의 개수가 n개라면 위와 같이 구할 수 있다. 값의 개수로 나눠주는 산술평균과 값의 개수로 제곱근을 취해주는 기하평균은 개념이 동일하다. 2. 예제 기업의 성장률이 첫해 20%, 다음 해 -10%, ..

DataScience
체르노프 부등식(Chernoff Inequality)

1. 체르노프 부등식 확률변수의 분포를 알고 있을 때 사용 가능하다 체비셰프 부등식에 비해 필요한 정보가 많아 잘 사용하지 않는다(분포를 알아야 한다) 적률 생성 함수(mgf)를 이용해 구할 수 있다 체르노프 부등식은 최솟값을 구하기 위해 미분을 하는 등의 추가적인 연산이 필요하고 확률변수의 분포를 알고 있어야만 사용한다는 단점이 있다. 마르코프 부등식이나 체비셰프 부등식에 비해 확률변수의 상한값을 오차 없이 제공한다는 장점이 있다. 2. 체르노프 부등식의 증명 단위 계단 함수와 지수함수가 만날 때, 만나는 점보다 큰 x값에서 단위 계단 함수는 지수함수보다 클 수 없다. 미분 등의 방법을 이용해 적률 생성 함수의 최솟값을 구하면 확률변수의 상한값을 구할 수 있다. 체르노프 부등식은 확률변수의 분포를 알고..

DataScience
마르코프 부등식, 체비셰프 부등식 (Markov Inequality, Chebyshev Inequality)

1. 마르코프 부등식(Markov Inequality) 확률변수의 기댓값을 알고 있을 때 사용 가능하다 정확한 확률분포를 몰라도 기댓값을 알면 사용 가능하다는 장점이 있다 체비셰프 부등식을 증명하기 위해 사용된다 마르코프 부등식은 음이 아닌 값을 갖는 확률변수의 상한값을 나타낸다. 2. 마르코프 부등식의 증명 부등식 오른쪽의 적분식에서 x는 c^2부터 무한대까지 적분을 한다. 그러므로 x값은 항상 c^2보다 크게 된다. 3. 체비셰프 부등식(Chebyshev Inequality) 확률변수의 분산을 알고 있을 때 사용 가능하다 마르코프 부등식에 비해 상한값이 줄어든다(정확도가 더 높다) 마르코프 부등식을 이용해 증명 가능하다 체비셰프 부등식은 마르코프 부등식과 다르게 확률변수가 음일 경우에도 사용 가능하다..

DataScience
적률 생성 함수 (Moment Generating Function : MGF)

1. 적률(Moment)이란? 적률이란 확률변수 X^n의 기댓값을 의미한다. X^n의 기댓값을 n차 적률이라 하며, n이 1이면 1차 적률, 2이면 2차 적률이라 한다. 1차 적률은 평균(mean), 2차 적률은 분산(variance), 3차 적률은 왜도(skewness), 4차 적률은 첨도(kurtosis)를 구하는 데 사용될 수 있다. 평균과 분산만 갖고는 분포를 정확히 파악하기 어렵다. 왜도와 첨도의 데이터를 얻으면 좀 더 분포에 대해 정확히 이해할 수 있는데 적률을 이용해 분포의 특성을 쉽게 얻을 수 있다. 2. 적률 생성 함수(Moment Generating Function: MGF) 적률 생성 함수는 특정 확률 분포에 대한 "적률을 생성하는 함수"이다. 다음과 같이 정의되고 값을 계산하므로써 ..

DataScience
공분산, 상관계수 (Covariance, Correlation Coefficient)

1. 공분산 (Covariance) 분산은 한 개의 확률 변수가 주어질 때, 그 변수가 평균으로부터 평균적으로 얼마나 떨어져있는지(분포되어 있는지)를 나타낸다. 비슷하게 공분산은 2개의 확률 변수가 주어질 때, 두 확률 변수가 얼마나 다른지(상관이 있는지) 알 수 있다. 두 확률 변수가 함께 변하는지를 나타내는 값으로, 두 변수가 함께 증가(또는 감소)하는지를 나타낸다. * 공분산에 따른 두 랜덤 변수의 관계 (1) Cov[X,Y] > 0 인 경우 즉, 공분산이 양수인 경우, X와 Y는 서로 증감에 대해 비례 관계를 갖는다. (2) Cov[X,Y] < 0 인 경우 즉, 공분산이 음수인 경우, X와 Y는 서로 증감에 대해 반비례 관계를 갖는다. 2. 상관 계수 (Correlation Coefficient)..

DataScience
몬티홀 딜레마, 몬티홀 문제 풀이

몬티홀 문제 A, B, C 세 개의 문이 주어진다. 한 개의 문 뒤에는 자동차가 있고, 나머지 두 개의 문 뒤에는 염소가 있다. 당신이 A문을 열었고 사회자는 C문을 열어 염소를 확인시켜주었다. 사회자가 당신에게 문을 바꿀지 물어볼 때 당신은 선택을 바꿀 것인가? 조건부 확률과 베이즈 정리를 공부할 때 꼭 접하게 되는 확률 문제이다. 정답부터 말하면 바꾸는 것이 이득이다. 지금부터 왜 그런지 두 가지 방법으로 확률 문제를 풀며 살펴보려 한다. 풀이 1) 조건부 확률 이용 사회자가 각각의 문을 여는 사건을 A, B, C라 하자. 각각의 문을 선택했을 때, 1) 선택을 바꾸지 않는 경우와 2) 바꾸는 경우에 대해서 비교해 보려 한다. 차는 A문 뒤에 있다 가정하자. (바꾼다는 사실이 중요하므로 어느 문을 정..

DataScience
베이즈 정리 (Bayes' theorem)

베이즈 정리는 조건부 확률에 대한 정리 중 하나이다. 사건 A와 사건 B에 대해, 확률 P(A)와 P(B), 조건부 확률 P(B|A)를 알고 있을 때, P(A|B)를 도출해 낼 수 있다. 베이즈 정리는 다음과 같이 증명할 수 있다. 전체 확률의 법칙을 적용하면, 조건부 확률 1. 확률 - 확률은 주어진 사건 공간에서 특정 사건이 선택되는 경우를 수치적으로 나타낸 것이다 - 모델을 만들거나, 만들어진 모델의 성능을 평가하는 데에 사용 가능하다 2. 종속성과 독립성 - � koosco.tistory.com

DataScience
조건부 확률 (Conditional Probability)

1. 확률 - 확률은 주어진 사건 공간에서 특정 사건이 선택되는 경우를 수치적으로 나타낸 것이다 - 모델을 만들거나, 만들어진 모델의 성능을 평가하는 데에 사용 가능하다 2. 종속성과 독립성 - 두 개의 사건이 주어질 때, 한 사건의 발생 여부가 다른 사건의 발생 여부에 대한 정보를 준다면 두 사건은 종속 사건이다. 만약 정보를 주지 않는다면 둘은 독립 사건이다. ex1) 동전을 두 번 던진다. 사건 A는 첫 번째 동전이 앞면인 경우이고, 사건 B는 두 동전이 모두 뒷면이 나오는 경우이다. 사건 A가 일어난다면 사건 B는 일어날 수 없다. 따라서 두 사건은 종속 사건이 된다. ex2) 동전을 두 번 던진다. 사건 A는 첫 번째 동전이 앞면인 경우이고, 사건 B는 두 번째 동전이 뒷면이 나오는 경우이다. ..