1. 공분산 (Covariance)
분산은 한 개의 확률 변수가 주어질 때, 그 변수가 평균으로부터 평균적으로 얼마나 떨어져있는지(분포되어 있는지)를 나타낸다. 비슷하게 공분산은 2개의 확률 변수가 주어질 때, 두 확률 변수가 얼마나 다른지(상관이 있는지) 알 수 있다.
두 확률 변수가 함께 변하는지를 나타내는 값으로, 두 변수가 함께 증가(또는 감소)하는지를 나타낸다.
* 공분산에 따른 두 랜덤 변수의 관계
(1) Cov[X,Y] > 0 인 경우
즉, 공분산이 양수인 경우, X와 Y는 서로 증감에 대해 비례 관계를 갖는다.
(2) Cov[X,Y] < 0 인 경우
즉, 공분산이 음수인 경우, X와 Y는 서로 증감에 대해 반비례 관계를 갖는다.
2. 상관 계수 (Correlation Coefficient)
공분산은 두 확률 변수가 얼마나 상관이 있는지를 나타낸다. 하지만 각 확률변수의 단위를 포함하게 된다. 단위가 포함되면 객관적으로 얼마나 차이가 있는지 확인하기 어렵다. 상관 계수는 공분산을 X와 Y의 표준편차로 나누어준 값으로 공분산과 다르게 단위를 갖지 않는다.
상관계수는 -1~1 사이의 값을 가지게 된다.
-1에 가까울 수록 음의 상관이 강해지고 1에 가까울 수록 양의 상관에 가까워 진다. 0에 가까운 값을 가지면 둘의 상관관계가 거의 존재하지 않는다.
3. 서로 독립인 경우
두 랜덤변수 X와 Y가 독립인 경우, 둘은 상관관계가 없으므로 둘의 공분산은 0이 되고, 상관계수도 마찬가지로 0이 된다.
* 두 랜덤 변수의 분산은 다음과 같다
만약 X와 Y가 독립이라면 공분산은 0이 되고, 두 변수의 합의 분산은 각각의 분산을 합한 값이 된다.
'DataScience' 카테고리의 다른 글
정규분포의 적률 생성함수 (Gaussian Distribution's mgf) (0) | 2020.09.21 |
---|---|
적률 생성 함수 (Moment Generating Function : MGF) (0) | 2020.09.21 |
몬티홀 딜레마, 몬티홀 문제 풀이 (3) | 2020.09.08 |
베이즈 정리 (Bayes' theorem) (0) | 2020.09.08 |
조건부 확률 (Conditional Probability) (0) | 2020.09.08 |