zenn.skin 무료버전 배포중!
자세히보기

DataScience

공분산, 상관계수 (Covariance, Correlation Coefficient)

koosco! 2020. 9. 18. 19:59

1. 공분산 (Covariance)

분산은 한 개의 확률 변수가 주어질 때, 그 변수가 평균으로부터 평균적으로 얼마나 떨어져있는지(분포되어 있는지)를 나타낸다. 비슷하게 공분산은 2개의 확률 변수가 주어질 때, 두 확률 변수가 얼마나 다른지(상관이 있는지) 알 수 있다.

두 확률 변수가 함께 변하는지를 나타내는 값으로, 두 변수가 함께 증가(또는 감소)하는지를 나타낸다.

 

공분산 식, XY에 대한 표준편차로도 쓸 수 있다

 

* 공분산에 따른 두 랜덤 변수의 관계

 

(1) Cov[X,Y] > 0 인 경우

 

즉, 공분산이 양수인 경우, X와 Y는 서로 증감에 대해 비례 관계를 갖는다.

 

(2) Cov[X,Y] < 0 인 경우

즉, 공분산이 음수인 경우, X와 Y는 서로 증감에 대해 반비례 관계를 갖는다.

 

2. 상관 계수 (Correlation Coefficient)

공분산은 두 확률 변수가 얼마나 상관이 있는지를 나타낸다. 하지만 각 확률변수의 단위를 포함하게 된다. 단위가 포함되면 객관적으로 얼마나 차이가 있는지 확인하기 어렵다. 상관 계수는 공분산을 X와 Y의 표준편차로 나누어준 값으로 공분산과 다르게 단위를 갖지 않는다.

 

상관 계수식

 

상관계수는 -1~1 사이의 값을 가지게 된다.

-1에 가까울 수록 음의 상관이 강해지고 1에 가까울 수록 양의 상관에 가까워 진다. 0에 가까운 값을 가지면 둘의 상관관계가 거의 존재하지 않는다.

 

3. 서로 독립인 경우

두 랜덤변수 X와 Y가 독립인 경우, 둘은 상관관계가 없으므로 둘의 공분산은 0이 되고, 상관계수도 마찬가지로 0이 된다.

 

 

* 두 랜덤 변수의 분산은 다음과 같다

 

 

만약 X와 Y가 독립이라면 공분산은 0이 되고, 두 변수의 합의 분산은 각각의 분산을 합한 값이 된다.

 

 

 

'DataScience'의 다른글

  • 현재글 공분산, 상관계수 (Covariance, Correlation Coefficient)

관련글