5.7 공분산 (Covariance)과 상관계수 (Correlation Coefficient)

두 개의 확률변수 X, Y가 있을 때, 공분산(covariance, COV)과 상관계수(correlation coefficient, CORR)는 다음과 같이 정의한다.

\(COV(X, Y) \equiv E \left[ (X - \mu_X)(Y - \mu_Y) \right] = \iint (x - \mu_X) (y - \mu_Y) f(x, y) dy dx\)

\(-1 \leq CORR(X, Y) \equiv \frac{COV(X, Y)}{SD(X)SD(Y)} = \frac{COV(X, Y)}{\sigma_X \sigma_Y} \leq 1\)

COV(X, Y)의 간편공식은 다음과 같다

\(COV(X, Y) = E(XY) - E(X)E(Y)\)

확률변수의 함수로 새로운 확률변수들이 생긴 경우 기본적인 공식은 다음과 같다.

\(COV(aX + b, cY + d) = acCOV(X, Y)\)

\(CORR(aX + b, cY + d) = sign(ac) CORR(X,Y)\)

위의 sign 함수는 입력값이 양수이면 +1, 음수이면 -1을 return하는 함수이다. 입력값이 0이면 0을 return한다.

이제 두 확률변수를 더하거나 빼는 경우에 대한 공식을 쓰면 다음과 같다.

\(V(aX \pm bY \pm c) = a^2 V(X) + b^2 V(Y) \pm 2ab COV(X, Y) \; \text{double signs in same order}\)

위에서 상수 c는 영향이 없다. (평균의 경우에는 상수 c만큼 shift 되었다.)