5.7 공분산 (Covariance)과 상관계수 (Correlation Coefficient)

두 개의 확률변수 X, Y가 있을 때, 공분산(covariance, COV)과 상관계수(correlation coefficient, CORR)는 다음과 같이 정의한다.

COV(X,Y)E[(XμX)(YμY)]=

-1 \leq CORR(X, Y) \equiv \frac{COV(X, Y)}{SD(X)SD(Y)} = \frac{COV(X, Y)}{\sigma_X \sigma_Y} \leq 1

COV(X, Y)의 간편공식은 다음과 같다

COV(X, Y) = E(XY) - E(X)E(Y)

확률변수의 함수로 새로운 확률변수들이 생긴 경우 기본적인 공식은 다음과 같다.

COV(aX + b, cY + d) = acCOV(X, Y)

CORR(aX + b, cY + d) = sign(ac) CORR(X,Y)

위의 sign 함수는 입력값이 양수이면 +1, 음수이면 -1을 return하는 함수이다. 입력값이 0이면 0을 return한다.

이제 두 확률변수를 더하거나 빼는 경우에 대한 공식을 쓰면 다음과 같다.

V(aX \pm bY \pm c) = a^2 V(X) + b^2 V(Y) \pm 2ab COV(X, Y) \; \text{double signs in same order}

위에서 상수 c는 영향이 없다. (평균의 경우에는 상수 c만큼 shift 되었다.)