5.3 기대값 (Expectation)
5.3.1 평균 (Mean)
확률변수 X의 확률질량함수 또는 확률밀도함수를 f(x)라 할 때, X의 기대값(E(X)) 또는 평균(\(\mu\))은 다음과 같이 정의한다.
\(E(X) \equiv \begin{cases} \sum_{j=1}^{\infty} x_j f(x_j) & \text{for discrete random variable} \\ \int_{-\infty}^{\infty} x f(x) dx & \text{for continuous random variable} \end{cases}\)
5.3.2 확률변수의 함수의 기대값
확률변수 X의 함수 g(X)가 있고 (g(X)는 새로운 확률변수), X의 pdf가 f(x)일 때,
\(E[g(X)] = \begin{cases} \sum_{j=1}^{\infty} g(x_j)f(x_j) & \text{for discrete random variable} \\ \int_{-\infty}^{\infty} g(x) f(x) dx & \text{for continuous random variable} \end{cases}\)
[예시]
\(\begin{aligned} &E(2X) = \int_{-\infty}^{\infty} 2x f(x) dx = 2\int_{-\infty}^{\infty} x f(x) dx = 2E(X) \end{aligned}\)
Summation과 integration의 기본 성질을 이용하면, 다음과 같은 공식을 구할 수 있다.
\(E(aX + b) = aE(X) + b\) (X는 확률변수; a, b는 상수)
[증명] 연속형인 경우
\(\begin{array} {rl} E(X) & = \int_{-\infty}^{\infty} (ax + b) f(x) dx \\ & = a\int_{-\infty}^{\infty} x f(x) dx + b\int_{-\infty}^{\infty} f(x) dx \\ & = a E(X) + b \end{array}\)
이산형의 경우 증명 과정이 매우 유사하므로 생략한다.
아래의 성질은 결합확률분포 설명후에 증명한다.
\(E(aX + bY + c) = aE(X) + bE(Y) + c\) (X, Y는 확률변수; a, b, c는 상수)
위에서 상수 c만큼 평행이동(shift)된 것을 알 수 있다. 즉, 상수 c의 평균은 c이다.
5.3.3 분산 (Variance)
X의 평균이 \(\mu\)일 때, 분산(variance, Var, \(\sigma^2\))과 표준편차(standard deviation, SD, \(\sigma\))는 다음과 같이 정의한다.
\(\sigma_X^2 = \mathrm{Var}(X) = V(X) \equiv E\left[ (X - \mu)^2 \right]\)
\(\sigma_X = SD(X) \equiv \sqrt{V(X)}\)
따라서,
\(E\left[ (X - \mu)^2 \right] = \begin{cases} \sum (x_i - \mu)^2 f(x_i) & \text{for discrete random variable} \\ \int (x - \mu)^2 f(x) dx & \text{for continuous random variable} \end{cases}\)
이다.
V(X)는 다음과 같은 간편공식으로 구할 수도 있다.
\(V(X) = E(X^2) - \left[ E(X) \right]^2\)
만약, 기존 확률변수 X를 이용하여 aX + b인 새로운 확률변수를 만들었다면, 다음의 등식이 성립한다.
\(V(aX + b) = a^2 V(X)\) (X는 확률변수; a, b는 상수)
위에서 상수 b의 영향은 없으며, 상수 b의 분산은 0이다.
5.3.4 왜도(Skewness)와 첨도(Kurtosis)
왜도(skewness)와 첨도(kurtosis)의 정의는 다음과 같다.
\(Skewness \equiv E \left[ (X - \mu)^3 \right]\)
\(Kurtosis \equiv E \left[ (X - \mu)^4 \right]\)
왜도(skewness)는 분포가 좌우(음의 방향, 양의 방향)로 치우진 정도를 나타내고, 첨도(kurtosis)는 분포의 뾰족한 정도를 나타낸다.
왜도의 부호는 분포의 꼬리(tail)방향을 따른다. 즉, 왜도가 양이면 우측 꼬리가 긴 것(즉, 머리가 왼쪽으로 치우친 것)이며, 왜도가 음이라는 것은 꼬리가 왼쪽으로 길게 있다는 것이다. Skewness의 방향은 꼬리의 방향을 말한다. 즉, skewed to the right란 왜도가 양수이고, 꼬리가 오른쪽으로 길게 늘어져 있다는 뜻이다.
위 공식에 따르면 뒤에 나올 정규분포의 첨도는 3이 된다. 하지만, SAS와 같은 많은 소프트웨어에서는 3을 뺀 값을 보여준다. 따라서, 0보다 크면 정규분포보다 퍼져 있다(꼬리가 두텁다)는 것을 의미하고, 0보다 작으면 정규분포보다 뾰족하다(꼬리가 얇다)는 것을 의미한다.
왜도와 첨도를 추정하는 공식은 여러가지가 있으나, SAS와 SPSS에서는 다음과 같다.
Skewness = \(\frac{n \sqrt{n - 1} \sum (x_i - \bar{x})^3}{(n - 2) \left[ \sum (x_i - \bar{x})^2 \right]^{3/2} }\)
Kurtosis = \(\frac{(n + 1) \sum (x_i - \bar{x})^4}{(n - 1)(n - 2)(n - 3) \left[ \sum (x_i - \bar{x})^2/(n - 1) \right]^2 } - \frac{3 (n - 1)^2}{(n - 2) (n - 3)}\)
R에서는 sasLM package의 Skewness(), Kurtosis() 쓸 수 있다. Package마다 다른 공식을 쓸 수 있으니 유의한다.