13.5 Maximum Likelihood Estimation (MLE)

확률밀도함수가 f(y)라고 생각되는 확률변수 Y에 대해 n개의 관측값(observation value) (i=1, $\dots$, n)가 있을때, likelihood를 다음과 같이 정의한다.

\[l = \prod_{i=1}^{n} f(y_i)\]

그런데, f(y)의 모양(shape)을 결정하는 parameter인 $\mu$, ${\sigma}^2$을 나타내 주기 위해 다음과 같이 쓰기도한다.

\[l( \vec{y} ; \mu, {\sigma}^2) = \prod_{i=1}^{n} f(y_i;\mu,{\sigma}^2)\]

\[l( \vec{y} \left| \mu, {\sigma}^2 \right.) = \prod_{i=1}^{n} f(y_i \left| \mu,{\sigma}^2 \right. )\]

여기에서 vector인 $\vec{y}$는 $\textbf{y}$(볼드체)로 표현할 수도 있으나, 혼동을 줄이기 위해 위에 화살표를 표시했다. 여기에서 y는 확률변수가 아닌 관측치이므로 소문자로 표현한다. 연습으로 정규분포를 따르는 확률변수 Y의 관측치들이 $y_i$일 때 이의 likelihood 식은 다음과 같다.

\[l = {\left( \frac{1}{\sqrt{2 \pi {\sigma}^2}} \right)}^n e^{- \frac{\sum (x - \mu)^2}{2{\sigma}^2}}\]

확률은 항상 0에서 1까지의 값(실수)을 갖지만 likelihood는 이론적으로 0보다 크거나 같고 1보다 커져서 양의 무한대($\infty$)에 가까운 값을 가질 수도 있다. 실제로는 대부분 0에 매우 가까워서 -2 log likelihood (-2LL) 값을 계산에 사용하게 된다. 관측을 나타내는 확률변수를 Y라하고 i번째 피험자의 j번째 관측치를 $y_{ij}$라 하고, 그 시점에서의 평균과 분산을 각각${\mu}_{ij}$와 ${\sigma}_{ij}^2$라 했을때 -2 log likelihood는 다음과 같이 쓸 수 있다.

\[-2LL_i = n_i log(2\pi) + \sum_{j=1}^{n_i} log \left( {\sigma_{ij}}^2 \right) + \sum_{j=1}^{n_i} \frac{(y_{ij} - {\mu}_{ij})^2}{\sigma_{ij}^2}\]

$\mu_{ij}$를 E($Y_{ij}$), $\sigma_{ij}^2$를 V($Y_{ij}$)라고도 쓸 수 있으며, 많은 경우에 E($Y_{ij}$)는 몇(j) 번째이냐에 따라 달라지지만, V($Y_{ij}$)는 몇 번째와 상관없이 동일하게 어떤 상수($\sigma^2$)로 가정(homoscedastic)하는 경우도 많다. 이런 점에 유의해서 식을 봐야한다. 만약 $\mu_{ij}$를 $\mu$로 하고,$\sigma_{ij}^2$를 $\sigma^2$으로 단순화시켜 가정하고 이 likelihood를 최대화하는 문제를 푸는 경우($\mu$와 $\sigma^2$에 대해 편미분하여 기울기가 0이 되는 값을 찾는다.)에는 다음과 같은 해를 얻을 수 있고 이를 최대우도추정량(Maximum Likelihood Estimator, MLE)이라 한다.

\[\hat{\mu} = \bar{y_{i\cdot}} = \frac{1}{n_i} \sum_{j=1}^{n_i}\] \[\hat{\sigma^2} = \frac{1}{n_i} \sum_{j=1}^{n_i} (y_{ij} - \bar{y_{i\cdot}})^2\]

여기에서 특이한 것은 모분산(population variance)의 추청량(estimator)으로 흔히 사용되는 표본분산 S2과 분모가 약간 다르다는 점이다.

\[\hat{\sigma^2} = S^2 = \frac{1}{n_i - 1} \sum_{j=1}^{n_i} (y_{ij} - \bar{y_{i\cdot}})^2\]

$\sigma^2$의 추정량으로 흔히 사용되는 표본분산 S2에 비해 MLE는 편의된(biased) 추정량이긴 하나 일치추정량(consistent estimator)이면서 효율적(efficient)이고, 기존 MLE를 다른 함수에 대입해도 일치성이 유지되는 등, 여러 가지 좋은 특성 때문에 계속 사용되고 있다. 특히 MLE의 분산을

\[{\left(E {\left[ \frac{\partial log(l)}{\partial \alpha} \right]}^2 \right)}^{-1}\]

또는

\[{\left(E \left[ \frac{{\partial}^2 log(l)}{{\partial \alpha}^2} \right] \right)}^{-1}\]

(여기서$$\mu$ 또는 $\sigma^2$)로 사용할 수 있다는 점이 특이하며, 여기에서 주의할 점은 -2LL이 아닌 그냥 log likelihood이므로 흔히 사용하는 목적함수(objective function)로부터 계산할 때는 이를 보정해 주어야 한다.