7.7 최대 우도 추정법 (Maximum Likelihood Estimation, MLE)
정의: \(\theta_1, \theta_2, \cdots, \theta_k\)인 k개의 파라미터에 의존하는 우도 함수가 있다고 할 때, 우도를 최대화하는 \(\theta\)들을 구하는 것을 최대 우도 추정법이라 한다.
확률밀도함수가 f(y)라고 생각되는 확률변수 Y에 대해 n개의 관측값(observation value) (i=1, \(\dots\), n)이 있을 때, likelihood를 다음과 같이 정의한다.
\[l = \prod_{i=1}^{n} f(y_i)\]
그런데, f(y)의 모양(shape)을 결정하는 parameter인 \(\mu\), \({\sigma}^2\)을 나타내 주기 위해 다음과 같이 쓰기도 한다.
\[l( \vec{y} ; \mu, {\sigma}^2) = \prod_{i=1}^{n} f(y_i;\mu,{\sigma}^2)\]
or
\[l( \vec{y} \left| \mu, {\sigma}^2 \right.) = \prod_{i=1}^{n} f(y_i \left| \mu,{\sigma}^2 \right. )\]
여기에서 vector인 \(\vec{y}\)는 \(\textbf{y}\)(볼드체)로 표현할 수도 있으나, 혼동을 줄이기 위해 위에 화살표를 표시했다. 여기에서 y는 확률변수가 아닌 관측치이므로 소문자로 표현한다. 연습으로 정규분포를 따르는 확률변수 Y의 관측치들이 \(y_i\)일 때 이의 likelihood 식은 다음과 같다.
\[l = {\left( \frac{1}{\sqrt{2 \pi {\sigma}^2}} \right)}^n e^{- \frac{\sum (x - \mu)^2}{2{\sigma}^2}}\]
확률은 항상 0에서 1까지의 값(실수)을 갖지만 likelihood는 이론적으로 0보다 크거나 같고 1보다 커져서 양의 무한대(\(\infty\))에 가까운 값을 가질 수도 있다. 실제로는 대부분 0에 매우 가까워서 -2 log likelihood (-2LL) 값을 계산에 사용하게 된다. 관측을 나타내는 확률변수를 Y라하고 i번째 대상자의 j번째 관측치를 \(y_{ij}\)라 하고, 그 시점에서의 평균과 분산을 각각\({\mu}_{ij}\)와 \({\sigma}_{ij}^2\)라 했을때 -2 log likelihood는 다음과 같이 쓸 수 있다.
\[-2LL_i = n_i log(2\pi) + \sum_{j=1}^{n_i} log \left( {\sigma_{ij}}^2 \right) + \sum_{j=1}^{n_i} \frac{(y_{ij} - {\mu}_{ij})^2}{\sigma_{ij}^2}\]
\(\mu_{ij}\)를 E(\(Y_{ij}\)), \(\sigma_{ij}^2\)를 V(\(Y_{ij}\))라고도 쓸 수 있으며, 많은 경우에 E(\(Y_{ij}\))는 몇(j) 번째이냐에 따라 달라지지만, V(\(Y_{ij}\))는 몇 번째와 상관없이 동일하게 어떤 상수(\(\sigma^2\))로 가정(homoscedastic)하는 경우도 많다. 이런 점에 유의해서 식을 봐야 한다. 만약 \(\mu_{ij}\)를 \(\mu\)로 하고,\(\sigma_{ij}^2\)를 \(\sigma^2\)으로 단순화시켜 가정하고 이 likelihood를 최대화하는 문제를 푸는 경우(\(\mu\)와 \(\sigma^2\)에 대해 편미분하여 기울기가 0이 되는 값을 찾는다.)에는 다음과 같은 해를 얻을 수 있고, 이를 최대우도추정량(Maximum Likelihood Estimator, MLE)이라 한다.
\[\hat{\mu} = \bar{y_{i\cdot}} = \frac{1}{n_i} \sum_{j=1}^{n_i}\] \[\hat{\sigma^2} = \frac{1}{n_i} \sum_{j=1}^{n_i} (y_{ij} - \bar{y_{i\cdot}})^2\]
여기에서 특이한 것은 모분산(population variance)의 추청량(estimator)으로 흔히 사용되는 표본분산 \(S^2\)과 분모가 약간 다르다는 점이다.
\[\hat{\sigma^2} = S^2 = \frac{1}{n_i - 1} \sum_{j=1}^{n_i} (y_{ij} - \bar{y_{i\cdot}})^2\]
\(\sigma^2\)의 추정량으로 흔히 사용되는 표본분산 \(S^2\)에 비해 MLE는 편의된(biased) 추정량이긴 하나 일치추정량(consistent estimator)이면서 효율적(efficient)이고, 기존 MLE를 다른 함수에 대입해도 일치성이 유지되는 등, 여러 가지 좋은 특성 때문에 계속 사용되고 있다.
특히
\[{\left(E {\left[ \frac{\partial log(l)}{\partial \alpha} \right]}^2 \right)}^{-1}\]
와
\[{- \left(E \left[ \frac{{\partial}^2 log(l)}{{\partial \alpha}^2} \right] \right)}^{-1}\]
(여기서 \(\alpha\)는 \(\mu\) 또는 \(\sigma^2\))이 MLE의 분산이 된다는 점이 특이하다.
따라서,
\[{\left( {\left[ \frac{\partial log(l)}{\partial \alpha} \right]}^2 \right)}^{-1}\]
또는
\[{\left( - \frac{{\partial}^2 log(l)}{{\partial \alpha}^2} \right)}^{-1}\]
를 MLE (PE 의) 분산(일반적으로는 분산-공분산 행렬)의 추정량으로 사용할 수 있다. 즉, 이것으로 MLE (PE)의 standard error를 추정할 수 있다.
여기서 주의할 점은 분자가 -2LL이 아닌 그냥 log likelihood이므로 흔히 사용하는 목적함수(objective function)로부터 계산할 때는 이를 보정해 주어야 한다.