15.2 이론적 배경

앞에서 구조 모형(structural model)을 의미하는 예측함수(prediction function)는 다음과 같다.

\[C(t) = \frac{\text{DOSE}}{V}\frac{K_a}{K_a - K}(e^{-K t} - e^{-K_a t})\]

위 수식에 확률변수(random variable)는 포함되어 있지 않는데, 구조모형을 \(f(x, \theta)\)라 하면 다음과 같은 가장 단순한 통계 모형(statistical model)을 생각할 수 있다.

\[Y = f(x, \theta) + \epsilon\]

단, \(\epsilon_i \stackrel{i.i.d}{\sim} N(0, \sigma^2)\) 또는 \(\vec{\epsilon} \sim MVN(\vec{\mu} = \vec{0}, \Sigma = \sigma^2 I_n)\)

위에서 \(x\)는 투약량인 DOSE, 시간(time)인 t와 같이 directly measurable amount (이를 흔히 covariate라고 부르나, 확률변수는 아니다.) 이고, \(\theta\)는 추정의 대상이 되는 \(K_a, V, K\)를 통칭한다.

\(\epsilon\)의 평균은 0인데, 전체 Y 범위에서 동일한 분산을 갖는 homoscedastic model이나, 다른 분산을 가지는 heteroscedastic model을 생각할 수 있다. 경제학의 시계열 모형이나, 심리학, 사회학, 교육학의 반복측정자료(repeated measures data)의 경우에는 구조 모형이 복잡하지 않기 때문에, 오차 간의 상관관계를 모형화하는 경우가 흔하지만, 생물학이나 의학은 미분방정식을 포함한 많은 비선형 모형이 있으므로 잔차 간의 상관관계(correlation)는 모형화하지 않는다. 만약 잔차 간의 상관관계가 존재한다면 이는 구조 모형을 제대로 설정하지 (또는 찾지) 못한 것으로 간주한다.

이후 \(f(x, \theta)\)를 줄여서 \(F\)라고만 표기한다. (이 장에서 \(F\)는 확률변수가 아니지만, 다음 장에서는 확률변수이다.) \(\epsilon\)이 정규분포라 가정하면 다음과 같은 likelihood function을 생각할 수 있다. 이것의 log인 log likelihood (이후 \(ll\)로 표기)를 목적함수로 하여 \(\theta\)\(\epsilon\)의 분산인 \(\sigma^2\)을 동시에 추정할 수 있다.

\(Y\)를 observation들의 vector, \(F\)를 모형이 예측하는 값들의 vector라 하면 다음과 같이 표현된다.

\[likelihood = \left( 2 \pi \right)^{-\frac{n}{2}} \left| \Sigma \right|^{-\frac{1}{2}} exp \left( -\frac{1}{2} (Y - F)^T \Sigma^{-1} (Y - F) \right)\]

\[log \; likelihood (ll) = -\frac{n}{2} log(2 \pi) -\frac{1}{2} log(\left| \Sigma \right|) -\frac{1}{2} (Y - F)^T \Sigma^{-1} (Y - F)\]

\[-2 log \; likelihood (ll) = n log(2 \pi) + log(\left| \Sigma \right|) + (Y - F)^T \Sigma^{-1} (Y - F)\]

마지막 식을 objective function으로 할 수도 있으나, 이후 이론들은 모두 log likelihood를 기준으로 하고 있다.

이제 위의 \(\theta\)\(\sigma^2\)을 통칭해서 \(\theta\) 라고 하면, 이들의 점추정치(point estimate, PE)는 다음의 조건을 만족하는 값들이다.

\[\frac{\partial ll}{\partial \vec{\theta}} = 0\]

음의 2계 미분의 기대값 행렬을 Fisher’s Information Matrix (FIM)라 하고, 이것의 역행렬이 \(\hat{\theta}\)들의 분산-공분산 행렬이다.

따라서, \(-\frac{\partial^2 ll}{(\partial \vec{\theta})^2}\)\(\widehat{FIM}\)으로 사용한다.

즉, \(-\frac{\partial^2 ll}{(\partial \vec{\theta})^2}\) 의 역행렬을 \(\hat{\theta}\)의 분산-공분산 행렬(variance-covariance matrix)의 추정값으로 사용한다.

점추정값(PE)들의 표준오차(standard error, SE)는 이 분산-공분산 행렬의 대각 원소에 square root를 취한 값을 이용하고 다음과 같다.

\[\widehat{VCOV}(\hat{\theta}) = \widehat{FIM}^{-1}\]

\[\widehat{SE}(\hat{\theta}) = \sqrt{diag(\widehat{VCOV})}\]