14.1 이론 (Theory)
모형을 다음과 같이 세워 보자.
\[Y = X\beta + Zu + \epsilon\]
Y : random variable for observation
X : design matrix for fixed effects
\(\beta\) : coefficient constants
Z : design matrix for random effects
u : random variable for inter-subject, inter-block random effects, \(u \sim MVN(\overrightarrow{0}, G)\)
Best G for reality is unstructured variance-covariance matrix.
\(\epsilon\) : random variable for residual random effects, \(\epsilon \sim MVN(\overrightarrow{0}, R)\)
The simplest R is \(\sigma^2 I\).
Y는 관찰값을 설명하려고 도입한 확률변수이다. 즉, 확률변수의 현실화 된 값(realized value)이 관측값이다.
X는 앞 장에서의 설계행렬(design matrix) 또는 모형행렬(model matrix)이다.
\(\beta\)는 앞장에서와 같은 의미이다.
그런데, 이제 여기에 Zu가 붙어 있다. 여기에서 u가 확률변수이고, Z는 또 다른 설계행렬이다.
설계행렬 X에 붙는 \(\beta\)에 모두 random variable (u)을 붙인다면 Z행렬은 X행렬과 같다.
다른 경우는 intercept(\(\beta_0\))에만 확률변수가 붙을 수도 있고 (이를 random intercept model 이라 한다.), slope(\(\beta_1\) 이후)에만 확률변수가 붙을 수도 있다(이를 random slope model이라 한다).
Random intercept만 있거나, random slope만 있는 경우에는 거기에 맞추어 Z는 X보다 단순화된다.
이제 Y라는 확률변수는 marginal expectation (주변 기대값)과 conditional expectation (조건부 기대값)을 가지게 된다. Marginal expectation이란 expectation operation내의 모든 확률변수를 없애 버린 것(integration out)이고, conditional expectation은 확률변수(u)가 어떤 현실화된 값(realized value)를 가진 경우에 그에 따른 Y의 expection(기대값)이다. 이 realized value는 empirical Bayes estimate(EBE), maximum a posteriori(MAP)으로 불리기도 한다. 뒤에 나올 NONMEM에서는 posthoc eta라고도 한다.
분산의 경우에도 마찬가지이다.
아래의 첫 두 줄은 marginal expectation과 marginal variance이며, 마지막 두 줄은 확률변수 u가 어떤 현실화 된 값을 가진 경우 그에 따른 (conditional) expectation과 variance가 된다.
\[\begin{align*} E(Y) & = X\beta \\ V(Y) & = ZGZ^T + R = V \\ E(Y|u) & = X\beta + Zu \\ V(Y|u) & = R \\ \end{align*}\]
위의 계산 유도는 앞의 확률변수 연산 규칙을 위의 모형에 적용하면 바로 나온다. 또한, 위의 G (확률변수 u의 분산-공분산행렬), R (Y의 conditional variance-covariance matrix), V (Y의 marginal variance-covariance matrix) 등의 기호들은 SAS의 관례를 따랐으며, 뒤에서도 계속 사용하므로 잘 기억해두어야 한다.
뒤에 나올 NONMEM에서는\(\beta\)를 \(\theta\)로, 확률변수 u를 \(\eta\)로, G matrix를 omega matrix라 표기한다.