11.4 적합 결과 진단 (Diagnostics)과 이상치 (Outlier)
11.4.1 적합 결과 진단 (Diagnostics)
만약 \(y_i\)들을 어떤 순서에 따라 정렬할 수 있다면, 그 잔차들이 자기상관성을 갖는지 Durbin-Watson Test로 검정해 볼 수 있다.
R에서는 car package의 dwt()가 있다.
lm()결과를 plot()함수에 넣어도 진단 그림이 출력된다.
좀 더 흔한 진단 그림에 대해서는 sasLM package의 pD()가 좋다.
다음은 mtcars 자료에서 배기량(엔진크기)와 마력의 관계를 단순 선형회귀한 후 진단 그림을 그리는 것이다.
= lm(hp ~ disp, mtcars)
r3 pD(r3)
Figure 11.2: Diagnostic plot for regression
그림에서 표준화 잔차(standardized residual)는 잔차를 자기의 표준편차(standard deviation)로 나누어 표준화한 것이다. 이러면 이상적으로는 표준정규분포 (또는 t 분포)를 따르게 된다.
Standardized residual은 rstandard()함수로 구할 수 있다.
관측값 \(y_i\)들과 잔차 간에는 거의 항상 correlation을 갖기 때문에 진단 그림으로는 사용하지 않는다.
위의 표준화 잔차는 internally studentized residual 이라고도 부르며, 따라서 externally studentized residual도 있다.
DIFFTS, Cook’s Distance, Mahalanobis Distance, COVRATIO 등 많은 measure들이 있으나, 3상 임상시험에서는 별다른 의미가 없으며, 특이한 개체(생물인 경우 돌연변이 같은 것)를 찾는 것에는 도움이 될 수 있다.