11.4 적합 결과 진단 (Diagnostics)과 이상치 (Outlier)
11.4.1 적합 결과 진단 (Diagnostics)
만약 yi들을 어떤 순서에 따라 정렬할 수 있다면, 그 잔차들이 자기상관성을 갖는지 Durbin-Watson Test로 검정해 볼 수 있다.
R에서는 car package의 dwt()가 있다.
lm()결과를 plot()함수에 넣어도 진단 그림이 출력된다.
좀 더 흔한 진단 그림에 대해서는 sasLM package의 pD()가 좋다.
다음은 mtcars 자료에서 배기량(엔진크기)와 마력의 관계를 단순 선형회귀한 후 진단 그림을 그리는 것이다.
= lm(hp ~ disp, mtcars)
r3 pD(r3)
Figure 11.2: Diagnostic plot for regression
그림에서 표준화 잔차(standardized residual)는 잔차를 자기의 표준편차(standard deviation)로 나누어 표준화한 것이다. 이러면 이상적으로는 표준정규분포 (또는 t 분포)를 따르게 된다.
Standardized residual은 rstandard()함수로 구할 수 있다.
관측값 yi들과 잔차 간에는 거의 항상 correlation을 갖기 때문에 진단 그림으로는 사용하지 않는다.
위의 표준화 잔차는 internally studentized residual 이라고도 부르며, 따라서 externally studentized residual도 있다.
DIFFTS, Cook’s Distance, Mahalanobis Distance, COVRATIO 등 많은 measure들이 있으나, 3상 임상시험에서는 별다른 의미가 없으며, 특이한 개체(생물인 경우 돌연변이 같은 것)를 찾는 것에는 도움이 될 수 있다.