11.4 적합 결과 진단 (Diagnostics)과 이상치 (Outlier)

만약 \(y_i\)들을 어떤 순서에 따라 정렬할 수 있다면, 그 잔차들이 자기상관성을 갖는지 Durbin-Watson Test로 검정해 볼 수 있다.

R에서는 car package의 dwt()가 있다.

lm()결과를 plot()함수에 넣어도 진단 그림이 출력된다.

좀 더 흔한 진단 그림에 대해서는 sasLM package의 pD()가 좋다.

다음은 mtcars 자료에서 배기량(엔진크기)와 마력의 관계를 단순 선형회귀한 후 진단 그림을 그리는 것이다.

r3 = lm(hp ~ disp, mtcars)
pD(r3)

Figure 11.2: Diagnostic plot for regression

그림에서 표준화 잔차(standardized residual)는 잔차를 자기의 표준편차(standard deviation)로 나누어 표준화한 것이다. 이러면 이상적으로는 표준정규분포 (또는 t 분포)를 따르게 된다.

Standardized residual은 rstandard()함수로 구할 수 있다.

관측값 \(y_i\)들과 잔차 간에는 거의 항상 correlation을 갖기 때문에 진단 그림으로는 사용하지 않는다.

위의 표준화 잔차는 internally studentized residual 이라고도 부르며, 따라서 externally studentized residual도 있다.

DIFFTS, Cook’s Distance, Mahalanobis Distance, COVRATIO 등 많은 measure들이 있으나, 3상 임상시험에서는 별다른 의미가 없으며, 특이한 개체(생물인 경우 돌연변이 같은 것)를 찾는 것에는 도움이 될 수 있다.

이상치나 영향점에 대한 진단은 많은 것이 개발되어 있으나, 실무에 별다른 도움이 되지 않는다.

자료 준비 과정(data cleaning)에서 입력 오류를 찾거나, 탐색적 자료분석 목적으로는 의미가 있을 수 있으나, 임상시험 검정에서는 이상치나 영향치가 있다 하더라도 제외해서 분석할 수는 없다.