11.4 적합 결과 진단 (Diagnostics)과 이상치 (Outlier)

11.4.1 적합 결과 진단 (Diagnostics)

만약 \(y_i\)들을 어떤 순서에 따라 정렬할 수 있다면, 그 잔차들이 자기상관성을 갖는지 Durbin-Watson Test로 검정해 볼 수 있다.

R에서는 car package의 dwt()가 있다.

lm()결과를 plot()함수에 넣어도 진단 그림이 출력된다.

좀 더 흔한 진단 그림에 대해서는 sasLM package의 pD()가 좋다.

다음은 mtcars 자료에서 배기량(엔진크기)와 마력의 관계를 단순 선형회귀한 후 진단 그림을 그리는 것이다.

r3 = lm(hp ~ disp, mtcars)
pD(r3)
Diagnostic plot for regression

Figure 11.2: Diagnostic plot for regression

그림에서 표준화 잔차(standardized residual)는 잔차를 자기의 표준편차(standard deviation)로 나누어 표준화한 것이다. 이러면 이상적으로는 표준정규분포 (또는 t 분포)를 따르게 된다.

Standardized residual은 rstandard()함수로 구할 수 있다.

관측값 \(y_i\)들과 잔차 간에는 거의 항상 correlation을 갖기 때문에 진단 그림으로는 사용하지 않는다.

위의 표준화 잔차는 internally studentized residual 이라고도 부르며, 따라서 externally studentized residual도 있다.

DIFFTS, Cook’s Distance, Mahalanobis Distance, COVRATIO 등 많은 measure들이 있으나, 3상 임상시험에서는 별다른 의미가 없으며, 특이한 개체(생물인 경우 돌연변이 같은 것)를 찾는 것에는 도움이 될 수 있다.

11.4.2 이상치 (Outlier)와 영향점 (Influencing Point, 지렛대 점, Leverage Point)

이상치나 영향점에 대한 진단은 많은 것이 개발되어 있으나, 실무에 별다른 도움이 되지 않는다.

자료 준비 과정(data cleaning)에서 입력 오류를 찾거나, 탐색적 자료분석 목적으로는 의미가 있을 수 있으나, 임상시험 검정에서는 이상치나 영향치가 있다 하더라도 제외해서 분석할 수는 없다.