11.8 모형 간의 비교와 선택

잔차의 경향성, 분포 등의 진단적 그림을 눈으로 봐서 차이가 있다면 visual exploration에서 더 좋은 것을 선택한다.
눈으로 구분할 수 없을 정도로 차이가 없다면, 다음과 같은 formal measure를 사용한다.

Wald type test에서 유의하지 않고 중요하지 않아 보이는 변수를 제거한다. 통계적으로 유의하지 않아도 연구자가 중요하다고 생각하는 변수나 보정(adjust)해 주어야 하는 변수는 계속 포함시킨다.
만약 두 모형이 포함 관계에 있다면 (더 복잡한 모형의 계수를 상수로 고정하면 단순한 모형으로 변하는 경우) objective function 또는 그와 유사한 값을 이용하여 F test, Likelihood Ratio Test (chi-square test) 등을 이용한다.
만약 두 모형이 포함 관계에 있지 않다면, Akaike Information Criterion (AIC), corrected AIC (AICc), Schwarz Bayesian Criterion (SBC, Bayesian Information Criterion (BIC)) 등의 수단을 사용한다.

위에서 기술한 것 외에도 MSE, \(R^2\), \(R_{adjusted}^2\), Mallows’s \(C_p\), Q 등이 개발되어 있으나, 학술적으로는 흥미로울 수 있으나, 실무에서는 별로 유용하지 않다.

다만, \(PRESS_p\) 는 아직까지 많이 활용되고 있지 않으나 (개념적으로 delete-one diagnostics, machine learning의 n-fold validation과 유사하다), 앞으로 많이 활용되길 기대한다.

11.8.1 F 분포 또는 카이제곱 분포를 이용한 포함 관계의 두 경쟁 모형 비교

F 분포 설명 부분에서 이미 설명하였지만, 중요하여 다시 한 번 여기서 설명한다.

두 개의 경쟁하는 모형이 full model vs. reduced model 관계에 있으면서, 통계적으로 선호되는 모형을 선택하고자 하면 F 분포가 유용하다.

즉, \(\Delta (2LL)/q \sim F(q, N - p)\) 이다.

위에서 N은 전체 observation의 개수(대상자/block 수 아님), q는 두 모형간의 parameter 개수의 차이이고, p는 full model의 parameter 개수이다.

이것은 다시 N의 점점 커질수록 \({\chi}^2(q)\) 분포를 따르게 된다. (이것을 Wilks’ theorem이라고 한다.)

아래는 그 예시를 계산하여 보여주는 것이다.

x = 1:10             # delta 2 log likelihood values (examples)
nRec = 108           # number of observation records, not the number of subjects
nPar = 7             # count of parameters of full model
delta = 1            # difference in counts of parameters
1 - pchisq(x, delta) # when you use chi-square distribution

 [1] 0.31731 0.15730 0.08326 0.04550 0.02535 0.01431 0.00815 0.00468 0.00270 0.00157

1 - pf(x/delta, delta, nRec - nPar) # when you use F distribution

 [1] 0.31970 0.16037 0.08632 0.04819 0.02755 0.01603 0.00945 0.00564 0.00340 0.00207

이제 두 모형의 모수(parameter) 갯수가 2개 차이가 나는 경우 2LL의 차이에 따른 p-value를 계산하면 다음과 같다.

delta = 2            # difference in counts of parameters
1 - pchisq(x, delta) # when you use chi-square distribution

 [1] 0.60653 0.36788 0.22313 0.13534 0.08208 0.04979 0.03020 0.01832 0.01111 0.00674

1 - pf(x/delta, delta, nRec - nPar) # when you use F distribution

 [1] 0.60802 0.37149 0.22806 0.14066 0.08715 0.05424 0.03391 0.02129 0.01342 0.00850

위에서 보듯이 F분포를 이용하는 것이 더 보수적이다. 즉, 차이가 없는 쪽으로 나온다. 단순한 모형을 택하게 한다.