11.7 오차의 비균질 분산 모형 (Heteroscedastic Variance Model for Error)
진단 그림에서 잔차가 무작위로 분포하지 않는 경우에 y값에 따라 다른 weighting을 줄 수 있다.
다음은 흔히 사용되는 통계(Error) 모형이다.
Additive Error Model (homoscedastic variance) \[Y = F + \epsilon\]
Proportional Error Model \[Y = F + F \cdot \epsilon\]
Combined Error Model \[Y = F + F \cdot \epsilon_1 + \epsilon_2\]
Power Error Model \[Y = F + F^{\alpha} \cdot \epsilon\]
General Error Model \[Y = f(F, \epsilon)\]
위 additive error 모형에서 분산이 모두 동일한 경우만 homoscedasitc (error) model이라 하고, 나머지 경우는 모두 heteroscedastic (error) model이라 한다.
위 power model에서 \(\alpha\) 도 추정 가능하다. \(\alpha\) 가 0.5인 경우 Poisson error model이라고도 하는데, 이렇게 이름이 붙은 이유는 해당 예측점에서 평균과 분산이 같기 때문이다. Possion distribution은 이산형 분포(discrete distribution)이므로 연속형 결과변수(Y)를 설명하는데 좋은 명칭은 아니다. Power error model에서 \(\alpha\)가 1이면 위의 proportional error model이 된다. Power error model은 (여기에 약간의 가정을 더하면/제한을 가하면/조건을 덧붙이면) weighted least square model이 된다.
Generalized least squares(GLS)는 \(\epsilon\) 확률변수의 분산 구조를 일반적인 형태로 가정하는데, 필요한 모수(\(\sigma\))가 너무 많아지는 단점이 있어 잘 사용하지 않는다.
잔차 간의 correlation을 autocorrelation(자기상관)이라 하는데, 이것이 발생하면, 자연과학에서는 통계 모형을 복잡하게 해서 해결하기 보다는 좀 더 제대로 된 구조 모형을 사용함으로써 자기상관을 제거하는 것이 바람직하다.
하지만, 미분방정식도 사용할 수 있는 자연과학과 달리 많은 인문/사회/교육/심리 영역에서의 문제들은 복잡한 구조 모형을 상정할 수 없어서 단순한 구조 모형과 복잡한 통계 모형을 사용하고 있다.
결론적으로, 자연현상을 설명하는 모형에서는 (비선형일지라도) 최적의 구조 모형과 단순한 통계 모형을 사용할 것을 권장한다. 무엇이 최적인가에 대해서는 다음에 논의한다.