14.6 맺음말

참고로 생물학이나 의학에서는 일반적으로 G matrix는 unstructured full-block matrix를 쓴다. 왜냐하면 실제로 random effect 간에는 correlation이 존재하는 것이 일반적이기 때문이다. 반면, R matrix는 autocorrelation이 없는 diagonal matrix를 쓴다. R matrix가 homoscedastic일 필요는 없다. 만약 modeling 후에도 잔차 간에 correlation이 있다면 이는 구조 모형(structural model)을 잘못 정한 것으로 간주한다.

기계(machine) 4대와 직원(employee) 4명을 x 변수로 하여 생산효율(y)을 설명하는 통계분석을 하는 경우를 생각해 보자. 이때 기계(machine)나 직원(employee)이 fixed factor이냐 random factor이냐 하는 것은 상황에 따라 다르다. 만약 매우 많은 기계 (또는 잠재적으로 도입할 기계를 포함하여)의 일부를 비교적 random으로 골라 (반드시 randomize 할 필요는 없다. 즉, 이때는 ’임의’로 골라도 된다.) 시험한다면 machine이 random factor이다. 반면 이 회사에 딱 4대의 기계만 있거나, 4종류의 기계를 대표해서 1대씩 뽑힌 것이라면, 이것이 어떤 유의미한 기간 동안 지속될 것으로 생각될 것이고, 또한 이것이 관심사라면 machine은 fixed factor이다. 종업원도 마찬가지이다. 수없이 많은 종업원 중에 4명이 별 의미 없이 뽑힌 것이라면 random factor이고, 지금의 관심사가 (일정 기간 이상 지속될) 이 4명의 고유한 차이를 보는 것이라면 fixed factor로 간주한다.

Random factor인 경우 대개 sample의 개수는 20~30개 이상이다. Fixed factor라도 수준(level) 수가 너무 많으면 수준별 \(\beta\) 계수를 모두 추정하는 것은 비실용적(impractical)이고, 비효율적(inefficient)이다. 이 때에도 수준별 값들에 대해 어떤 분포를 가정할 수 있다면, 이것을 random factor로 간주하고 계산할 수 있다.