7.8 대립 가설 (Alternative Hypothesis)과 귀무 가설 (Null Hypothesis)
통계적 가설 검정(또는 줄여서 검정이라고도 함)은 먼저 가설을 설정한 뒤, 관찰(실험) 자료로 유의확률을 계산하여 가설의 기각/채택을 결정하는 과정이다.
이 때, 입증하고자 하는 가설을 대립 가설(alternative hypothesis)이라 하고, 대립 가설 입증에 실패했을 때 채택하는 가설을 귀무 가설(null hypothesis)이라 한다.
대개는 차이가 있다는 것이 대립 가설이고, 차이가 없다는 것이 귀무 가설이지만, 동등성을 입증하고자 할 때는 (어떤 동등범위 내에서) 차이가 없다는 것이 대립 가설이 된다.
귀무 가설이 (미지의) 진실인데, 대립 가설을 채택하면 제 1종 오류(\(\alpha\)로 표기)가 발생했다고 한다. 반대로, 대립 가설이 (미지의) 진실인데, 귀무 가설을 채택하는 오류를 제 2종 오류(\(\beta\) 로 표기)라고 한다.
제 1종 오류를 범할 확률의 최대 허용한계를 유의 수준(significance level)이라 하고, 귀무 가설하에서 귀무 가설과 멀어지는 방향으로 자료가 나타날 확률을 유의 확률(p-value)이라 한다.
대립 가설이 참일 때, 대립 가설을 채택할 확률을 검정력(power)이라 하는데, 이는 1 - \(\beta\) 확률과 같다.
기각역(rejection region, critical region)이란 통계량이 이 영역의 값을 가질 때 귀무 가설을 기각하고 대립 가설을 채택하겠다고 미리 정해놓은 영역을 의미한다.
귀무 가설을 채택하는 영역과 기각역의 경계값을 critical value, cut-off point, threshold value 등으로 부를 수 있는데, 이 값은 유의 수준을 보장하면서도 검정력을 최대로 하는 값으로 정해야 한다.
실무에서 의사 결정시 p-value 보다 effect size(효과 크기, 주로 평균이나 비율의 차이 또는 평균의 비율임)가 더 중요할 수도 있기 때문에, 이런 것을 고려하지 않고 p-value만 중요하게 생각해서는 안 된다.
대립 가설(입증하고자 하는 가설)을 채택하지 못하고 귀무 가설(입증 실패시 채택하는 가설)을 채택한다고 귀무 가설을 입증한 것이 아니다.
p-value 0.05 이하로 귀무 가설을 기각하고 대립 가설을 채택하였다면, 사후 검정력(post-hoc power)이 낮더라도 대립 가설을 채택한 것은 여전히 유효하다.
사후 검정력은 대립 가설 입증에 실패하였을 때, 실패의 원인이 표본 크기가 너무 작은 것인지, 실제의 효과 크기가 예상보다 너무 작았는지 등을 알아보기 위해서 계산하는 것이다.
즉, 사후 검정력이 대립 가설을 채택한 것에 문제가 없었는지 확인하는 수단은 아니라는 것이다.