6.3 표본 분포 (Sample Distribution)

표본과 관련이 깊은 분포들로 t 분포, 카이제곱 분포, F 분포 등이 있다. 이 3가지 분포는 모두 연속형 분포이다.

6.3.1 통계량 (statistic)

관심의 대상이 되는 집단을 모집단(population)이라 하며, 모집단에 대한 전수조사가 어려운 경우가 많으므로 일부를 추출하여 관측하게 된다.

흔히 무한 모집단과 독립 표본을 가정하지만, 실제로는 그 가정이 맞지 않는 경우가 많다. 유한 모집단에서 비복원 추출이면 서로 독립일 수 없으며, 유한 모집단에서 독립 표본을 구하려면 복원 추출이어야 한다.

추출된 일부를 표본(sample)이라고 하며, 표본으로부터 계산된 값을 이용하여 모집단의 특성(평균, 분산, 비율, 발생율 등)을 추론(inference)하게 된다. 통계학에서는 실험이 행해지기 전에 미리 이러한 실험값을 담을 확률변수(random variable)를 미리 마련해 놓고, 이것의 특성(표준오차 등)을 연구해 놓았다. 실험이 행해지기 전에는 확률변수로만 다루고, 실험이 행해진 뒤에는 값(value)으로서 다루게 된다. 전자는 알파벳 대문자로 표기하고, 후자는 알파벳 소문자로 표기한다.

통계량은 추론(inference)에 유용하게 사용되는 확률변수(RV)로서 대표적인 것이 표본평균, 표본분산, 표본상관계수, 표본비율 등이 있다. 이러한 것들은 모두 표준편차(SD)를 가지고 있는데, 통계량의 표준편차를 특별히 다른 확률변수의 표준편차와 구분하기 위해 표준오차(standard error)라고 부른다. 추론(interence)에는 추정(estimation)과 검정(test)이 있는데, 추정의 대상은 모수(parameter)이고, 검정의 대상은 가설(hypothesis)이다. 다른 말로 하면 추론에는 모수 추정(parameter estimation)과 가설 검정(hypothesis test)이 있다고 할 수 있다. 추정(estimation)에 사용되는 통계량을 추정량(estimator, 추정통계량의 준말)이라 하며, 검정에 사용되는 통계량을 검정 통계량(test statistic, 이것을 검정량이라고 줄여 부르진 않는다.)이라 한다. 추정량과 검정통계량은 모두 확률변수인데, 실험이 행해진 후 값으로 채워지게 되면 추정값(estimate, 추정치)과 검정통계값(value of test statistic, 검정통계치)이라 한다.

6.3.2 표본평균(sample mean)과 표본분산(sample variance)

표본의 크기가 n인 표본의 표본평균과 표본분산은 다음과 같이 정의한다.

표본평균: \(\bar{X} \equiv \frac{\sum_{i=1}^{n} X_i}{n}\)

표본분산: \(S^2 \equiv \frac{\sum_{i=1}^{n} (X_i - \bar{X})^2}{n - 1}\)

위의 표본분산 식에서 n으로 나누지 않고, n - 1로 나눈 것은 편의(bias)를 없애기 위한 것이다. 즉, \(E(S^2)\)\(\sigma^2\)이 되게 하기 위해서이다. 만약 n으로 나누게 되면 \(E(S^2)\)\(\sigma^2\)이 되지 않는다. 반면, n - 1로 나누어도 \(E(S)\)\(\sigma\)가 되지 않는다. 즉 S는 \(\sigma\)의 편의 추정량(biased estimator)이다.

이 장의 제목인 표본 분포(sample distribution)는 표본으로부터 계산되는 통계량의 확률분포를 의미한다.

크기 n인 표본평균의 평균과 표준편차는 모집단의 평균이 \(\mu\) 이고 분산이 \(\sigma^2\)일 때 모집단의 분포와 상관없이 다음과 같다.

\(E(\bar{X}) = \mu\)

\(V(\bar{X}) = \frac{\sigma^2}{n}\)

\(SD(\bar{X}) = \frac{\sigma}{\sqrt{n}}\)

만약 \(X_i\) 들의 분포가 정규분포이면 \(\bar{X}\)의 분포도 정규분포가 되며, 만약 n이 30 이상이면 중심극한정리(central limit theorem)에 의해 모집단의 분포와 상관없이 \(\bar{X}\)는 정규분포에 근사할 수 있다.

즉,

\(X_i \stackrel{i.i.d}{\sim} N(\mu, \sigma^2)\) 이면,

\(\bar{X} \sim N(\mu, \sigma^2/n)\) 또는

\(\frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \sim N(0, 1^2)\) 이다.

이는 \(X \sim N(\mu, \sigma^2)\)일 때, \((X - \mu)/\sigma \sim N(0, 1^2)\)을 이용한 것이며,

만약 n이 30 이상이면 위 첫 줄의 분포가 정규분포가 아니더라도, 다음 두 줄을 근사적(점근적, asymptotically)으로 쓸 수 있다.

만약 위 식 중의 모분산(\(\sigma^2\))을 모르면 표본분산(\(S^2\))을 쓰게 되는데, 이 때는 \(\bar{X}\)의 분포는 t-분포를 따른다.

\(\frac{\bar{X} - \mu}{S/\sqrt{n}} \sim t(n - 1)\)

t-분포에 대해서는 이후 설명한다.

6.3.3 표본 비율(sample proportion)의 정규근사

표본비율(x/n)도 n이 큰 경우에 정규근사할 수 있으나, 요즘은 컴퓨팅의 발달로 좀 더 정확하게 신뢰구간(confidence interval)을 구할 수 있으므로 정규근사는 불필요하다.

6.3.4 카이제곱 분포 (chi-square distribution)

카이제곱 분포를 연속형 분포인 감마 분포의 단순화로 생각할 수 있고, 그 경우에는 자유도(n)가 모든 양의 실수값을 가질 수 있었다. 정규분포를 이용해서도 자유도가 정수인 카이제곱 분포를 정의할 수 있는데, 다음과 같다.

\(Z_i \stackrel{i.i.d}{\sim} N(0, 1^2)\) 일 때

\(\begin{aligned} &V = \sum_{i=1}^{n} Z_i^2 \end{aligned}\) 이라 하면

\(V \sim \chi^2(n)\) 이다.

Simulation을 통해 위 결과를 확인해 볼 수 있다.

카이제곱 분포는 다음과 같이 가법성을 가지고 있다.

\(V_1 \sim \chi^2(k_1), \; V_2 \sim \chi^2(k_2)\) 이면,

\(V_1 + V_2 \sim \chi^2(k_1 + k_2)\) 이다.

이를 이용하여, 다음을 증명할 수 있다.

\(\frac{(n - 1)S^2}{\sigma^2} \sim \chi^2(n - 1)\)

즉, 표본분산을 위와 같이 약간 변형하면 카이제곱 분포를 따르며, 이를 이용하여 모분산에 대한 신뢰구간을 구할 수 있다.

(귀무가설하의) 기대값이 0인 확률변수들의 제곱합은 점근적으로(asymptotically, n이 커질수록 점점 더) 카이제곱 분포를 따른다. 이를 이용한 카이제곱 검정들이 많다.

카이제곱 분포의 정의상 다음의 두 값은 같다.

c(qnorm(1 - 0.05/2)^2, qchisq(1 - 0.05, 1))
[1] 3.841459 3.841459

6.3.5 t 분포 (t distribution)

t 분포는 수학 함수를 pdf로 해서 정의할 수도 있지만, 다음과 같이 정의할 수도 있다.

\(Z \sim N(0, 1^2)\) 이고 \(V \sim \chi^2(k)\) 일 때

\(T = \frac{Z}{\sqrt{V/k}}\) 라고 확률변수를 구성하면, T가 따르는 분포를 자유도 k인 t 분포라 한다. 즉,

\(T \sim t(k)\) 이다.

t 분포는 자유도가 점점 커질수록 표준정규분포에 가까워진다 (즉, 극한 분포는 정규분포이다). 자유도가 1인 t 분포는 특별히 코쉬 분포(Cauchy distribution)라 부르는데, 이는 이상하게도 평균과 분산이 유한한 값이 아니다.

Basu의 정리에 따르면 \(X_i\)들이 정규분포를 따를 때, \(\bar{X}\)\(S^2\)은 독립이다.

이를 이용하면, 다음과 같은 변형으로 \(\frac{\bar{X} - \mu}{S/\sqrt{n}}\)이 자유도 n - 1인 t 분포를 따름을 알 수 있다.

\(\frac{\bar{X} - \mu}{S/\sqrt{n}} = \frac{(\bar{X} - \mu)/\left( \frac{\sigma}{\sqrt{n}} \right)}{\sqrt{\frac{(n - 1)S^2}{\sigma^2}/(n - 1)}} = \frac{Z}{\sqrt{V/(n - 1)}} \sim t(n - 1)\)

위의 t 분포를 student t distribution이라고도 부른다.

6.3.6 F 분포 (F distribution)

F 분포도 수학함수인 pdf를 이용해서 정의할 수도 있지만(자유도는 양의 실수), 다음과 같이 정의할 수도 있다.

\(V_1 \sim \chi^2(k_1)\) 이고, \(V_2 \sim \chi^2(k_2)\) 일 때, 이들로 다음과 같이 만들어진 새로운 확률변수 F가 따르는 분포가 F 분포이다.

\(F = \frac{V_1/k_1}{V_2/k_2} \sim F(k_1, k_2)\)

즉, F 분포는 자유도 2개를 모수(parameter)로 갖는 분포이다. 분자와 분모가 바뀌면 자유도의 순서도 바뀐다.

이 분포는 분산의 비에 대한 신뢰구간을 추정하거나, 두 분산의 비가 유의하게 1과 다른지(즉, 두 분산이 다른지)를 검정하는데 사용할 수 있다.

정의에 의해, 자유도 k인 t 분포를 따르는 확률변수 T를 제곱하면 \(F(1, k)\)인 F 분포를 따름을 알 수 있다.

즉,

\(T \sim t(k)\) 이면 \(T^2 \sim F(1, k)\) 이다.

6.3.6.1 F 분포 또는 카이제곱 분포를 이용한 포함관계의 두 경쟁 모형 비교

두 개의 경쟁하는 모형이 full model vs. reduced model 관계에 있으면서, 통계적으로 선호되는 모형을 선택하고자 하면 F 분포가 유용하다.

즉, \(\Delta (2LL)/q \sim F(q, N - p)\) 이다. (참고: 허명회. 수리통계학 강의. p184 자유아카데미 2001.)

위에서 N은 전체 observation의 개수(대상자/block 수 아님), q는 두 모형간의 parameter 개수의 차이이고, p는 full model의 parameter 개수이다.

이것은 다시 N이 점점 커질수록 \({\chi}^2(q)\) 분포를 따르게 된다. (이것을 Wilks’ theorem이라고 한다.)

아래는 그 예시를 계산하여 보여주는 것이다.

x = 1:10                   # delta 2 log likelihood values (examples)
nRec = 108                 # number of observedrecords, not the number of subjects
npFull = 7                 # count of parameters of full model
npReduced = 6              # count of parameters of reduced model
delta = npFull - npReduced # = 1, difference of count of parameters
1 - pchisq(x, delta)       # when you use chi-square distribution
 [1] 0.31731 0.15730 0.08326 0.04550 0.02535 0.01431 0.00815 0.00468 0.00270 0.00157
1 - pf(x/delta, delta, nRec - npFull) # when you use F distribution
 [1] 0.31970 0.16037 0.08632 0.04819 0.02755 0.01603 0.00945 0.00564 0.00340 0.00207

이제 두 모형의 모수(parameter) 갯수가 2개 차이가 나는 경우 2LL의 차이에 따른 p-value를 계산하면 다음과 같다.

npReduced = 5              # count of parameters of reduced model
delta = npFull - npReduced # =2, difference of count of parameters
1 - pchisq(x, delta)       # when you use chi-square distribution
 [1] 0.60653 0.36788 0.22313 0.13534 0.08208 0.04979 0.03020 0.01832 0.01111 0.00674
1 - pf(x/delta, delta, nRec - npFull) # when you use F distribution
 [1] 0.60802 0.37149 0.22806 0.14066 0.08715 0.05424 0.03391 0.02129 0.01342 0.00850

위에서 보듯이 F 분포를 이용하는 것이 더 보수적이다. 예를 들어, 위의 경우를 보면 유의수준 0.05에서 파라미터 개수가 2개 차이 나면서 \(\Delta (2LL)\)가 6일 때 (다른 기준이 없다면) 카이제곱분포로는 full model을 선택하게 되고, F 분포로는 reduced model을 선택하게 된다.

6.3.6.2 비심 분포들(non-central distributions)과 표본 크기(sample size)

앞의 t 분포 정의에서 분자의 Z는 평균이 0이다. 평균이 0이 아닌 경우도 생각할 수 있는데, 이 분포를 비심 t 분포(non-central t distribution)라 한다.

카이제곱 분포에서도 평균이 0이 아닌 정규분포 확률변수를 이용해서 만드는 것을 생각할 수 있는데, 이것도 비심 카이제곱 분포(non-central chi-square distribution)라 한다.

F 분포도 비심도(non-centrality)를 생각할 수 있으며, R에서는 pt, pchisq, pf 등에 모두 ncp라는 non-centrality parameter를 줄 수 있게 되어 있다 (기본값은 0).

귀무가설(null hypothesis)하에서는 (꼭 그런 것은 아니지만) 대개 central distribution을 사용하고, 대립가설은 확률변수가 비심 분포를 따른다는 것을 가정하는 것이므로, 검정력(power)과 표본 크기(sample size)를 정확히 계산하기 위해서는 비심 분포들을 사용해야 한다. 그렇지 않은 표본 크기 구하는 공식들은 모두 근사치(approximation)이다.

각 분포의 모양은 Wikipedia 또는 R에서 직접 그려 확인해본다.

6.3.7 순서 통계량 (order statistic)

확률표본(random sample) \(X_1, X_2, \cdots, X_n\) 을 크기 순으로 나열한 순서 통계량 \(X_{(1)} \leq X_{(2)} \leq \cdots \leq X_{(n)}\) 과 관련한 분포이다.

아래 \(F(x)\)\(X_i\)들의 cdf이고, \(f(x)\)는 pdf이다.

\(X_1, X_2, \cdots, X_n\)\(F(x)\)의 확률표본일 때, 순서 통계량 \(X_{(k)}\)의 cdf와 pdf는 다음과 같다.

\(\begin{aligned} &F_k(x) = \sum_{j=k}^{n} \binom{n}{j} \left[ F(x) \right]^j \left[ 1 - F(x) \right]^{n - j} \end{aligned}\)

\(f_k(x) = \frac{n!}{(k - 1)! (n - k)!} \left[ F(x) \right]^{k - 1} \left[ 1 - F(x) \right]^{n - k} f(x)\)

따라서, 위의 k에 n과 1을 대입하여 최대값과 최소값의 분포를 구할 수 있다.

\(\begin{array}{ll} F_n(x) = \left[ F(x) \right]^n , & f_n(x) = n f(x) \left[ F(x) \right]^{n - 1} \\ F_1(x) = 1 - \left[ 1 - F(x) \right]^n , & f_1(x) = n f(x) \left[ 1 - F(x) \right]^{n - 1} \end{array}\)

순서 통계량은 몇몇 증명과 식 유도에 유용하다.

\(1 \leq j \leq k \leq n\)을 만족하는 \(X_{(j)}\)\(X_{(k)}\) 의 joint pdf는 다음과 같다.

\(f(x_j, x_k) = \frac{n!}{(j-1)!(k-1-j)!(n-k)!} \left[ F(x_j) \right]^{j-1} \left[ F(x_k) - F(x_j) \right]^{k-1-j} \left[ 1 - F(x_k) \right]^{n-k} f(x_j) f(x_k)\)