6.2 연속형 확률분포 (Continuous Probability Distribution)

각 분포들의 모양은 Wikipedia 혹은 R에서 그려서 확인하는 것이 좋다.

6.2.1 연속형 균일 분포 (continuous uniform distribution)

\(f(x) = \frac{1}{\theta_2 - \theta_1}, \; \theta_1 \leq x \leq \theta_2\)

\(E(X) = \frac{\theta_1 + \theta_2}{2}\)

\(V(X) = \frac{(\theta_2 - \theta_1)^2}{12}\)

관련 R 함수는 dunif(), punif(), qunif(), runif().

6.2.2 정규 분포 (normal distribution)

\(f(x) = \frac{1}{\sqrt{2\pi\sigma^2}}exp \left[ - \frac{ (x - \mu)^2 }{2\sigma^2} \right], \; -\infty < x < \infty\)

\(E(X) = \mu\)

\(V(X) = \sigma^2\)

관련 R 함수는 dnorm(), pnorm(), qnorm(), rnorm().

정규분포 확률밀도함수 앞의 상수는 전체 적분값이 1이 되도록 보정해 준 것이다.

\(X_1 \sim N(\mu_1, \sigma_1^2)\) 이고 \(X_2 \sim N(\mu_2, \sigma_2^2)\) 일 때 둘의 합/차는 역시 정규분포이다.

\(X_1 + X_2 \sim N(\mu_1 + \mu_2, \sigma_1^2 + \sigma_2^2 + 2COV(X_1, X_2))\)

정규분포에서 특히 평균이 0이고 분산이 1인 정규분포를 표준정규분포(standard normal distribution)라고 한다.

6.2.3 지수 분포 (exponential distribution)

\(f(x) = \lambda e^{-\lambda x}, \; 0 < x < \infty\)

\(E(X) = 1/\lambda\)

\(V(X) = 1/\lambda^2\)

관련 R 함수는 dexp(), pexp(), qexp(), rexp().

위는 R에서의 형식으로 표현한 것이고, 많은 책에서는 \(\lambda\) 대신 \(1/\beta\)를 사용한다.

뒤에 더 자세히 나오지만, 위에서 \(\lambda=\frac{1}{2}\) 또는 \(\beta=2\)이면 자유도가 2인 카이제곱분포와 같아진다.

6.2.4 감마 분포 (gamma distribution)

\(f(x) = \frac{1}{\Gamma(\alpha) \beta^{\alpha}} x^{\alpha - 1}e^{-x/\beta}, \; 0 < x < \infty\)

\(E(X) = \alpha \beta\)

\(V(X) = \alpha \beta^2\)

위의 \(\Gamma\) 함수는 factorial 함수의 정의역을 실수로 확장하되 \(\Gamma(x) = (x - 1)!\)이 되도록 한 것이다. (수학에서는 정의역을 복소수 영역까지 확장할 수 있으나, 통계학에서는 실수만 쓴다.)

관련 R 함수는 dgamma(), pgamma(), qgamma(), rgamma().

독립적이고 동일한(independent and identically distributed, iid) 지수 분포(\(\lambda = 1/\theta\))를 n개 더하면 gamma 분포를 따른다. 즉,

\(\sum X_i \sim \Gamma(n, \theta), \; X_i \stackrel{i.i.d}{\sim} Exp(1/\theta)\)

6.2.5 카이제곱 분포 (chi-square distribution)

\(f(x) = \frac{1}{\Gamma(\nu / 2) 2^{\nu / 2}} x^{\nu / 2 - 1}e^{-x/2}, \; 0 < x < \infty\)

\(E(X) = \nu\)

\(V(X) = 2\nu\)

카이제곱 분포는 감마 분포에서 \(\alpha\)\(\nu/2\), \(\beta\)를 2로 단순화한 분포이다.

관련 R 함수는 dchisq(), pchisq(), qchisq(), rchisq().

표준정규분포(\(N(0, 1^2)\))를 따르는 n개의 독립적인 확률변수를 더하면 \(\nu = n\)인 카이제곱 분포를 따른다. 즉,

\(\begin{aligned} &\sum_{i=1}^{n} Z_i^2 \sim \chi^2(n), \; Z_i \stackrel{i.i.d}{\sim} N(0, 1^2) \end{aligned}\)

카이제곱 분포를 pdf를 이용해서 정의할 수도 있고, 표준정규분포를 따르는 \(Z_i\)들의 제곱합으로 정의할 수도 있다. 전자의 경우에는 \(\nu\)가 모든 양수값을 가질 수 있지만, 후자의 경우에는 정수값만을 가지게 된다. 후자와 관련해서 \(\nu\)를 자유도(degree of freedom)라 한다.

자유도 \(k_1\)\(k_2\)인 카이제곱 분포를 따르는 두 독립 확률변수를 더하면 자유도 \(k_1 + k_2\)인 카이제곱 분포를 따른다.

카이제곱분포에서 자유도가 2이면 지수분포(\(\beta=2\) 또는 \(\lambda=1/2\))가 된다.

따라서, 다음과 같은 관계가 성립한다.

p = seq(0, 1, by=0.01)
all.equal(qchisq(p, 2), -2*log(1 - p)) # Testing qchisq(p, 2) == -2*log(1 - p)
[1] TRUE
all(qchisq(p, 2) == -2*log(1 - p))               # Wrong coding
[1] FALSE
all(zapsmall(qchisq(p, 2) - -2*log(1 - p)) == 0) # Another wrong coding
[1] FALSE

위의 all(qchisq(p, 2) == -2*log(1 - p)) 이 잘못된 coding인 이유는 float point arithmetic에서는 equality를 test하지 않고, 차이가 얼마이내인지만 test해야 하기 때문인데, 더 자세한 것은 Scientific Compuation Using R (http://r.acr.kr) 1장이나 ’What every computer scientist should know about floating-point arithmetic’문헌을 참고한다.

위 식이 성립하는 이유는 연속형균일분포(연속형 일양분포)의 -2log 변환이 지수분포를 따르기 때문이다. 유도 수식은 수리통계학의 확률변수의 함수(functions of random variable) 부분 또는 시뮬레이션 교재의 inverse transfomration method를 참고한다.

위의 성질을 이용하여, 기존 연구들의 단측 p-value를 구하여 병합한 p-value를 구할 수 있게 된다. 이는 meta-analysis의 가장 기초적인 분석법이다.

metaP = function(one.sided.p)
{
  ChiSq = -2*sum(log(one.sided.p))
  p.value = 1 - pchisq(ChiSq, 2*length(one.sided.p))
  return(c(ChiSq=ChiSq, p.value=p.value))
}
metaP(c(0.3279, 0.0859, 0.1254, 0.0723, 0.1025))
      ChiSq     p.value 
21.10137665  0.02039765 

6.2.6 베타 분포 (beta distribution)

\(f(x) = \frac{x^{\alpha - 1} (1 - x)^{\beta - 1}}{B(\alpha, \beta)}, \; 0 \leq x \leq 1, \; \alpha, \beta > 0\)

\(E(X) = \frac{\alpha}{\alpha + \beta}\)

\(V(X) = \frac{\alpha \beta}{(\alpha + \beta)^2 (\alpha + \beta + 1)}\)

\(B\) 함수는 \(\Gamma\) 함수와 다음의 관계가 있다.

\(B(\alpha, \beta) = \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha) \Gamma(\beta)}\)

관련 R 함수는 dbeta(), pbeta(), qbeta(), rbeta().

대부분의 분포들은 서로 관련되어 있다. 검색해 보아라.