6.1 이산형 확률분포 (Discrete Probability Distribution)

아래에서 확률질량함수(pmf)를 pdf로 통칭하였다.

6.1.1 이산형 균일 분포 (discrete uniform distribution)

\(f(x) = \frac{1}{n}, \; x = 1, 2, \cdots, n\)

sample(1:n, 1)

6.1.2 베르누이 분포 (Bernoulli distribution)

\(f(x) = \begin{cases} p, & x=1 \\ 1 - p, & x=0 \end{cases}\)

p = 0.3
as.numeric(runif(1) < p)

6.1.3 이항 분포 (binomial distribution)

확률변수 X: 1회 시행시 성공확률이 p이고, n회 독립적으로 시행할 때 성공한 횟수

\(f(x) = \binom{n}{x} p^x (1 - p)^{n - x}, \; x = 0, 1, 2, \cdots, n\)

위에서는 \(\binom{n}{x}\)는 n개 중에 x개를 순서 없이 뽑는 경우의 수(조합, combination)를 의미한다. \(nCr\)이라고도 쓴다.

R에서 combination 함수는 choose().

\(X \sim B(n, p)\)

\(E(X) = np\)

\(V(X) = np(1 - p)\)

R에서 pdf는 dbinom().

R에서 cdf는 pbinom().

R에서 cdf의 역함수(inverse function)은 qbinom().

R에서 rbinom()이항 분포를 따르는 난수를 구할 수 있다.

R에서는 분포 이름 앞에 d, p, q, r을 붙여서 함수의 역할을 구분하고 있다. 즉, d로 시작하면 pdf, p로 시작하면 cdf, q로 시작하면 cdf의 역함수, r로 시작하면 난수 발생 함수이다.

이항 분포는 n이 크고, np가 5이상일 때는 \(N(np, np(1 - p))\)를 따르는 정규 분포로 근사할 수 있고, n이 크지만, p가 매우 작아서 np와 np(1 - p)가 비슷한 경우에는 \(P(np)\)인 포아송 분포로 근사할 수 있다. 하지만, 이것은 컴퓨터 없이 계산하는 경우에 적용되며, 컴퓨터로 계산이 가능한 경우에는 근사를 하지 않는 것이 더 좋다.

6.1.4 포아송 분포 (Poisson distribution)

\(f(x) = \frac{e^{-m} m^x}{x!}\)

\(X \sim P(m)\)

\(E(X) = V(X) = m\)

R의 관련 함수는 dpois(), ppois(), qpois(), rpois().

평균이 \(m_1\)\(m_2\)인 포아송 분포를 따르는 두 독립 확률변수를 더하면 평균이 \(m_1 + m_2\)인 포아송 분포를 따르게 된다. 차는 그렇지 않다. 둘이 독립이면 차는 Skellam distribution을 따른다.

6.1.5 초기하 분포 (hypergeometric distribution)

확률변수 X: 크기가 N인 유한 모집단에서 n개를 비복원 무작위 추출시 원하는 특성을 가진 것의 갯수

크기가 N인 유한 모집단에 M개가 원하는 속성을 가진 경우 pdf는 다음과 같다.

\(f(x) = \frac{\binom{M}{x} \binom{N - M}{n - x}}{\binom{N}{n}}\)

\(E(X) = np, \; p = M/N\)

\(V(X) = np(1 - p) \frac{N - n}{N - 1}\)

R의 관련 함수는 dhyper(), phyper(), qhyper(), rhyper().

6.1.6 기하 분포 (geometric distribution)

확률변수 X: 성공확률이 p로 일정한 독립시행에서 첫 번째 성공이 발생하기까지 시행한 횟수

\(f(x) = (1 - p)^{x - 1} p, \; x = 1, 2, \cdots\)

R의 관련 함수는 dgeom(), pgeom(), qgeom(), rgeom().

6.1.7 음이항 분포 (negative binomial distribution)

확률변수 X: 성공확률이 p로 일정한 독립시행에서 r번 성공할때까지 시행한 횟수

\(f(x) = \binom{x - 1}{r - 1} p^r (1 - p)^{x - r}, \; x=r, r+1, \cdots\)

R의 관련 함수는 dnbinom(), pnbinom(), qnbinom(), rnbinom().

6.1.8 다항 분포 (multinomial distribution)

속성의 종류가 다수인 개체들로 이루어진 무한 모집단에서 n번의 독립적인 추출을 하였을 때의 결합확률분포

\(f(x_1, x_2, \cdots, x_k) = P(X_1 = x_1, X_2 = x_2, \cdots, X_k = x_k) = \frac{n!}{x_1 ! x_2 ! \cdots x_k !}p_1^{x_1} p_2^{x_2} \cdots p_k^{x_k}\)

\(p_1 + p_2 + \cdots + p_k = 1, \; x_1 + x_2 + \cdots + x_k = n, \; 0 \leq x_i \leq n\)

\(E(X_i) = n p_i\)

\(V(X_i) = n p_i (1 - p_i)\)

R의 관련 함수는 dmultinom(), rmultinom().