5.1 기본 용어 정의

확률변수(쉬운 정의): 결과가 확률적으로 결정되는 상황에서, 결과를 수에 대응시키는 ‘규칙’.

Random Variable: A mapping from stochastic event outcome to number

좀 더 엄밀하게 여기에서의 수는 실수(real number)이다. 위의 ’규칙’을 수학에서는 사상(mapping)이라 하며, 많은 사람들은 그냥 함수(function)라고 부른다. 따라서, 많은 통계책에서는 표본공간이라는 개념을 이용하여 확률변수를 다음과 같이 정의하고 있으나, 위의 정의가 더 이해하기 쉽니다.

확률변수(Random Variable): 표본공간에서 정의된 실수값 함수(real-valued function)

표본공간(Sample Space): 통계적 조사에서 가능한 모든 실현 결과의 집합

아주 엄밀한 것은 측도론(measure theory) 교재를 참고한다.

이 장에서 확률변수는 알파벳 대문자로 나타내며, 수학의 상수 또는 변수는 소문자로 나타낸다.

통계학은 확률변수를 다루는 학문이라고도 볼 수 있다. 통계 비전공자에게 필요한 것은 통계학 뿐 아니라, 자료분석 전반에 대한 이해이다.

예를 들어, 동전을 던져서 앞면이 나오면 1, 뒷면이 나오면 0에 대응시킨 확률변수 X를 정의할 수 있다.

확률변수는 기본적으로 확률변수끼리 또는 숫자와 사칙연산이 가능하다. 예를 들어, 주사위를 던져서 나오는 윗면의 눈의 갯수를 Y라는 확률변수로 정의하면, 앞의 X와 사칙연산을 해서 X + Y, X - Y, XY, X/Y 등의 새로운 확률변수를 만들 수 있다. X + 1, 2X 등도 모두 새로운 확률변수이다.

확률변수가 가질 수 있는 값이 헤아릴 수(countable) 있을 때 이산형 확률변수(discrete random variable)라하고, 그렇지 않을 때 연속형 확률변수(continuous random variable)라 한다.

수학적으로는 근호수(root number)까지 discrete라고 봐야 하지만, 실무에서는 정수형(대표적으로 Likert scale)도 연속형으로 간주하여 처리하게 된다.


확률질량함수(probability mass function, pmf): 이산형 확률변수 X가 취할 수 있는 값 \(x_1\), \(x_2\), \(x_3\), … 의 각각에 대하여 P(X=\(x_1\)), P(X=\(x_2\)), P(X=\(x_3\)), … 를 대응시켜주는 함수 f(x)를 X의 확률질량함수라 한다. P(X=x)는 확률변수 X가 특정값 x일 때의 확률을 의미한다. 확률질량함수의 결과(확률)값은 모든 점에서 0보다 크거나 같아야 하고, 모든 가능한 확률값을 합하면 1이어야 한다.


즉,

\(f(x) = \begin{cases} P(X=x), & x=x_j \; (j=1,2,\cdots)\\ 0, & \text{else} \end{cases}\)

\(\begin{aligned} &0 \leq P(X = x_j) = f(x_j) \leq 1 \\ &\sum_{j=1}^{\infty} f(x_j) = 1 \\ &P(a < X \leq b) = \sum_{a < x_j \leq b} f(x_j) \end{aligned}\)

확률변수 X가 가질 수 있는 값이 연속형일 때는 확률질량함수 대신 확률밀도함수(probability density function, pdf)를 사용한다. X의 확률밀도함수는 다음의 조건을 만족하는 함수를 의미한다.

\(\begin{aligned} &0 \leq f(x) < \infty \quad \text{for all x} \\ &\int_{-\infty}^{\infty} f(x) dx = 1 \\ &0 \leq P(a < X < b) = P(a \leq X < b) = P(a < X \leq b) = P(a \leq X \leq b) = \int_a^b f(x) dx \leq 1 \end{aligned}\)

따라서, 특정 점에서의 f(x)는 대개 0보다 크지만, P(X=x)는 0이다. 즉, 연속형 확률변수 X가 특정값 x를 가질 확률은 0이다.

\(P(X = x) = 0\)