13.3 Some Concepts

통계학은 크게 기술(descriptive) 통계와 추론(inferential, 추측) 통계로 나누어 진다. 기술 통계에는 평균, 표준편차, 중앙값, 최빈값, 범위, 사분위 수 등을 구하고 나타내는 것이 해당하고, 추론(추측) 통계에는 주로 확률 변수(random variable)와 통계량(statistic)을 이용하여 여러 가지 추론을 하게 된다. 추론에는 크게 검정(test)과 추정(estimation)이 있다. 검정의 대상은 주로 가설(hypothesis)이며 추론의 대상은 주로 파라미터(parameter, 경수)이다. 대부분의 가설 검정은 Wald 형태의 검정(Wald type test)으로서 1 회의 계산에서 나온 파라미터의 오차를 이용하여 가설을 검정하기 때문에 비교적 단순하다. 반면에 우도비 형태의 검정(Likelihood ratio type test)은 2 회 이상의 계산에서 나온 우도(likelihood)를 이용하여 검정을 하는 것이다. 후자는 모형간의 비교를 통하여 우수한 모형을 선택할 때 유용하다. 모형에 사용된 상수를 파라미터라고 하는데 이 파라미터에 대해서는 점 추정(point estimation)을 할 수도 있고, 좀 더 바람직하게는 오차 등을 이용한 구간 추정(interval estimation)을 실시한다. 구간 추정의 가장 단순한 형태는 t 분포에서의 해당 자유도와 신뢰도를 이용한 t 값과 표준오차(standard error, SE)를 곱한 값을 점 추정치에 빼고 더하는 것이다. 이는 대충 점 추정치 ± 2 SE 정도가 된다.

확률 변수가 연속인 값을 갖은 경우 연속함수로 나타낼 수 있고 이를 확률밀도함수(probability density function, pdf)라고 부르며, 확률 변수 X가 구간 (a, b)의 값을 가질 확률은 pdf를 해당구간에서 적분한 값과 같다. 확률은 모두 0에서 1까지의 범위를 갖는다. 확률변수가 불연속인 값을 갖는 경우 불연속 함수로 나타내고 이 함수를 확률질량함수(probability mass function, pmf)이라 부른다. 확률 변수는 누적확률밀도함수(cumulative density function, cdf)나 적률생성함수(moment generating function, mgf)를 이용해서 나타낼 수도 있다. 이러한 함수들을 통칭해서 분포함수(distribution function)이라고도 한다.

모집단(population)의 일부를 선택(추출)한 것을 표본(sample)이라고 하는데, 모든 가능한 표본의 집합을 표본 공간(sample space)라 한다. 표본이 가진 원소(element, 대개 근원사건-elementary event)의 개수를 표본 크기(sample size)라고 한다. 이를 잘못하여 ‘표본 수(number)’라고 해서는 안 되며, 임상연구에서는 ’표본 크기’ 대신에 ’피험자 수(number of subject)’라는 용어를 사용할 수 있다.

분포함수(distribution function)의 모양을 결정하는 상수를 파라미터라고 하는데, 몇몇 분포함수의 모양은 파라미터라고 하기에는 약간 성격이 다른 어떤 숫자에 의해 모양이 달라진다. 이것이 표본 크기와 관련된 숫자이며, 이를 자유도(degree of freedom)라 한다. 자유도는 수리통계학이나 분포 자체를 연구하는 입장에서는 파라미터와 다름이 없고, 실험을 하고 결과를 해석하고자 하는 입장에서는 표본크기와 유사한 개념이다. 기술적으로 자유도는 피험자 수에서 추정한 파라미터의 숫자를 뺀 값과 동일한 경우가 많다. 파라미터는 상수이면서 분포함수의 모양을 결정하는 것인데, 표본크기는 개별 연구에 따라 변화하는 숫자의 성질을 가지고 있지만, 분포의 모양을 결정할 수도 있으므로, 자유도는 파라미터와 변수의 중간적인 성격을 지니고 있다고도 할 수 있다.

모형은 흔히 수식을 사용하여 나타내고, 수식은 기호(symbol)를 포함하게 된다. 기호는 함수라든지 여러 가지를 의미할 수 있지만, 수(number)를 의미한다면 이 수는 상수(constant, value, 값)가 아니면 변수(variable)이며 중간 형태는 없다. 파라미터는 특별히 관심의 대상이 되는 상수를 의미하며 수식에서는 계수(coefficient)로 나타나기도 한다. 일반적인 상수는 영어 소문자로 표시되며, 파라미터는 그리스 소문자(일변수) 또는 대문자(벡터, 행렬)로 표시한다. 용량, 시간과 같은 수학적 변수 (또는 시간에 따라 변하는 영향인자, covariates)는 영어 소문자로 표시한다. 통계적 변수인 확률 변수는 대문자로 표시한다.

통계에서는 분포(distribution)를 다루는 데, 분포를 표현하는 방법에는 자료를 가공하지 않고 거의 그대로 나타내는 도수분포표(frequency table)가 있고, 이상적인 상태인 수학적 수식(확률밀도함수-pdf, 확률질량함수-pmf, 적률생성함수-mgf)으로 나타낼 수도 있다. 또는 분포의 대표값이나 적률인 평균, 분산(또는 표준편차), 첨도, 왜도 등을 이용해서 분포를 표현할 때도 있다.

확률 변수란 사건을 숫자로 대응시키는 사상(mapping) 또는 함수(function)로서 수학에서의 일반적인 변수와는 의미가 다르다. 확률 변수는 대문자로 나타내는데, 표본의 원소들은 개개가 각각의 확률변수로 표현된다. 모든 확률 변수는 분포를 갖는다. 즉, 확률적으로 현실화된 값(realized value, 실험이 행해진 후의 값)을 가지게 된다. 확률 변수를 이용한 결과 수식, 즉 확률 변수의 함수는 또 다른 확률 변수가 된다.

확률 변수 중에 추론에 유용하게 사용되는 확률 변수를 통계량(statistic)이라 한다. 검정에 사용되는 검정 통계량(test statistic)은 흔히 줄여서 통계량(statistic)이라고 부르며, 추정에 사용되는 통계량은 특별히 추정량(estimator)이라고 부른다. 추정량의 값(value)을 추정치(estimate)라고 한다.

통계량의 표준편차(standard deviation)를 특별히 표준오차(standard error)라 한다.