Data Analysis with R
Preface
System and Session Information
1
R 소개(introduction)
1.1
R이란?
1.2
R 설치 및 환경설정
1.2.1
R 설치
1.2.2
Rtools 설치
1.2.3
R package update
1.2.4
Rconsole 파일 복사 편집
1.2.5
.Rprofile 파일 생성 편집
1.2.6
Pandoc 설치
1.2.7
KoPubWorld 폰트 설치
1.2.8
TinyTeX 설치
1.2.9
Ghostscript 설치
1.2.10
환경변수 Path 점검
1.2.11
Rmd 파일 compile
1.3
Digital Computing의 주의할 점
1.4
자료의 입력
1.5
작업 폴더 (Working Folder) 지정
1.6
자료 읽기 (Loading Data into R Environment)
1.7
자료 다루기 (Data Manipulation)
1.7.1
새로운 열(column, 컬럼) 만들기
1.7.2
특정 행(row)만 고르기
1.7.3
특정 열(컬럼)만 고르기
1.7.4
행 순서 바꾸기
1.7.5
동일한 형태의 data.frame 합하기 (행 결합, row binding)
1.7.6
열 결합 (column binding)
1.7.7
공통 컬럼들을 이용한 결합 (Merge)
1.7.8
Reshape (rotation)
1.8
자료 저장 (Saving Data)
1.9
분석 결과의 저장
1.9.1
Text 저장
1.9.2
그림으로 저장
1.9.3
PDF로 저장
1.9.4
rtf (MS-Word format)로 저장
1.9.5
R Markdown
1.10
문자열 처리 (String Manipulation)
1.11
날자 시간 처리 (Date and Time Manipulation)
1.12
R 에서 기본 수학 표현
1.12.1
기본 연산 (Basic operation)과 기본 초월함수
1.12.2
논리 연산 (Logic operation)
1.12.3
집합 연산 (Set operation)
1.12.4
벡터 연산 (Vector operation)
1.12.5
행렬 연산 (Matrix operation)
1.12.6
통계 분포 함수 (Statistical distribution function)
1.13
Coding Style
1.14
맺음말
1.15
연습문제
2
R Markdown
2.1
목적과 사용 방법
2.2
기본 문법
2.3
시작 부분
2.4
R script 부분
2.5
한 줄 안의 R script 실행
2.6
수식의 사용
2.7
표 넣기
2.7.1
직접 써서 넣기
2.7.2
R의 data.frame을 표로 넣기
2.8
그림 넣기
2.8.1
외부 그림 직접 넣기
2.8.2
R의 결과 그림 넣기
2.9
참고문헌 넣기
2.10
마지막 부분
2.11
연습문제
3
단일 변수의 자료 분석
3.1
연속형 (정량형) 변수
3.1.1
기술 통계량(Descriptive Statistic)
3.1.2
Plotting
3.1.3
Tabulation
3.1.4
통계적 추론 (Statistical Inference)
3.1.5
Single Group t-test
3.1.6
정규성 검정 (Normality Test)
3.2
범주형 변수
3.2.1
기술 통게량 (Descriptive Statistics)
3.2.2
Plotting
3.2.3
통계적 추론 (Statistical Inference)
3.3
시간 변수 (Time-to-event Variable)
3.4
연습문제
4
확률 (Probability)
4.1
확률의 정의
4.1.1
확률의 상대성
4.1.2
개체의 고유성(identity)과 식별가능성(identifiability)
4.2
조건부 확률 (Conditional probability)
4.3
여사건 확률 (Probability of complementary event)
4.4
Bertrand’s Paradox in Probability
4.4.1
방법 1: 원 둘레 상의 임의의 두 점을 잡을 때
4.4.2
방법 2: 원의 중심과 선분의 중점 사이 거리
4.4.3
방법 3: 선분의 중점이 (원래 원의 중심과 같고) 반지름이 반인 원 안에 있을 때
4.5
도박꾼의 파산
4.6
야구카드 모으기
4.7
Monty Hall 문제
4.8
산불 문제
4.9
맺음말
4.10
연습문제
5
확률변수 (Random Variable)
5.1
기본 용어 정의
5.2
누적 분포 함수 (Cumulative Distribution Function)
5.3
기대값 (Expectation)
5.3.1
평균 (Mean)
5.3.2
확률변수의 함수의 기대값
5.3.3
분산 (Variance)
5.3.4
왜도(Skewness)와 첨도(Kurtosis)
5.4
결합 확률분포 (Joint Probability Distribution), f(x, y)
5.4.1
이산형 확률변수
5.4.2
연속형 확률변수
5.5
주변 확률분포 (Marginal Probability Distribution)
5.5.1
이산형 확률변수
5.5.2
연속형 확률변수
5.6
조건부 확률분포 (Conditional Probability Distribution)
5.6.1
이산형 확률변수
5.6.2
연속형 확률변수
5.7
공분산 (Covariance)과 상관계수 (Correlation Coefficient)
5.8
두 확률변수의 독립 (Independency)
5.9
두 확률변수의 합 (X + Y)의 기대값과 분산
5.10
확률변수들의 선형 결합(선형 변환)으로 생긴 확률변수의 확률밀도함수
5.11
두 확률변수의 곱(XY)의 기대값
5.12
우도 (Likelihood)
5.13
맺음말
5.14
연습문제
6
확률분포 (Probability Distribution)
6.1
이산형 확률분포 (Discrete Probability Distribution)
6.1.1
이산형 균일 분포 (discrete uniform distribution)
6.1.2
베르누이 분포 (Bernoulli distribution)
6.1.3
이항 분포 (binomial distribution)
6.1.4
포아송 분포 (Poisson distribution)
6.1.5
초기하 분포 (hypergeometric distribution)
6.1.6
기하 분포 (geometric distribution)
6.1.7
음이항 분포 (negative binomial distribution)
6.1.8
다항 분포 (multinomial distribution)
6.2
연속형 확률분포 (Continuous Probability Distribution)
6.2.1
연속형 균일 분포 (continuous uniform distribution)
6.2.2
정규 분포 (normal distribution)
6.2.3
지수 분포 (exponential distribution)
6.2.4
감마 분포 (gamma distribution)
6.2.5
카이제곱 분포 (chi-square distribution)
6.2.6
베타 분포 (beta distribution)
6.3
표본 분포 (Sample Distribution)
6.3.1
통계량 (statistic)
6.3.2
표본평균(sample mean)과 표본분산(sample variance)
6.3.3
표본 비율(sample proportion)의 정규근사
6.3.4
카이제곱 분포 (chi-square distribution)
6.3.5
t 분포 (t distribution)
6.3.6
F 분포 (F distribution)
6.3.7
순서 통계량 (order statistic)
6.4
연습문제
7
모수 추정 (Parameter Estimation)과 가설 검정 (Hypothesis Test)
7.1
추정량의 바람직한 성질
7.1.1
불편성(unbiasedness)
7.1.2
일치성(consistency)
7.1.3
최소분산성(minimum variance) 또는 최대 효율성(maximal efficiency)
7.2
모평균의 추정
7.2.1
구간추정
7.3
모비율의 추정
7.4
모분산의 추정
7.5
신뢰구간을 좁히려면
7.6
단일군 평균, 비율 추정을 위한 표본 크기 계산
7.7
최대 우도 추정법 (Maximum Likelihood Estimation, MLE)
7.8
대립 가설 (Alternative Hypothesis)과 귀무 가설 (Null Hypothesis)
7.9
Regularity Condition
7.10
왜 단순한 통계 방법보다 복잡한 통계 방법을 사용할까?
7.11
맺음말
7.12
연습문제
8
두 군의 비교 (Comparison of Two Groups)
8.1
두 군의 평균 비교
8.1.1
R t.test 함수 흉내내기
8.2
t-test와 단순 선형 회귀 (simple linear regression)의 관계
8.3
두 군의 분율(proportion) 비교
8.4
두 군의 분산 비교
8.5
Reference
8.6
연습문제
9
간단한 시뮬레이션들 (Simple Simulations)
9.1
카이제곱 분포의 자유도
9.1.1
카이제곱 분포의 정의
9.1.2
Setting
9.1.3
Generate Zs (standard normal distribution) and Vs (chi-square distribution)
9.1.4
Get theoretical values
9.1.5
Plot
9.1.6
Fit and get Df using MASS::fitdistr()
9.2
Simple Bootstrap
9.2.1
난수 발생시키기
9.2.2
공식 (Formula)으로 CI 구하기
9.2.3
Bootstrapping으로 CI 구하기
9.3
Welch t-test의 검정력 구하기
9.4
2x2 카이제곱 검정의 검정력 구하기
9.5
타원 그리기
9.6
Joint Confidence Region
9.6.1
Drawing bivariate normal using distribution function and sampled data
9.7
3D Plot Using rgl
9.7.1
결과 capture한 그림
9.8
상관관계 (Correlation)
9.9
연습문제
10
선형모형의 모형식 (Formula)과 설계행렬 (Design Matrix)
10.1
단순선형모형의 표현
10.2
상호작용 (Interaction)의 표현
10.3
Nested Model의 표현
10.4
Estimable Function
10.5
대비 (Contrast)
10.6
연습문제
11
선형 회귀 (Linear Regression)
11.1
최소제곱법에 의한 선형회귀 (Linear Regression by Least Square)
11.1.1
단순 선형 회귀 모형 (Simple Linear Regression Model)
11.1.2
최소 제곱법에 의한 추정 (Estimation by Least Square Method)
11.1.3
신뢰 구간 (Confidence interval)
11.1.4
예측 구간 (Prediction interval)
11.1.5
최대우도법에 의한 추정 (Maximum Likelihood Estimation, MLE)
11.2
다중 선형 회귀 (Multiple Linear Regression)
11.3
선형 회귀 모형의 분산 분석
11.4
적합 결과 진단 (Diagnostics)과 이상치 (Outlier)
11.4.1
적합 결과 진단 (Diagnostics)
11.4.2
이상치 (Outlier)와 영향점 (Influencing Point, 지렛대 점, Leverage Point)
11.5
다중 공선성 (Multicollinearity)
11.6
변환 (Transformation)
11.7
오차의 비균질 분산 모형 (Heteroscedastic Variance Model for Error)
11.8
모형 간의 비교와 선택
11.8.1
F 분포 또는 카이제곱 분포를 이용한 포함 관계의 두 경쟁 모형 비교
11.9
연습문제
12
분산 분석 (Analysis of Variance)
12.1
개요 (Introduction)
12.2
4가지 유형의 제곱합 (Four Types of Sum of Square)
12.2.1
g2 type inverse matrix
12.2.2
Type 1 SS
12.2.3
Type 2 SS
12.2.4
Type 3 SS
12.2.5
Type 4 SS
12.3
실험계획법에서 배우는 용어
12.4
오차항에의 풀링
12.5
분산분석표 이후의 분석
12.6
생물학적 동등성 시험의 분산 분석
12.7
맺음말
12.8
Reference
12.9
연습문제
13
일반화 선형 모형 (Generalized Linear Model)
13.1
포아송 회귀 (Poisson Regression)
13.2
이항 로지스틱 회귀 (Binomial Logistic Regression)
13.3
다항 로지스틱 회귀 (Multinomial Logistic Regression)
13.4
맺음말
13.5
Reference
13.6
연습문제
14
선형 혼합 효과 모형 (Linear Mixed Effects Model)
14.1
이론 (Theory)
14.2
자료 설명
14.3
Standard Two-Stage Method
14.4
Estimation with nlme::lme
14.4.1
ML Estimation with nlme::lme
14.4.2
REML Estimation with nlme::lme
14.4.3
SAS Type 3 Tests of Fixed Effects
14.5
Estimation with Custom Objective Function
14.5.1
Estimation with Custom ML Objective Function
14.5.2
Estimation with Custom REML Objective Function
14.6
맺음말
14.7
Reference
14.8
연습문제
15
비선형 회귀 (Nonlinear Regression)
15.1
약동학 예제
15.2
이론적 배경
15.3
Delta Method
15.4
변수 Scaling
15.5
Reference
15.6
연습문제
16
비선형 혼합 효과 모형 (Nonlinear Mixed Effects Model)
16.1
FO Method
16.1.1
초기화 단계 (Initialization Step)
16.1.2
추정 단계 (Estimation Step)
16.1.3
공분산 단계 (Covariance Step)
16.1.4
Post Hoc Eta
16.1.5
Table Step
16.2
First Order Conditional Estimation (FOCE) Method
16.3
Laplacian (LAPL) Method
16.4
Minimization Failure를 줄이기 위한 변수 변환
16.5
미분 방정식 형태로 주어진 모형의 적합
16.6
Reference
16.7
연습문제
Appendix
A
R Keywords and Basic Functions
A.1
Computer Language를 배우려면
A.2
Token 구분자
A.3
R Keywords
A.3.1
if … else …
A.3.2
function
A.3.3
for loop
A.4
기정의 상수 (Predefined Constant)
A.5
기본 연산자 (Basic Operator)
A.6
사용자의 연산자 정의 (User Defined Operator)
A.7
Data Type
A.7.1
Types of elements of arrays
A.8
속성 (Attribute) 관련 함수
A.9
Very Basic Functions
A.10
Environment Settings
A.11
Additional Flow Control Functions
A.12
Basic Math Functions
A.13
Basic File Read/Write Functions
A.14
Data Manipulation Functions
A.15
Data Summarization
A.16
String Manipulation
A.17
Date, Time Function
A.18
Randomization, Sampling Function
A.19
Wrapper Function
A.20
grDevices Package
A.21
graphics Package
A.22
맺음말
B
기초 통계 개괄 (Basic Statistics Overview)
B.1
Classification
B.2
Basic Notations
B.3
Some Concepts
B.4
Probability Density Function (PDF)
B.5
추정량의 바람직한 성질(Desirable Characteristics of Estimator)
B.6
Reference
C
An Example of Non-parametric Test - Run Test
C.1
Run Test (런 검정)
C.2
Reference
C.3
연습문제
D
An Example of Parametric Survival Analysis - Gompertz Model
D.1
Data Load
D.2
Manual Calculation
D.2.1
Survival function and hazard function
D.3
Using flexsurv Package
D.4
Plotting
D.4.1
Difference by Sex
D.5
Conventional Analysis
D.5.1
Conventional Plotting
E
An Example of Meta-analysis - Relative Risk
E.1
예제 배경
E.2
Using meta Package
E.3
Reproducing the Output
E.3.1
Relative Risk and Its Confidence Limit
E.3.2
Fixed Effect Model
E.3.3
Random Effect Model
E.4
Reference
F
An Example of Bayesian Concept - Clinical Trial Assurance
F.1
예제 배경
F.2
Conclusion
Published with bookdown
Data Analysis with R
Chapter 3
단일 변수의 자료 분석
변수의 종류는 여러가지 방법으로 분류할 수 있으나, 여기에서는 연속형(수치형, 정량형), 범주형(또는 계수형), 시간형으로 구분하여 설명한다.