표본분포
1. 표본분포(sampling distribution)
모집단에서 일정 크기로 표본을 뽑을 때, 그 표본의 통계량의 확률분포
통계적 추정/검정의 핵심
예시) 아래와 같은 분포를 띈 모집단에서 크기가 2인 확률표본 X1과 X2를 추출할 때, 표본평균의 확률분포는?
개인첨언 : x̄ = (X1 + X2) / 2
가능한 값들을 계산
1. X1 = 0, X2 = 0일 때, x̄ = 0
2. X1 = 0, X2 = 1 또는 X1 = 1, X2 = 0일 때, x̄ = 0.5
3. X1 = 1, X2 = 1일 때, x̄ = 1
각 경우의 확률 계산
P( x̄ = 0) = P(X1 = 0, X2 = 0) = 0.3 * 0.3 = 0.09
P( x̄ = 0.5) = P(X1 = 0, X2 = 1) + P(X1 = 1, X2 = 0) = (0.3 * 0.7) + (0.7 * 0.3) = 0.21 + 0.21 = 0.42
P( x̄ = 1) = P(X1 = 1, X2 = 1) = 0.7 * 0.7 = 0.49
표본평균의 확률분포 구하는 이유? 랜덤샘플링을 했다면 표본에 bias가 있을 수 있음
2. 표본평균의 평균과 표준편차
X1, ... , Xn이 모평균 μ, 모표준편차 σ인 모집단으로부터의 확률표본 (i.i.d)일 때,
Var( x̄ ) = σ² / n
SD( x̄ ) = σ / √n (표준오차)
중심극한정리
1. 중심극한정리
평균이 μ, 표준편차 σ인 임의의 모집단으로부터 크기 n인 표본에서의 표본평균은 n(주로 30이상)이 크면 근사적으로 평균이 μ이고 분산이 σ² / n인 정규분포를 따름
모집단이 어떤 형태의 분포든 표본 크기가 크면 항상 성립
모집단이 정규분포라면 표본평균은 표본 개수와 상관없이 항상 정규분포를 따른다.
2. 이항분포의 정규분포 근사
서로 독립이고 동일한 모수 p를 갖는 베르누이 확률변수
Y1, Y2, ... , Yn에 대해 X = Y1 + Y2 + ... + Yn ~ B(n, p)
Y1, Y2, ... ,Yn로부터의 표본평균에 대해 중심극한정리 적용
3. 표본비율 정규근사
베르누이분포로부터의 크기 n인 확률표본에 대해, 표본비율 p̂의 분포는 n이 클 때, 근사적으로
N(p, p(1 - p) / n)
카이제곱분포
1. 카이제곱( χ2 ) 분포
표본분산과 관련된 분포
확률변수 Z1, ... , Zk가 각각 표준정규분포를 따르고 독립일 때 그들의 제곱합은 자유도 k인 카이제곱분포 χ2(k)를 따름
표본분산(S²)을 알고 모분산( σ²)을 추정할 때 사용하는 분포(표본크기 클 수록 치우침이 적어짐)
2. 카이제곱( χ2 ) 분포표
3. 정규모집단에서의 표본분산 분포
X1, ... , Xn을 정규분포 N( μ, σ² )으로부터의 확률표본이라 할 때,
4. 증명
5. 분산이 동일한 두 정규모집단에서의 표본분산의 분포
X1, ... , Xn과 Y1 , ... , Yn가 각각 N( μ1, σ² ), N( μ2, σ² )을 따르며 서로 독립인 확률표본이라 할 때, 표본분산은 각각
일 경우
6. 합동표본분산(pooled sample variance)
정리
1. 단봉분포
2. 오른쪽에 꼬리를 가짐
3. 항상 양수값을 가짐
4. E(χϕ²)=ϕ, Var(χϕ²)=2ϕ
5. 자유도가 커지면 정규분포에 가까워짐
6. 모분산 추정 및 검정에 활용
7. 적합성, 동질성, 독립성 검정 등에 사용
t분포
1. t분포
X의 분포가 정규분포일 때, 표본평균의 분포에서 모집단의 표준편차를 모를 경우
모표준편차( σ ) 대신 표본표준편차( s )를 사용
t분포는 자유도에 의해 모양이 결정됨 - 자유도 : 임의로 결정될 수 있는 수
Z ~ N(0, 1), V ~ χ2(k)이고 Z와 V는 서로 독립일 때,
X1, ... , Xn ~ N( μ, σ² )일 때,
2. 분산이 동일한 두 정규모집단에서의 t-분포
X1, ... , Xn과 Y1, ... ,Yn가 각각 각각 N( μ1, σ² ), N( μ2, σ² )을 따르며 서로 독립인 확률표본이라 할 때, 표본분산은 각각
일 경우
분산이 동일할 때 두 정규모집단의 표본평균의 비교를 할 때 통계량 구성
정리
1. t분포는 정규분포보다 넓게 퍼져 있고 꼬리부분이 더 평평함
2. Bell Shaped
3. 표본크기가 커질 수록 분포가 중심부근에서 점점 더 뾰족해짐
- 표본크기가 30 이상이 되면 정규분포에 근사
4. 주로 모평균 추정 혹은 모평균차이에 대한 추정 시 모표준편차를 모를 때 t분포를 사용함
5. 표본크기가 30 이상일 경우에는 표준정규분포, 미만일 때는 t분포
F분포
1. F분포
F-분포는 두 정규모집단의 분산을 비교하는 추론에 사용
V1과 V2는 각각 자유도 k1, k2인 카이제곱분포를 따르는 독립인 확률변수
2. F-분포와 t-분포와의 관계
Z ~ N(0, 1), V ~ χ2(k)이고 Z와 V는 서로 독립일 때,
표본분포 정리
1. 정규분포
- 모분산을 알고 있을 때, 모평균에 대한 추정/검정
- 모분산을 알고 있을 때, 두 모평균 차이에 대한 추정/검정
- 표본크기가 클 때, 모평균 혹은 모평균 차이에 대한 추정/검정
- 표본크기가 클 때, 모비율 혹은 모비율 차이에 대한 추정/검정
2. t분포
- 모분산을 모를 때 모평균에 대한 추정/검정
- 모분산을 모를 때 두 모평균 차이에 대한 추정/검정
3. 카이제곱분포
- 모분산에 대한 추정/검정
- 분할표에 의한 독립성/적합성/동질성 검정
4. F분포
- 두 모분산 차이에 대한 추정/검정
- 분산분석표의 요인에 관한 추정/검정
강의는 통계수학 기초에 관한 내용을 다루고 있으며, 강의를 복습하기 위해 블로그에 다시 한 번 요약정리 하고 있다.
강의에서는 더욱 자세한 내용 설명과 예제를 통한 수학적 증명을 설명해주고 있으니, 통계수학에 대한 공부를 하고 싶은 사람은 꼭 이 강의를 수강하길 강추한다.
공부내용 :
'[통계학]' 카테고리의 다른 글
검정 - 검정의 요소 알아보기 / 검정력 함수 / 검정 절차 / 모평균검정 / 모비율검정 / 모분산검정 (3) | 2024.10.22 |
---|---|
추정 - 점추정 / 구간추정 / (모평균,모비율,모분산의) 구간추정 / 표본크기결정 (1) | 2024.10.21 |
통계검정 - 가설 / 오류 / 요소 / 절차 / 양측검정 / 단측검정 / 모평균검정 (1) | 2024.10.21 |
통계적 추정 - 통계적 추정의 정의와 기준 / 점추정 / 구간추정 / 모분산 아는경우 / 모분산 모르는 경우 (0) | 2024.10.21 |
연속확률분포 - Uniform Distribution / 정규분포 / 표본분포 / 중심극한정리 / 카이제곱분포 / t분포 및 F분포 (0) | 2024.10.20 |