[데이터자격시험용-필수요약정리]

빅데이터 탐색 - 통계기법이해(중심극한정리/추정)

indongspace 2024. 4. 1. 00:54

 

중심극한정리(Central Limit Theorem, CLT)

임의의 모집단이 평균이 μ, 표준편차 σ 라고 할 때, 표본의 크기 n이 충분히 크다면

1) 모집단의 분포에 상관없이 표본평균( )의 분포는 N(𝝁, σ² /𝒏 ) 인 정규분포에 근사한다.

2) 모집단이 정규분포라면 표본평균(  )은 표본의 크기(n)와 상관없이 항상 정규분포한다.

중요한 이유! : 표본평균이 정규분포를 따르면 모집단의 모수를 추정할 수 있게 된다(확률적 근거)

 

 

추론통계(Inferential statistics)

추정

-점 추정

- 구간 추정

 

가설검정

- 귀무/대립가설

- 제1종, 제2종 오류

- 유의수준, 유의확률 등

 

추정과 검정

1. 추정 : 표본 정보를 이용하여 모수의 실제값을 추측

2. 검정 : 모수에 대해 가설을 세우고 표본의 정보(통계량)를 이용하여 수립한 가설이 타당한지 판정함

 

점 추정(Point Estimation)

"모수가 특정한 값"일 것이라고 추정하는 것

* 점 추정량의 조건 4가지

1. 불편성 : 모든 가능한 표본에서 얻은 추정량의 기댓값은 모집단의 모수와 편의(차이)가 없다.

2. 효율성 : 추정량의 분산이 작을수록 좋다.

3. 일치성 : 표본의 크기가 커지면 추정량이 모수와 같아진다.

4. 충족성 : 추정량은 모수에 대해 모든 정보를 제공한다.

 

- 표본 평균

- 표본 분산

 

구간 추정(Interval Estimation)

"모수가 특정한 구간"에 있을 것이라고 추정하는 것

- 신뢰수준 : 모수가 구간 안에 있을 가능성의 크기로 신뢰수준 95%를 일반적으로 사용

- 신뢰구간 : 신뢰수준 하에서 모수가 존재할 것이라고 생각되는 구간

                    (ex) 신뢰수준 95% 하에서 신뢰구간은 150.2 ≤ 𝝁 ≤ 170.5)

 

※ 모평균 𝝁 의 신뢰구간 추정

Case 1) 모분산을 안다

Case 2) 모분산을 모른다

 1. n > 30 인 경우

   2. n ≤ 30 인 경우

 

* 표본표준편차를 사용할 경우

통계량 T는 표준정규분포 N(0,1)가 아닌 자유도 n-1인 t-분포를 따른다.

(단, n이 30보다 크면 근사적으로 N(0,1) 사용)