[데이터자격시험용-필수요약정리]

빅데이터 탐색 - 통계기법이해(가설검정)

indongspace 2024. 4. 1. 01:19

 

가설검정

"~할 것이다"라는 잠정적인 주장(가설)에 대해 통계적인 방식으로 검정하는 것으로 통계적 가설검정이라 함(주로 모집단의 모수에 대해 설정)

 

1. 귀무가설과 대립가설

1 귀무가설(H0) = 영가설 (기존에 알려진 사실)

   - 차이가 없다, 서로 같다, 영향을 주지 않는다 등으로 설정 (일반적으로 = 사용)

 

2 대립가설(H1) = 연구가설 = 대안가설

   - 차이가 있다, 같지 않다, 영향을 준다 등으로 설정 (일반적으로 ≠ 사용)

 

※ 가설검정은 귀무가설(H0)을 채택할 건지 기각할 건지 판단하는 과정

 

2. 가설 검정의 오류(1종 오류와 2종 오류)

- 1종 오류(Type 1 error)

   : 귀무가설(H0)이 참일 때 이를 기각하는 오류를 범할 확률

   : 귀무가설(H0)이 참일 때 귀무가설을 기각할 최대 허용 한계

     (보통 α(알파)로 표기하고 유의수준이라고 부른다)

     - 유의수준을 보통 5%로 설정함

 

- 2종 오류(Type 2 error)

   : 귀무가설(H0)이 거짓일 때 이를 채택하는 오류를 범할 확률

 

#참고사항

- 1종 오류(α)와 2종 오류(β)의 관계는 Trade-off 관계

 

 

3. 가설 검정 진행

1. 가설 설정

2. 유의수준(α) 설정 (일반적으로 5%, 0.05)

3. 귀무가설 하에 검정통계량 계산

4. 검정통계량으로 p-value 계산

5. 귀무가설 기각여부 결정

   - p-value > 0.05 : 귀무가설 채택

   - p-value < 0.05 : 귀무가설 기각

 

※ 가설검정 예시문제

1. 가설설정

- 귀무가설 : 약을 먹기 전과 후의 수면시간의 차이가 없을 것이다. (=)

- 대립가설 : 약을 먹기 전과 후의 수면시간의 차이가 있을 것이다. (≠)

2. 유의수준(α) 설정 : 5%로 설정(0.05)

3. 귀무가설 하에 검정통계량 계산

   - Z분포를 활용한다면

4. 검정통계량으로 p-value 계산

   - Z값에 해당하는 p-value(면적) 계산

5. 귀무가설 기각여부 결정

   - p-value > 유의수준 : 귀무가설 채택

   - p-value < 유의수준 : 귀무가설 기각

* 유의수준 5% 하에서 p-value > 0.05 보다 크면 귀무가설 채택

                                    p-value < 0.05 보다 작으면 귀무가설 기각

 

 

#참고사항 : 표본 n이 커지면 표준오차는 작아진다.

#중심극한정리 추가문장

- 표본의 크기 n을 증가시키면 표본평균의 분포는 대칭에 가까워져 정규분포에 근사한다.

- 표본의 크기를 증가시키면 표본평균의 분포는 산포가 줄어든다.