[데이터자격시험용-필수요약정리]

[2024 빅분기 실기] 메타코드 강의 후기 | 3유형 (1)

indongspace 2024. 6. 16. 13:16

이번 8회 빅데이터 분석기사 필기/실기 시험은 메타코드 온라인 강의를 수강하여 대비하기로 결정하였다.

메타코드는 데이터사이언스와 인공지능을 비롯한 전반적인 데이터 직무에 대한 교육을 받을 수 있는 교육 사이트이다.

메타코드에서 서포터즈를 뽑는다는 공지를 보고 데이터분석 직무에 대한 공부를 하겠다는 마음가짐과 성실성을 어필하게 되었고,

좋은 기회를 받아 이번 5기 서포터즈에 합류하게 되었다.

메타코드 서포터즈 첫 활동으로, 2024 빅분기 실기 강의에 대한 내용의 일부와 그 후기를 작성하고자 한다.

 

 

 

 

 

 

 

3유형, 같이 학습할 내용

1. 가설검정                                                                                      

- 모평균 검정                                             

  - 모집단 1개                                                                                                                    

  - 모집단 2개

  - 모집단 3개 이상

     +정규성/등분산성 검정(실습)

 

- 카이제곱 검정

  - 적합성 검정

  - 독립성 검정

 

2. 상관분석   

 - 피어슨 상관계수     

 

3. 회귀분석

- 다중선형회귀

 - 로지스틱 회귀

 

기출 트렌드

- 7회 : 로지스틱회귀(odds ratio, residual deviance, 오분류율)

           다중선형회귀(상관계수, R^2, p-value)

- 6회 : 독립성 검정, 다중회귀분석

 

 

3유형! 어떻게 준비해야 할까요?

예상문제

1. 모평균 검정 : 검정통계량, p-value값, 귀무가설 판단(채택/기각)

  - 모집단 1개 : 단일표본

  - 모집단 2개 : 대응표본(쌍체), 독립표본

  - 모집단 3개 : ANOVA(분산분석)

2. 카이제곱검정 : 기댓값, 검정통계량, p-value값, 귀무가설 판단(채택/기각)

  - 적합성 검정

  - 독립성 검정

3. 상관분석 : 상관계수, 검정통계량, p-value값, 귀무가설 판단(채택/기각)

  - 피어슨 상관계수

4. 회귀분석 : Rsq, residual deviance, odds, odds ratio, 회귀계수, p-value값

  - 다중선형회귀

  - 로지스틱회귀

 

 

1. 가설검정

■ 추론통계

추론통계(Inferential statistic)

추정

  - 점 추정

  - 구간 추정

 

가설검정

  - 귀무/대립가설

  - 제1종, 제2종 오류

  - 유의수준, 유의확률 등

 

 

 

■ 가설검정

"~할 것이다"라는 잠정적인 주장(가설)에 대해 통계적인 방식으로 검정하는 것으로 통계적 가설검정이라 함(주로 모집단의 모수에 대해 설정)

 

1. 귀무가설과 대립가설

  1. 귀무가설(H0, Null hypothesis) = 영가설(기존에 알려진 사실)

     - 차이가 없다, 서로 같다, 영향을 주지 않는다 등으로 설정

     (일반적으로 = 사용)

  2. 대립가설(H1, Alternative hypothesis) = 연구가설 = 대안가설

     - 차이가 있다, 같지 않다, 영향을 준다 등으로 설정

     (일반적으로 != 사용)

※ 가설검정은 검정통계량을 구해서 귀무가설(H0)을 채택할 건지 기각할 건지 판단하는 과정

 

 

2. 가설 검정의 오류(1종 오류와 2종 오류)

- 1종 오류(Type I error)

 : 귀무가설(H0)이 참일 때 이를 기각하는 오류를 범할 확률

 : 귀무가설(H0)이 참일 때 귀무가설을 기각할 최대 허용 한계

  (보통 α (알파)로 표기하고 유의수준 이라고 부른다)

   - 유의수준을 보통 5%로 설정함

- 2종 오류(Type II error)

 : 귀무가설(H0)이 거짓일 때 이를 채택하는 오류를 범할 확률

 

 

3. 가설 검정 순서(단, 분석마다 추가로 확인해야 할 사항이 있음)

  1. 가설설정(귀무/대립가설)

  2. 유의수준( α ) 설정(일반적으로 5%, 0.05)

  3. 귀무가설 하에 검정통계량 계산

  4. 검정통계량으로 p-value 계산

  5. 귀무가설(H0) 기각여부 결정(채택/기각)

     - P-value(유의확률) > 0.05(유의수준) : H0(귀무가설) 채택

     - P-value(유의확률) < 0.05(유의수준) : H0(귀무가설) 기각

 

 

※ 중심극한정리(Central Limit Theorem, CLT)

임의의 모집단이 평균이 μ, 표준편차 σ 라고 할 때, 표본의 크기 n이 충분히 크다면

모집단의 분포와 상관없이 표본평균( X̄ )의 분포는 N(μ, (σ/ √n) ² )인 정규분포에 근사한다.

 

 

모집단                                                           

- 평균 μ                                                          

- 표준편차 σ                                                   

표본평균( X̄ )

 - 평균 μ  

- 표준편차 σ / √n

 

 

중요한 이유!

  : 표본평균이 정규분포를 따르면 모집단의 모수를 추정할 수 있게 된다(확률적 근거)

 

 

※ 모평균 μ 신뢰구간

- 표본평균(X̄)의 분포를 Z값으로 표준화하면

 

- ( σ 를 알 경우) 신뢰구간이 ( 1α )100%일 때 모평균 μ 신뢰구간은

 

- ( σ 를 모를 경우) 자유도가 n - 1인 t분포를 쓴다.

   * t-분포 : 표준정규분포보다 긴 꼬리를 가지며, 긴 꼬리를 가지며, 표본크기가 30이상이 되면 정규분포에 근사

 

 

 

 

 

 

 

 

 

 

이번 강의는 실기 3유형을 듣기 전 가장 기초적인 통계적 이론에 대한 복습을 진행하였다. 필기강의에서 진행했던 일부 내용을 복습하는 과정을 수강했다.

 

 

 

 

 

 

 

https://www.metacodes.co.kr/edu/read2.nx?M2_IDX=30659&page=1&sc_is_discount=&sc_is_new=&EP_IDX=8343&EM_IDX=8169 

 

24년 빅분기 (필기+실기 Python) 최단기 합격패스

 

www.metacodes.co.kr