이번 8회 빅데이터 분석기사 필기/실기 시험은 메타코드 온라인 강의를 수강하여 대비하기로 결정하였다.
메타코드는 데이터사이언스와 인공지능을 비롯한 전반적인 데이터 직무에 대한 교육을 받을 수 있는 교육 사이트이다.
메타코드에서 서포터즈를 뽑는다는 공지를 보고 데이터분석 직무에 대한 공부를 하겠다는 마음가짐과 성실성을 어필하게 되었고,
좋은 기회를 받아 이번 5기 서포터즈에 합류하게 되었다.
메타코드 서포터즈 첫 활동으로, 2024 빅분기 실기 강의에 대한 내용의 일부와 그 후기를 작성하고자 한다.
3유형, 같이 학습할 내용
1. 가설검정
- 모평균 검정
- 모집단 1개
- 모집단 2개
- 모집단 3개 이상
+정규성/등분산성 검정(실습)
- 카이제곱 검정
- 적합성 검정
- 독립성 검정
2. 상관분석
- 피어슨 상관계수
3. 회귀분석
- 다중선형회귀
- 로지스틱 회귀
기출 트렌드
- 7회 : 로지스틱회귀(odds ratio, residual deviance, 오분류율)
다중선형회귀(상관계수, R^2, p-value)
- 6회 : 독립성 검정, 다중회귀분석
3유형! 어떻게 준비해야 할까요?
예상문제
1. 모평균 검정 : 검정통계량, p-value값, 귀무가설 판단(채택/기각)
- 모집단 1개 : 단일표본
- 모집단 2개 : 대응표본(쌍체), 독립표본
- 모집단 3개 : ANOVA(분산분석)
2. 카이제곱검정 : 기댓값, 검정통계량, p-value값, 귀무가설 판단(채택/기각)
- 적합성 검정
- 독립성 검정
3. 상관분석 : 상관계수, 검정통계량, p-value값, 귀무가설 판단(채택/기각)
- 피어슨 상관계수
4. 회귀분석 : Rsq, residual deviance, odds, odds ratio, 회귀계수, p-value값
- 다중선형회귀
- 로지스틱회귀
1. 가설검정
■ 추론통계
추론통계(Inferential statistic)
추정
- 점 추정
- 구간 추정
가설검정
- 귀무/대립가설
- 제1종, 제2종 오류
- 유의수준, 유의확률 등
■ 가설검정
"~할 것이다"라는 잠정적인 주장(가설)에 대해 통계적인 방식으로 검정하는 것으로 통계적 가설검정이라 함(주로 모집단의 모수에 대해 설정)
1. 귀무가설과 대립가설
1. 귀무가설(H0, Null hypothesis) = 영가설(기존에 알려진 사실)
- 차이가 없다, 서로 같다, 영향을 주지 않는다 등으로 설정
(일반적으로 = 사용)
2. 대립가설(H1, Alternative hypothesis) = 연구가설 = 대안가설
- 차이가 있다, 같지 않다, 영향을 준다 등으로 설정
(일반적으로 != 사용)
※ 가설검정은 검정통계량을 구해서 귀무가설(H0)을 채택할 건지 기각할 건지 판단하는 과정
2. 가설 검정의 오류(1종 오류와 2종 오류)
- 1종 오류(Type I error)
: 귀무가설(H0)이 참일 때 이를 기각하는 오류를 범할 확률
: 귀무가설(H0)이 참일 때 귀무가설을 기각할 최대 허용 한계
(보통 α (알파)로 표기하고 유의수준 이라고 부른다)
- 유의수준을 보통 5%로 설정함
- 2종 오류(Type II error)
: 귀무가설(H0)이 거짓일 때 이를 채택하는 오류를 범할 확률
3. 가설 검정 순서(단, 분석마다 추가로 확인해야 할 사항이 있음)
1. 가설설정(귀무/대립가설)
2. 유의수준( α ) 설정(일반적으로 5%, 0.05)
3. 귀무가설 하에 검정통계량 계산
4. 검정통계량으로 p-value 계산
5. 귀무가설(H0) 기각여부 결정(채택/기각)
- P-value(유의확률) > 0.05(유의수준) : H0(귀무가설) 채택
- P-value(유의확률) < 0.05(유의수준) : H0(귀무가설) 기각
※ 중심극한정리(Central Limit Theorem, CLT)
임의의 모집단이 평균이 μ, 표준편차 σ 라고 할 때, 표본의 크기 n이 충분히 크다면
모집단의 분포와 상관없이 표본평균( X̄ )의 분포는 N(μ, (σ/ √n) ² )인 정규분포에 근사한다.
모집단
- 평균 μ
- 표준편차 σ
표본평균( X̄ )
- 평균 μ
- 표준편차 σ / √n
중요한 이유!
: 표본평균이 정규분포를 따르면 모집단의 모수를 추정할 수 있게 된다(확률적 근거)
※ 모평균 μ 신뢰구간
- 표본평균(X̄)의 분포를 Z값으로 표준화하면
- ( σ 를 알 경우) 신뢰구간이 ( 1−α )100%일 때 모평균 μ 신뢰구간은
- ( σ 를 모를 경우) 자유도가 n - 1인 t분포를 쓴다.
* t-분포 : 표준정규분포보다 긴 꼬리를 가지며, 긴 꼬리를 가지며, 표본크기가 30이상이 되면 정규분포에 근사
이번 강의는 실기 3유형을 듣기 전 가장 기초적인 통계적 이론에 대한 복습을 진행하였다. 필기강의에서 진행했던 일부 내용을 복습하는 과정을 수강했다.
'[데이터자격시험용-필수요약정리]' 카테고리의 다른 글
[2024 빅분기 실기] 메타코드 강의 후기 | 3유형 (3) - 모평균검정 (2) | 2024.06.17 |
---|---|
[2024 빅분기 실기] 메타코드 강의 후기 | 3유형 (2) (0) | 2024.06.16 |
빅데이터 분석기획 - 데이터수집 및 저장계획 (0) | 2024.04.02 |
빅데이터 분석기획 - 데이터 분석 계획 (0) | 2024.04.02 |
빅데이터 분석기획 - 빅데이터의 이해 (0) | 2024.04.02 |