[2024 빅분기 실기] 메타코드 강의 후기

[데이터자격시험용-필수요약정리]

[2024 빅분기 실기] 메타코드 강의 후기 | 3유형 (완) - 회귀분석

indongspace 2024. 6. 20. 22:29

이번 8회 빅데이터 분석기사 필기/실기 시험은 메타코드 온라인 강의를 수강하여 대비하기로 결정하였다.
메타코드는 데이터사이언스와 인공지능을 비롯한 전반적인 데이터 직무에 대한 교육을 받을 수 있는 교육 사이트이다.
메타코드에서 서포터즈를 뽑는다는 공지를 보고 데이터분석 직무에 대한 공부를 하겠다는 마음가짐과 성실성을 어필하게 되었고,
좋은 기회를 받아 이번 5기 서포터즈에 합류하게 되었다.
메타코드 서포터즈 첫 활동으로, 2024 빅분기 실기 강의에 대한 내용의 일부와 그 후기를 작성하고자 한다.

3. 회귀분석

1) 다중선형회귀 (LinearRegression)

독립변수(X)가 종속변수(Y)에 어떻게 영향을 주는지 식으로 표현한 것

*특징 : 식을 보고 설명이 가능함, 가장 적은 수의 X로 Y를 잘 예측하는게 Best

단순선형회귀(독립변수가 1개)

Y = β0 + β1X

다중선형회귀(독립변수가 2개 이상)

Y = β0 + β1X1 + β2X2 ...

Σ(y - ŷ)² (= RSS = SSE) 값이 최소가 되는

최적의 β0, β1 를 구하면 된다.

-> 최소제곱법이라고 부름

*RSS : Residual Sum of Squares

■ 회귀식의 성능

1. 결정계수(R²) : 0 ~ 1 사이의 값을 가짐

- 정의 : 전체 변동에서 회귀식이 설명 가능한 변동의 비율

R² = SSR / SST = 1 - (SSE / SST)

SSR : 회귀식에 의해 설명되는 변동

SSE : 회귀식으로 설명 불가한 변동

SST : 총 변동(SSR + SSE)

2) 로지스틱 회귀분석 (LogisticRegression)

1. 종속변수(Y)가 범주형(이진형으로 0과 1)인 경우에 사용할 수 있는 회귀분석

2. 독립변수(X)를 가지고 Y = 1 일 확률이 얼마인지 예측하는 모형

(확률이 0.5보다 크면 1로, 0.5보다 작으면 0으로 분류)

■ 로지스틱 함수 적용(= Sigmoid 함수)

■ Odds(승산)의 정의

odds = P / 1 - P = 성공할 확률(Y=1) / 실패할 확률(Y=0)

예시 ) 성공할 확률 0.75, 실패할 확률 0.25이면 성공할 확률이 실패할 확률보다 3배 크다 (odds = 3)

■ Logit과 Odds (로짓과 오즈)

*Logit : odds에 자연로그를 취한 값

■ 회귀계수의 해석

- 단순(다중)선형회귀에서 x가 1단위 올라가면 -> Y는 기존 대비 β1 만큼 증가

- 로지스틱 회귀에서 x가 1단위 올라가면 -> odds는 기존대비 exp^(β1) 만큼 증가

여기서 exp^(β1)를 odds ratio 라고 함(odds 변화량)

■ 최적의 파라미터(회귀계수)를 구하려면

선형회귀

Y = β0 + β1X1

∑(y - ŷ)² (= RSS = SSE) 값이 최소가 되는 최적의 β0, β1를 구하면 된다.

-> 최소제곱법이라고 부름

*RSS : Residual Sum of Squares

로지스틱회귀

*Y는 Class가 1일 확률(P)

Cross Entropy가 최소가 되는 최적의 β0 , β1를 구하면 된다.

(= Log likelihood Function이 최대가 되는)

= Cross Entropy , Residual deviance를 최소가 되게

= Log likelihood Function을 최대가 되게

*Residual deviance = 2 * Cross Entropy

■ Cross entropy 이해하기 (1/2)

- 분류(Classification)

: Y(종속변수)가 범주형

- 정확도, 민감도(재현율)

- 특이도, F1 Score

- Cross entropy

핵심 Concept : 실제값 y와 예측값 ŷ의 차이가 작으면 된다.

y = 1일 때 ŷ(P)값이 작아질수록 Error 값을 크게 주고

y = 0일 때 ŷ(P)값이 커질수록 Error 값을 크게 주자.

정리하면

y = 1일 때 -log(P) 가 최소

y = 0일 때 -log(1-P) 가 최소

Cross entropy

→ Σ-ylog(P) - (1-y)log(1-P)

y=1일때 y=0일때

■ Cross entropy 이해하기 (2/2)

Σ-ylog(P) - (1-y)log(1-P)

y=1일때 y=0일때

계산해보기

~~-log(P)~~ -(1-y)log(1-P) = -log(0.3)

~~-log(P)~~ -(1-y)log(1-P) = -log(0.9)

-log(P) ~~-(1-y)log(1-P)~~ = -log(0.9)

*알아두기

1) Cross Entropy(Log loss) = - Log likelihood Function

2) Cross Entropy * 2 = Residual deviance (잔차 이탈도)

이번 강의에서는 실기 3유형의 핵심 이론인 다중회귀분석과 로지스틱회귀분석을 공부하였다.

각 분석에 대한 내용을 충분히 이해할 수 있게 여러가지 그래프를 보여주며, 그 특성과 분석지표에 대한 설명을 구체적으로 잘 들을 수 있었다.

다음부터 이어진 강의는 지금까지 배웠던 3유형 이론들을 코드를 이용해 실습해 보는 시간, 실제 3유형 예상 모의고사에 대한 풀이가 진행될 것이다.

하지만 다음강의부터 진행될 내용은 이 수강후기 블로그에서 다루지 않을 것이다.

만약 궁금하시다면 다음 빅데이터 분석기사 9회, 10회 실기시험을 메타코드 강의를 통해 대비해 보시길 바란다.

그만큼 직접 수강을 하며 들어야 할 가치가 있는 강의이다.

https://www.metacodes.co.kr/edu/read2.nx?M2_IDX=30659&page=1&sc_is_discount=&sc_is_new=&EP_IDX=8343&EM_IDX=8169

24년 빅분기 (필기+실기 Python) 최단기 합격패스

www.metacodes.co.kr

'[데이터자격시험용-필수요약정리]' 카테고리의 다른 글

[2024 빅분기 실기] 메타코드 강의 후기 \| 3유형 (5) - 상관분석 (0)	2024.06.19
[2024 빅분기 실기] 메타코드 강의 후기 \| 3유형 (4) - 카이제곱검정 (0)	2024.06.18
[2024 빅분기 실기] 메타코드 강의 후기 \| 3유형 (3) - 모평균검정 (2)	2024.06.17
[2024 빅분기 실기] 메타코드 강의 후기 \| 3유형 (2) (0)	2024.06.16
[2024 빅분기 실기] 메타코드 강의 후기 \| 3유형 (1) (2)	2024.06.16

현재글[2024 빅분기 실기] 메타코드 강의 후기 | 3유형 (완) - 회귀분석

인동머스크

" 우리에게는 존재하지 않는 것들을 꿈꿀 수 있는 사람들이 필요하다. " (ADsP / 빅데이터분석기사 / SQLD) https://github.com/Indongspace

ADsP, 인프런, tableau, 데이터자격검정, 코딩테스트, 카일스쿨, 복습, 메타코드, 티스토리챌린지, 시각화, 태블로, 통계기초, hackerrank, 빅데이터분석기사, 프로그래머스, 빅분기, leetcode, vizlab, mysql, 오블완,

Today :
Yesterday :

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

인동머스크

[2024 빅분기 실기] 메타코드 강의 후기 | 3유형 (완) - 회귀분석

3. 회귀분석