[데이터자격시험용-필수요약정리]

빅데이터 모델링 - 분석기법적용 (회귀분석/다중회귀분석)

indongspace 2024. 3. 16. 20:06

지도학습 - 회귀(Y:연속형)

회귀분석

- 독립변수(X)가 종속변수(Y)에 어떻게 영향을 주는지 식으로 표현한 것, Y = 𝜷𝟎 + 𝜷𝟏X

- 특징 : 식을 보고 설명이 가능함, 가장 적은 수의 X로 Y를 예측할 수 있어야 함

수식으로 표현하면

판매수 = 𝜷𝟎 + 𝜷𝟏온도

Y = 𝜷𝟎 + 𝜷𝟏X

 

 

값이 최소가 되는 최적의 𝜷𝟎, 𝜷𝟏를 구하면 된다. -> 최소제곱법이라고 부름

#RSS : Residual Sum of Squares

 

회귀분석의 가정

1. 선형성 : 독립변수(X)와 종속변수(Y) 간의 선형성

 

2. 잔차의 3가지 가정(등분산성, 정규성, 독립성)

  - 등분산성 : 산점도

  - 정규성 : H0(귀무가설) : 정규분포를 따른다

                  H1(대립가설) : not H0

                  검정방법 : Q-Q plot, 샤피로윌크검정, 콜모고로프-스미르노프(K-S)검정(비모수방법)

 

3. 독립성 : 더빈왓슨 검정

#잔차 : 표본의 실제값과 회귀분석 예측값과의 차이(실제값-예측값)

 

단순선형회귀 - 독립변수가 1개인 경우 Y= 𝛽0 +𝛽1X

다중선형회귀 - 독립변수가 2개 이상 Y= 𝛽0 +𝛽1X1 + 𝛽2X2 …

 

회귀분석에서 가설검정

(회귀모형, 회귀계수가 통계적으로 유의한지?)

1. 회귀모형 : F검정, p-value가 0.05보다 작아야 함

H0(귀무) : 회귀계수( 𝛽i) 는 0이다.

H1(대립) : 회귀계수( 𝛽i ) 는 0이 아니다.

 

2. 회귀계수 : t검정, p-value가 0.05보다 작아야 함

H0(귀무) : i번째 회귀계수는 0이다.

H1(대립) : i번째 회귀계수가 0이 아니다.

 

회귀식의 성능

1. 결정계수(R^2)

- 정의 : 설명력, 전체변동에서 회귀식이 설명가능한 변동의 비율

R^2 = SSR/SST = 1-(SSE/SST)

SSR : 회귀식에 의해 설명되는 변동 ( Σ(y햇-y바)^2 ) 예측값-y평균값

SSE : 회귀식으로 설명 불가한 변동 ( Σ(y-y햇)^2 ) 실제값-예측값

SST : 총변동(SSR+SSE)  ( Σ(y-y바)^2 ) 실제값-y평균값

 

- 범위 : 0~1 사이 값을 가지며 클수록 성능이 좋음

- 주의 : 단, 독립변수(X) 수가 증가 -> R^ 증가함

             이를 보정해주기 위한 R^2 adjust(수정 결정계수) 값이 있음

# R^2 adjust : 독립변수의 수가 증가하면 패널티를 줌

 

다중회귀 분석시 변수를 선택하는 방법

회귀식 : Y= 𝛽0 +𝛽1X1 + 𝛽2X2 …

1. 전진선택법(Forward selection) : 하나씩 변수를 넣어보기(유의한 변수가 있으면 식에 계속 넣기), 변수선택하면 변경불가

2. 후진제거법(Backward elimination) : 다 넣고 하나씩 빼기(하나씩 빼보면서 회귀식이 통계적으로 유의한가), 변수선택하면 변경불가

3. 단계적방법(Stepwise) : 모든 조합 고려가능, 단, 시간 오래 걸림

 

정규화 회귀(과적합을 피해보자)

1. 라쏘회귀(Lasso) : 회귀계수가 0이된다.(변수 선택 효과), L1규제(패널티항 절댓값)

2. 릿지회귀(Ridge) : 회귀계수가 0에 가깝게(변수 그대로), L2 규제(패널티항 제곱)

3. 엘라스틱넷(Elastic Net) : 라쏘,릿지 결합

 

영향점 진단

영향점은 보통 이상치로 회귀 직선에 크게 영향을 주는 데이터

 

진단방법

1. Leverage H(레버리지)

2. Cook's Distance(쿡의 거리)

3. DFBETAS

4. DFFITS

 

다중공선성

독립변수(X) 간에 상관관계가 존재하는 것(회귀식이 오류를 범할 수 있음)

VIF(분산팽창지수) 10이상이면 다중공선성 존재

-> 다중공선성 있는 변수 제거해야 함