[데이터자격시험용-필수요약정리]

빅데이터 결과해석 - 분석모형평가(분석모형진단)

indongspace 2024. 3. 23. 23:34

 

회귀모형 진단

 

1. 회귀모형에 대한 진단

- 회귀모형 : F검정, p-value가 0.05보다 작아야 함(유의확률<유의수준(0.05))

   H0(귀무가설) : 회귀계수(𝛽i) 는 0이다

- 회귀계수 : t검정, p-value가 0.05보다 작아야 함(유의확률<유의수준(0.05))

   H0(귀무가설) : i번째 회귀계수는 0이다

 

2. 잔차에 대한 가정 : 정규성 / 등분산성 / 독립성

[잔차의 등분산성 예시] - 잔차에 대해서 산점도로 그려봤을때 X에 따라서 분산이 경향을 띄는 것이 아니라 0을 기준으로 위아래로 고르게 분포되어 있는 것

 

복습) 회귀분석의 가정

1. 선형성 : 독립변수(X)와 종속변수(Y)간의 선형성

2. 잔차의 3가지 가정(등분산성, 정규성, 독립성)

   a. 등분산성 : 산점도

   b. 정규성

       - H0(귀무가설) : 정규분포를 따른다

         H1(대립가설) : not H0

       - 검정방법 : Q-Q plot, 샤피로윌크 검정, 콜모고로프-스미르노프(K-S) 검정(비모수방법)

   c. 독립성 : 더빈왓슨 검정

 

 

#더빈왓슨 검정 : 잔차의 독립성 확인

- 더빈왓슨 통계량이 2에 가까울수록 좋음

- 0에 가까우면 양의 상관관계, 4에 가까우면 음의 상관관계

  즉, 0또는 4에 가까우면 잔차들간에 상관관계가 있기 때문에 회귀식이 부적합

 

#Q-Q plot

- 잔차가 직선의 형태를 띄어야 함(그렇지 않으면 정규성 위배)

 

#앤더슨 달링 검정(Anderson-Darling Test)

- 잔차의 정규성 검정 방법