[데이터자격시험용-필수요약정리]

빅데이터 모델링 - 분석기법적용 (의사결정나무/앙상블모형/K-NN)

indongspace 2024. 3. 17. 14:04

의사결정나무(지도학습/ 회귀,분류)  Decision Tree(DT)

- 회귀일때(Y연속형) 분리기준 : 분산분석 F-통계량 p값, 분산의 감소량

- 분류일때(Y범주형) 분리기준 : 카이제곱 통계량 p값, 지니지수, 엔트로피지수

#대표적인 DT 알고리즘 CART 특징 : 지니지수(Y범주), 분산의 감소량 사용(Y연속)

 

- 장점 : 의사결정나무 시각화시 직관적 이해쉬움, 비선형분석 가능, 비모수적(가정 불필요)

- 단점 : 노이즈에 영향을 크게 받음, 성능이 그리 좋지 않음

 

 

앙상블(Ensemble) : 여러가지 모형들을 만든 후에, 하나의 최종 결론을 내는 방법

- 장점 : 성능이 좋음, 일반화 성능 굿

 

ex) 여러가지 의사결정나무를 만든 다음 투표를 시킴. 다수결원칙(하드보팅) 또는 특정 클래스로 분류될 확률을 다 더한 다음 모델의 수로 나눠서 정하는 방법(소프트보팅)

 

대표적인 예(배깅/부스팅/랜덤포레스트 모두 지도학습 회귀,분류 둘 다 가능)

1) 배깅(bagging)

- 붓스트랩으로 데이터셋 생성 -> 각 데이터셋마다 모델링 -> 투표해서 최종 값 결정

 

2) 부스팅(Boosting)

- 예측력이 약한(weak) 모델에서 오류에 가중치를 줘서 더 좋은 모델로 발전시켜나감

- 모델링 -> 오분류 데이터에 가중치 부여 -> 모델링 -> 오분류 데이터에 가중치 부여 순

- 종류 : GBM, XGBoost, LightGBM(LGBM)

 

3) 랜덤포레스트

- 다수의 의사결정나무를 랜덤으로 만들어 그 결과값을 투표하여 최종 값 결정

(회귀 : 평균 / 분류 : 투표), 노이즈에 민감하지 않음

- 배깅보다 더 많은 무작위성(변수 임의선정하여 트리 생성)을 부여함, 하나는 약하지만 다수는 강하다는 원리

 

 

K-NN(지도학습/ 회귀,분류)  K-Nearest Neighbor

- 장/단점 : 원리가 간단하나, k값,이상치에 따라 성능이 좌지우지

- 키워드 : 사례기반 학습(모델링 하지 않음), 게으른 모델

 

 

 

#참고 : Hard voting / Soft voting