의사결정나무(지도학습/ 회귀,분류) Decision Tree(DT)
- 회귀일때(Y연속형) 분리기준 : 분산분석 F-통계량 p값, 분산의 감소량
- 분류일때(Y범주형) 분리기준 : 카이제곱 통계량 p값, 지니지수, 엔트로피지수
#대표적인 DT 알고리즘 CART 특징 : 지니지수(Y범주), 분산의 감소량 사용(Y연속)
- 장점 : 의사결정나무 시각화시 직관적 이해쉬움, 비선형분석 가능, 비모수적(가정 불필요)
- 단점 : 노이즈에 영향을 크게 받음, 성능이 그리 좋지 않음
앙상블(Ensemble) : 여러가지 모형들을 만든 후에, 하나의 최종 결론을 내는 방법
- 장점 : 성능이 좋음, 일반화 성능 굿
ex) 여러가지 의사결정나무를 만든 다음 투표를 시킴. 다수결원칙(하드보팅) 또는 특정 클래스로 분류될 확률을 다 더한 다음 모델의 수로 나눠서 정하는 방법(소프트보팅)
대표적인 예(배깅/부스팅/랜덤포레스트 모두 지도학습 회귀,분류 둘 다 가능)
1) 배깅(bagging)
- 붓스트랩으로 데이터셋 생성 -> 각 데이터셋마다 모델링 -> 투표해서 최종 값 결정
2) 부스팅(Boosting)
- 예측력이 약한(weak) 모델에서 오류에 가중치를 줘서 더 좋은 모델로 발전시켜나감
- 모델링 -> 오분류 데이터에 가중치 부여 -> 모델링 -> 오분류 데이터에 가중치 부여 순
- 종류 : GBM, XGBoost, LightGBM(LGBM)
3) 랜덤포레스트
- 다수의 의사결정나무를 랜덤으로 만들어 그 결과값을 투표하여 최종 값 결정
(회귀 : 평균 / 분류 : 투표), 노이즈에 민감하지 않음
- 배깅보다 더 많은 무작위성(변수 임의선정하여 트리 생성)을 부여함, 하나는 약하지만 다수는 강하다는 원리
K-NN(지도학습/ 회귀,분류) K-Nearest Neighbor
- 장/단점 : 원리가 간단하나, k값,이상치에 따라 성능이 좌지우지
- 키워드 : 사례기반 학습(모델링 하지 않음), 게으른 모델
#참고 : Hard voting / Soft voting
'[데이터자격시험용-필수요약정리]' 카테고리의 다른 글
빅데이터 모델링 - 분석기법적용 (군집분석) (0) | 2024.03.17 |
---|---|
빅데이터 모델링 - 분석기법적용 (인공신경망/딥러닝 함수) (0) | 2024.03.17 |
빅데이터 모델링 - 분석기법적용 (Logistic Regression / SVM) (0) | 2024.03.16 |
빅데이터 모델링 - 분석기법적용 (회귀분석/다중회귀분석) (0) | 2024.03.16 |
빅데이터 모델링 - 분석모형 설계 (0) | 2024.03.16 |