앙상블(Ensemble) : 여러가지 모형들을 만든 후에, 하나의 최종 결론을 내는 방법
- 장점 : 성능이 좋음, 일반화 성능 굿
1) 배깅(bagging)
- 붓스트랩으로 데이터셋 생성 -> 각 데이터셋마다 모델링 -> 투표해서 최종 값 결정
* 붓스트랩 : 단순랜덤 복원추출(샘플에 한 번도 선택되지 않는 원데이터가 발생할 수 있음, 약 36.8% 숫자기억)
2) 부스팅(Boosting)
- 예측력이 약한(weak) 모델에서 오류에 가중치를 줘서 더 좋은 모델로 발전시켜나감
- 모델링 -> 오분류 데이터에 가중치 부여 -> 모델링 -> 오분류 데이터에 가중치 부여 순
- 종류 : GBM, XGBoost, Adaboost, LightGBM(LGBM)
3) 랜덤포레스트(배깅 + 변수선택)
- 다수의 의사결정나무를 랜덤으로 만들어 그 결과값을 투표하여 최종 값 결정
(회귀 : 평균, 분류 : 투표), 노이즈에 민감하지 않음
- 배깅보다 더 많은 무작위성(변수를 임의선정하여 트리 생성)을 부여함, 하나는 약하지만 다수는 강하다는 원리
#참고 : Hard voting / Soft voting
최종모델 선정
최종모형 선정 순서
1. 모형 평가 기준 선정
- 일반화 가능성(안정적으로 성능이 잘 나오는지)
- 모델의 성능(예측/분류의 정확성)
- 효율성(적은 변수로 최대의 성능을 내는지)
2. 모형 분석결과 검토
3. 알고리즘 결과(성능) 비교
4. 챔피언 모델 선정(최종모델 선정)
'[데이터자격시험용-필수요약정리]' 카테고리의 다른 글
빅데이터 결과해석 - 분석결과해석 및 활용(분석결과해석, 분석결과활용) (0) | 2024.03.24 |
---|---|
빅데이터 결과해석 - 분석결과해석 및 활용(시각화) (0) | 2024.03.24 |
빅데이터 결과해석 - 분석모형개선(매개변수 최적화) (0) | 2024.03.24 |
빅데이터 결과해석 - 분석모형평가(교차검증 & 분석모형개선-과적합방지) (0) | 2024.03.24 |
빅데이터 결과해석 - 분석모형평가(분석모형진단) (1) | 2024.03.23 |