[데이터자격시험용-필수요약정리]

빅데이터 결과해석 - 분석모형개선(분석모형융합)

indongspace 2024. 3. 24. 14:15

 

앙상블(Ensemble) : 여러가지 모형들을 만든 후에, 하나의 최종 결론을 내는 방법

- 장점 : 성능이 좋음, 일반화 성능 굿

 

1) 배깅(bagging)

- 붓스트랩으로 데이터셋 생성 -> 각 데이터셋마다 모델링 -> 투표해서 최종 값 결정

* 붓스트랩 : 단순랜덤 복원추출(샘플에 한 번도 선택되지 않는 원데이터가 발생할 수 있음, 약 36.8% 숫자기억)

 

2) 부스팅(Boosting)

- 예측력이 약한(weak) 모델에서 오류에 가중치를 줘서 더 좋은 모델로 발전시켜나감

- 모델링 -> 오분류 데이터에 가중치 부여 -> 모델링 -> 오분류 데이터에 가중치 부여 순

- 종류 : GBM, XGBoost, Adaboost, LightGBM(LGBM)

 

3) 랜덤포레스트(배깅 + 변수선택)

- 다수의 의사결정나무를 랜덤으로 만들어 그 결과값을 투표하여 최종 값 결정

  (회귀 : 평균, 분류 : 투표), 노이즈에 민감하지 않음

- 배깅보다 더 많은 무작위성(변수를 임의선정하여 트리 생성)을 부여함, 하나는 약하지만 다수는 강하다는 원리

 

#참고 : Hard voting / Soft voting

 

 

최종모델 선정

 

최종모형 선정 순서

 

1. 모형 평가 기준 선정

    - 일반화 가능성(안정적으로 성능이 잘 나오는지)

    - 모델의 성능(예측/분류의 정확성)

    - 효율성(적은 변수로 최대의 성능을 내는지)

 

2. 모형 분석결과 검토

 

3. 알고리즘 결과(성능) 비교

 

4. 챔피언 모델 선정(최종모델 선정)