빅데이터 모델링 - 분석기법적용 (의사결정나무/앙상블모형/K-NN)
의사결정나무(지도학습/ 회귀,분류) Decision Tree(DT)- 회귀일때(Y연속형) 분리기준 : 분산분석 F-통계량 p값, 분산의 감소량- 분류일때(Y범주형) 분리기준 : 카이제곱 통계량 p값, 지니지수, 엔트로피지수#대표적인 DT 알고리즘 CART 특징 : 지니지수(Y범주), 분산의 감소량 사용(Y연속) - 장점 : 의사결정나무 시각화시 직관적 이해쉬움, 비선형분석 가능, 비모수적(가정 불필요)- 단점 : 노이즈에 영향을 크게 받음, 성능이 그리 좋지 않음 앙상블(Ensemble) : 여러가지 모형들을 만든 후에, 하나의 최종 결론을 내는 방법- 장점 : 성능이 좋음, 일반화 성능 굿 ex) 여러가지 의사결정나무를 만든 다음 투표를 시킴. 다수결원칙(하드보팅) 또는 특정 클래스로 분류될 확률을..