빅데이터 모델링 - 분석기법적용 (의사결정나무/앙상블모형/K-NN)

[데이터자격시험용-필수요약정리]

빅데이터 모델링 - 분석기법적용 (의사결정나무/앙상블모형/K-NN)

indongspace 2024. 3. 17. 14:04

의사결정나무(지도학습/ 회귀,분류) Decision Tree(DT)

- 회귀일때(Y연속형) 분리기준 : 분산분석 F-통계량 p값, 분산의 감소량

- 분류일때(Y범주형) 분리기준 : 카이제곱 통계량 p값, 지니지수, 엔트로피지수

#대표적인 DT 알고리즘 CART 특징 : 지니지수(Y범주), 분산의 감소량 사용(Y연속)

- 장점 : 의사결정나무 시각화시 직관적 이해쉬움, 비선형분석 가능, 비모수적(가정 불필요)

- 단점 : 노이즈에 영향을 크게 받음, 성능이 그리 좋지 않음

앙상블(Ensemble) : 여러가지 모형들을 만든 후에, 하나의 최종 결론을 내는 방법

- 장점 : 성능이 좋음, 일반화 성능 굿

ex) 여러가지 의사결정나무를 만든 다음 투표를 시킴. 다수결원칙(하드보팅) 또는 특정 클래스로 분류될 확률을 다 더한 다음 모델의 수로 나눠서 정하는 방법(소프트보팅)

대표적인 예(배깅/부스팅/랜덤포레스트 모두 지도학습 회귀,분류 둘 다 가능)

1) 배깅(bagging)

- 붓스트랩으로 데이터셋 생성 -> 각 데이터셋마다 모델링 -> 투표해서 최종 값 결정

2) 부스팅(Boosting)

- 예측력이 약한(weak) 모델에서 오류에 가중치를 줘서 더 좋은 모델로 발전시켜나감

- 모델링 -> 오분류 데이터에 가중치 부여 -> 모델링 -> 오분류 데이터에 가중치 부여 순

- 종류 : GBM, XGBoost, LightGBM(LGBM)

3) 랜덤포레스트

- 다수의 의사결정나무를 랜덤으로 만들어 그 결과값을 투표하여 최종 값 결정

(회귀 : 평균 / 분류 : 투표), 노이즈에 민감하지 않음

- 배깅보다 더 많은 무작위성(변수 임의선정하여 트리 생성)을 부여함, 하나는 약하지만 다수는 강하다는 원리

K-NN(지도학습/ 회귀,분류) K-Nearest Neighbor

- 장/단점 : 원리가 간단하나, k값,이상치에 따라 성능이 좌지우지

- 키워드 : 사례기반 학습(모델링 하지 않음), 게으른 모델

#참고 : Hard voting / Soft voting

'[데이터자격시험용-필수요약정리]' 카테고리의 다른 글

빅데이터 모델링 - 분석기법적용 (군집분석) (0)	2024.03.17
빅데이터 모델링 - 분석기법적용 (인공신경망/딥러닝 함수) (0)	2024.03.17
빅데이터 모델링 - 분석기법적용 (Logistic Regression / SVM) (0)	2024.03.16
빅데이터 모델링 - 분석기법적용 (회귀분석/다중회귀분석) (0)	2024.03.16
빅데이터 모델링 - 분석모형 설계 (0)	2024.03.16

현재글빅데이터 모델링 - 분석기법적용 (의사결정나무/앙상블모형/K-NN)

인동머스크

" 우리에게는 존재하지 않는 것들을 꿈꿀 수 있는 사람들이 필요하다. " (ADsP / 빅데이터분석기사 / SQLD) https://github.com/Indongspace

시각화, 데이터자격검정, 티스토리챌린지, vizlab, 인프런, 코딩테스트, 메타코드, 복습, mysql, 프로그래머스, ADsP, 카일스쿨, 오블완, 빅데이터분석기사, 태블로, tableau, leetcode, 빅분기, hackerrank, 통계기초,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

인동머스크