기계학습(머신러닝)
지도학습
회귀 : 선형회귀
분류 : 로지스틱회귀/ 판별분석/ 나이브베이즈
회귀/분류 모두 가능 : 의사결정나무/ 랜덤포레스트/ K-NN/ SVM(서포트벡터머신)/ 인공신경망/ 앙상블(배깅,부스팅)
비지도학습
군집화 : 계층적(최단/최장/평균/와드)/ 비계층적(K-means등) #군집개수 정하면 비계층적
차원축소 : 주성분분석(PCA)
연관규칙
자기조직화지도(SOM)
강화학습
Q-러닝
분석모형설계
데이터분할
1) 하는 이유 : 분석 모델의 일반화 성능을 좋게!(과적합X)
- 일반화 성능 : 훈련모델의 실제 사용시 성능
- 과적합(Overfitting) : 학습(Train) 데이터를 과하게 학습하여 평가(Test) 데이터 입력시 성능이 떨어지는 것
2) 데이터 설명
Train(훈련) : 알고리즘 학습
Validation(검증) : 중간에 검증, 모형 미세조정
Test(평가) : 성능평가
3) 데이터 분할 종류
- 홀드아웃 : 계산량 적음, 단순함, 랜덤하게 학습/평가로 분할
- k-fold 교차검증 : k개의 집단으로 나누고 k-1개로 학습, 1개로 평가
- LpOCV : 전체 N개에서 p개 선택, N-p개로 학습, p개로 평가/ 평가데이터 경우의수 - nCp = n! / (n-p)!p! -> 비용/시간이 많이 든다.
- LOOCV : LpOCV에서 p=1인 경우
- 붓스트랩 : 단순랜덤 복원추출, 특정데이터가 학습데이터에 한번도 포함되지 않을 확률(약 36.8%), 반대로 학습데이터에 포함될 확률(약 63.2%)
'[데이터자격시험용-필수요약정리]' 카테고리의 다른 글
빅데이터 모델링 - 분석기법적용 (군집분석) (0) | 2024.03.17 |
---|---|
빅데이터 모델링 - 분석기법적용 (인공신경망/딥러닝 함수) (0) | 2024.03.17 |
빅데이터 모델링 - 분석기법적용 (의사결정나무/앙상블모형/K-NN) (0) | 2024.03.17 |
빅데이터 모델링 - 분석기법적용 (Logistic Regression / SVM) (0) | 2024.03.16 |
빅데이터 모델링 - 분석기법적용 (회귀분석/다중회귀분석) (0) | 2024.03.16 |