[데이터자격시험용-필수요약정리]

빅데이터 모델링 - 분석모형 설계

indongspace 2024. 3. 16. 19:15

기계학습(머신러닝)

지도학습 

회귀 : 선형회귀

분류 : 로지스틱회귀/ 판별분석/ 나이브베이즈

회귀/분류 모두 가능 : 의사결정나무/ 랜덤포레스트/ K-NN/ SVM(서포트벡터머신)/ 인공신경망/ 앙상블(배깅,부스팅)

 

비지도학습 

군집화 : 계층적(최단/최장/평균/와드)/ 비계층적(K-means등) #군집개수 정하면 비계층적

차원축소 : 주성분분석(PCA)

연관규칙

자기조직화지도(SOM)

 

강화학습

Q-러닝

 

분석모형설계

데이터 분할

데이터분할

1) 하는 이유 : 분석 모델의 일반화 성능을 좋게!(과적합X)

  - 일반화 성능 : 훈련모델의 실제 사용시 성능

  - 과적합(Overfitting) : 학습(Train) 데이터를 과하게 학습하여 평가(Test) 데이터 입력시 성능이 떨어지는 것

 

2) 데이터 설명

Train(훈련) : 알고리즘 학습

Validation(검증) : 중간에 검증, 모형 미세조정

Test(평가) : 성능평가

 

3) 데이터 분할 종류

  - 홀드아웃 : 계산량 적음, 단순함, 랜덤하게 학습/평가로 분할

  - k-fold 교차검증 : k개의 집단으로 나누고 k-1개로 학습, 1개로 평가

  - LpOCV : 전체 N개에서 p개 선택, N-p개로 학습, p개로 평가/ 평가데이터 경우의수 - nCp = n! / (n-p)!p! -> 비용/시간이 많이 든다.

  - LOOCV : LpOCV에서 p=1인 경우

  - 붓스트랩 : 단순랜덤 복원추출, 특정데이터가 학습데이터에 한번도 포함되지 않을 확률(약 36.8%), 반대로 학습데이터에 포함될 확률(약 63.2%)