교차검증
1. 홀드아웃
- 계산량 적음, 단순함, 랜덤하게 학습/평가로 분할
2. k-fold 교차검증
- k개의 집단으로 나누고 k-1개로 학습, 1개로 평가
3. LpOCV
- 전체 N개에서 p개 선택, N-p개로 학습, p개로 평가
* 평가데이터 경우의 수 : nCp = n! / (n-p)!p! -> 비용/시간이 많이 든다
4. LOOCV는 LpOCV에서 p=1인 경우
5. 붓스트랩 : 단순랜덤 복원추출
- 학습데이터에 한번도 포함되지 않을 확률(약 36.8%)
- 반대로 학습데이터에 포함될 확률(약 63.2%)
분석모형개선 - 과적합방지
1. 편향(Bias) : 예측값과 실제값의 차이
-> 편향이 크면 오차가 크다
2. 분산(Variance) : 예측값들의 흩어진 정도
-> 분산이 크면 예측값이 예측값의 평균에서 멀리 떨어져있음
3. 모델의 복잡도
모델이 복잡하다 = 과(대)적합 = 편향(Bias) 감소 = 분산(Variance) 증가
(모델이 단순하다 = 과소적합 = 편향(Bias) 증가 = 분산(Variance) 감소)
4. 과적합(Overfitting)
최적모델 - Total Error가 가장 낮은 부분, 분산과 편향이 골고루 낮은 부분
5. 과적합 방지기법
1) 데이터 수 증가(Data Augmentation)
2) 가중치 규제(규제화, Regularization)
- L1 규제(Lasso)
- L2 규제(Ridge)
3) 모델 복잡도 감소
- 인공신경망의 은닉층 수 감소, 매개변수의 수 감소(=수용력 감소)
- 불필요한 변수 제거
4) 드롭아웃(Drop out)
- 모델 학습시 특정 뉴런을 제거하여 가중치가 한 쪽으로 쏠리는 것을 방지(특정 뉴런에 의존적인 것을 방지함)
- 앙상블 효과가 있다. 학습할 때 뉴런을 랜덤으로 끄면서 학습
(단, 모델 학습(Train) 할 때만 사용!!, 평가(Test) 데이터 입력시 사용 X)
#추가(기출) - 배치 정규화(Batch Normalization)
'[데이터자격시험용-필수요약정리]' 카테고리의 다른 글
빅데이터 결과해석 - 분석모형개선(분석모형융합) (0) | 2024.03.24 |
---|---|
빅데이터 결과해석 - 분석모형개선(매개변수 최적화) (0) | 2024.03.24 |
빅데이터 결과해석 - 분석모형평가(분석모형진단) (1) | 2024.03.23 |
빅데이터 결과해석 - 분석모형평가(군집분석 및 기타 성능지표) (1) | 2024.03.23 |
빅데이터 결과해석 - 분석모형평가(분류성능 ROC curve) (0) | 2024.03.23 |