[데이터자격시험용-필수요약정리]

빅데이터 결과해석 - 분석모형평가(교차검증 & 분석모형개선-과적합방지)

indongspace 2024. 3. 24. 13:31

 

교차검증

 

1. 홀드아웃

- 계산량 적음, 단순함, 랜덤하게 학습/평가로 분할

 

2. k-fold 교차검증

- k개의 집단으로 나누고 k-1개로 학습, 1개로 평가

 

3. LpOCV

- 전체 N개에서 p개 선택, N-p개로 학습, p개로 평가

  * 평가데이터 경우의 수 : nCp = n! / (n-p)!p! -> 비용/시간이 많이 든다

4. LOOCV는 LpOCV에서 p=1인 경우

 

5. 붓스트랩 : 단순랜덤 복원추출

- 학습데이터에 한번도 포함되지 않을 확률(약 36.8%)

- 반대로 학습데이터에 포함될 확률(약 63.2%)

 

 

 

분석모형개선 - 과적합방지

 

1. 편향(Bias) : 예측값과 실제값의 차이

-> 편향이 크면 오차가 크다

 

2. 분산(Variance) : 예측값들의 흩어진 정도

-> 분산이 크면 예측값이 예측값의 평균에서 멀리 떨어져있음

 

3. 모델의 복잡도

모델이 복잡하다 = 과(대)적합 = 편향(Bias) 감소 = 분산(Variance) 증가

(모델이 단순하다 = 과소적합 = 편향(Bias) 증가 = 분산(Variance) 감소)

 

 

4. 과적합(Overfitting)

최적모델 - Total Error가 가장 낮은 부분, 분산과 편향이 골고루 낮은 부분

 

 

 

 

5. 과적합 방지기법

1) 데이터 수 증가(Data Augmentation)

2) 가중치 규제(규제화, Regularization)

    - L1 규제(Lasso)

    - L2 규제(Ridge)

3) 모델 복잡도 감소

    - 인공신경망의 은닉층 수 감소, 매개변수의 수 감소(=수용력 감소)

    - 불필요한 변수 제거

4) 드롭아웃(Drop out)

    - 모델 학습시 특정 뉴런을 제거하여 가중치가 한 쪽으로 쏠리는 것을 방지(특정 뉴런에 의존적인 것을 방지함)

    - 앙상블 효과가 있다. 학습할 때 뉴런을 랜덤으로 끄면서 학습

      (단, 모델 학습(Train) 할 때만 사용!!, 평가(Test) 데이터 입력시 사용 X)

 

#추가(기출) - 배치 정규화(Batch Normalization)