[데이터자격시험용-필수요약정리]

빅데이터 탐색 - 데이터전처리(분석변수처리)

indongspace 2024. 4. 1. 04:08

 

분석 변수 처리

 

3. 파생변수

   1 파생변수 : 분석가가 주관적으로 만든 변수(의미부여) -> 주관적으로 만든 변수이기 때문에 논리적으로 타당해야 함

   2 요약변수 : 합계, 횟수, 빈도 등의 기본적인 요약 변수, 많은 모델에서 공통으로 사용할 수 있어 재활용성이 높음

 

4. 변수변환

   1 변수의 구간화 : 연속형 변수를 다수의 구간으로 나눔(구간=변수가 된다)

       - ex) 점수 70~100점 -> 1등급 : 90~100점

                                             2등급 : 80~89점

                                             3등급 : 70~79점

 

   2 더미변수(Dummy Variable)

 

   3 원-핫 인코딩(One-Hot Encoding)

범주형 변수 변환방법으로 k개의 범주가 있을 때 더미변수는 k-1개로, 원핫인코딩은 k개의 변수로 바꿔준다.

 

   4 정규분포화

      - 로그변환 : 데이터에 로그를 취해서 정규분포에 가깝게 만들어준다.

        (정규분포를 가정하는 분석을 진행할 때 사용)

 

 

5. 불균형데이터(Data Imbalance) = Class 불균형 = 종속변수(Y) 불균형

설명

- 지도학습의 분류(Classification)에서 발생하는 문제로 각 집단(Class)에 속하는 데이터의 숫자가 차이가 많이 나는 경우를 말함

 

문제점

- 모델이 전부 Class A라고 분류해도 정확도(Accuracy)는 95%로 높음, 모델을 신뢰할 수가 없음

-> 데이터 불균형 문제가 있을 때 정확도(Accuracy)로 판단하면 안된다! 주로 F1 score 사용

 

불균형데이터 해결방법

오버샘플링(Over Sampling)

: 소수의 Class를 더 많이

 - 방법 : 단순복사, SMOTE 계열 방법

 - 단점 : 과적합 문제 발생 가능

 

언더샘플링(Under Sampling)

: 다수의 Class를 적게

 - 방법 : 랜덤추출, 토멕링크, CNN, OSS

 - 단점 : 정보손실(모델성능 ↓ 가능성)

 

Weight balancing

: Class 비중별로 가중치를 두는 것

 

#참고

CNN(Condensed Nearest Neighbor) - 언더샘플링 방법

- 숫자가 더 많은 Class에서 데이터를 제거할 때, 밀집된 데이터를 제거해서 남은 데이터는 해당 Class의 대표성을 가지게 샘플링 하는 방법

준지도 학습(Semi-Supervised Learning)

- 한 범주는 목표값(Y)이 표시되게, 다른 범주는 목표값 없이 학습하는 방법, 특정 Class만 학습하는 방법