[데이터자격시험용-필수요약정리]

빅데이터 탐색 - 데이터전처리(데이터축소변환/분석변수처리)

indongspace 2024. 4. 1. 03:32

 

데이터 축소 : 변수선택, 요약변수 생성하여 데이터의 차원을 줄임

 

데이터 변환 : 변수값에 대한 표준화, 정규화, 데이터의 형식 변환을 통해 알고리즘에 입력할 수 있는 형태로 변환

 

1. Data Scaling

   1 표준화(Standardization) = Z score 표준화 -> 평균이 0, 표준편차가 1인 분포로 만든다.

 

   2 정규화(Min-Max 정규화) -> 데이터의 범위를 0과 1사이로 변환

 

2. 평활화(Smoothing)

- 데이터에 있는 노이즈를 처리하기 위한 방법(거칠게 분포된 데이터를 매끄럽게 만들어줌)

 

 

분석변수처리

- 변수(Variable) = 피처(Feature)

  X = 독립변수 = 설명변수 = 예측변수

  Y = 종속변수 = 반응변수 = target

 

- 이산형 변수(명목, 순서) / 연속형 변수(구간, 비율)

 

 

1. 변수선택 방법

필터 방법(Filter Method) : 모델링에 의존하지 않고 통계적 특징을 이용해 변수를 선택

  - Near Zero Variance : 0에 가까운 분산을 갖는 변수는 제거

  - 상관분석 : 상관계수를 이용하여 변수를 제거 또는 선택

 

래퍼 방법(Wrapper Method) : 변수의 일부만 사용해 모델링해가면서 가장 좋은 변수 집합을 찾는 방법

  - 전진 선택법(Forward selection) : 하나씩 변수를 넣어보기

  - 후진 제거법(Backward elimination) : 다 넣고 하나씩 빼기

  - 단계적 방법(Stepwise) : 모든 조합 고려가능

  - 최적조합선택(Best subset) : 독립변수 개수별 최적의 모델 선정(1개 일 때, 2개 일 때 등)

 

임베디드 방법(Embedded Method) : 모델링 기법 자체에 변수 선택 기능이 포함

  - 라쏘 회귀(Lasso Regression)

  - 엘라스틱넷(Elastic Net)