데이터 축소 : 변수선택, 요약변수 생성하여 데이터의 차원을 줄임
데이터 변환 : 변수값에 대한 표준화, 정규화, 데이터의 형식 변환을 통해 알고리즘에 입력할 수 있는 형태로 변환
1. Data Scaling
1 표준화(Standardization) = Z score 표준화 -> 평균이 0, 표준편차가 1인 분포로 만든다.
2 정규화(Min-Max 정규화) -> 데이터의 범위를 0과 1사이로 변환
2. 평활화(Smoothing)
- 데이터에 있는 노이즈를 처리하기 위한 방법(거칠게 분포된 데이터를 매끄럽게 만들어줌)
분석변수처리
- 변수(Variable) = 피처(Feature)
X = 독립변수 = 설명변수 = 예측변수
Y = 종속변수 = 반응변수 = target
- 이산형 변수(명목, 순서) / 연속형 변수(구간, 비율)
1. 변수선택 방법
필터 방법(Filter Method) : 모델링에 의존하지 않고 통계적 특징을 이용해 변수를 선택
- Near Zero Variance : 0에 가까운 분산을 갖는 변수는 제거
- 상관분석 : 상관계수를 이용하여 변수를 제거 또는 선택
래퍼 방법(Wrapper Method) : 변수의 일부만 사용해 모델링해가면서 가장 좋은 변수 집합을 찾는 방법
- 전진 선택법(Forward selection) : 하나씩 변수를 넣어보기
- 후진 제거법(Backward elimination) : 다 넣고 하나씩 빼기
- 단계적 방법(Stepwise) : 모든 조합 고려가능
- 최적조합선택(Best subset) : 독립변수 개수별 최적의 모델 선정(1개 일 때, 2개 일 때 등)
임베디드 방법(Embedded Method) : 모델링 기법 자체에 변수 선택 기능이 포함
- 라쏘 회귀(Lasso Regression)
- 엘라스틱넷(Elastic Net)
'[데이터자격시험용-필수요약정리]' 카테고리의 다른 글
빅데이터 탐색 - 데이터전처리(분석변수처리) (0) | 2024.04.01 |
---|---|
빅데이터 탐색 - 데이터전처리(차원축소/피처 추출방법) (0) | 2024.04.01 |
빅데이터 탐색 - 데이터전처리(이상값 처리방법) (0) | 2024.04.01 |
빅데이터 탐색 - 데이터전처리(데이터전처리) (0) | 2024.04.01 |
빅데이터 탐색 - 데이터탐색(데이터탐색 기초/고급 데이터탐색) (0) | 2024.04.01 |