2. 차원축소 : 변수의 개수를 줄여서 새로운 차원의 데이터를 생성
* 선형모델(회귀분석 등) 변수의 개수가 많을 경우 다중공선성 발생 -> 차원축소가 하나의 해결책
1 피처선택(Feature Selection) = 변수선택
- 여러 변수들 중에 학습에 중요한 변수를 찾아 선택하는 것
2 피처추출(Feature Extraction) = 변수추출
- 기존 변수들 간의 관계를 파악해서 선형 or 비선형 결합을 통해 새로운 변수를 생성
피처추출(Feature Extraction) 방법
다차원 척도법(MDS, Multidimensional scaling)
- 개체들 사이의 유사성을 기준으로 2차원, 3차원으로 시각화
주성분 분석(PCA)
- 변수의 선형 결합을 통해 데이터를 잘 표현할 수 있는 축을 찾아 그 축을 중심으로 데이터 차원을 축소
- 제1주성분(PC1)이 데이터의 분산을 가장 많이 설명
- 변수 간 선형관계가 있을 때 유용하게 사용(다중공선성 해결방법)
선형 판별분석(LDA, Linear Discriminant Analysis) - 지도학습
- 데이터 분포를 학습해(지도학습) 결정경계를 만들어 분류하는 모델
- 종속변수 클래스를 잘 구분할 수 있는 축을 찾음
요인분석(Factor Analysis)
- 변수들 간의 상관관계를 고려해서 유사한 변수들을 묶는다.
- 유사한 변수들을 묶어서 새로운 변수를 생성한다.
'[데이터자격시험용-필수요약정리]' 카테고리의 다른 글
빅데이터 분석기획 - 빅데이터의 이해 (0) | 2024.04.02 |
---|---|
빅데이터 탐색 - 데이터전처리(분석변수처리) (0) | 2024.04.01 |
빅데이터 탐색 - 데이터전처리(데이터축소변환/분석변수처리) (0) | 2024.04.01 |
빅데이터 탐색 - 데이터전처리(이상값 처리방법) (0) | 2024.04.01 |
빅데이터 탐색 - 데이터전처리(데이터전처리) (0) | 2024.04.01 |