[데이터자격시험용-필수요약정리]

빅데이터 탐색 - 데이터전처리(차원축소/피처 추출방법)

indongspace 2024. 4. 1. 03:45

 

2. 차원축소 : 변수의 개수를 줄여서 새로운 차원의 데이터를 생성

   * 선형모델(회귀분석 등) 변수의 개수가 많을 경우 다중공선성 발생 -> 차원축소가 하나의 해결책

   1 피처선택(Feature Selection) = 변수선택

      - 여러 변수들 중에 학습에 중요한 변수를 찾아 선택하는 것

   2 피처추출(Feature Extraction) = 변수추출

      - 기존 변수들 간의 관계를 파악해서 선형 or 비선형 결합을 통해 새로운 변수를 생성

 

피처추출(Feature Extraction) 방법

다차원 척도법(MDS, Multidimensional scaling)

- 개체들 사이의 유사성을 기준으로 2차원, 3차원으로 시각화

 

주성분 분석(PCA)

- 변수의 선형 결합을 통해 데이터를 잘 표현할 수 있는 축을 찾아 그 축을 중심으로 데이터 차원을 축소

- 제1주성분(PC1)이 데이터의 분산을 가장 많이 설명

- 변수 간 선형관계가 있을 때 유용하게 사용(다중공선성 해결방법)

 

선형 판별분석(LDA, Linear Discriminant Analysis) - 지도학습

- 데이터 분포를 학습해(지도학습) 결정경계를 만들어 분류하는 모델

- 종속변수 클래스를 잘 구분할 수 있는 축을 찾음

 

요인분석(Factor Analysis)

- 변수들 간의 상관관계를 고려해서 유사한 변수들을 묶는다.

- 유사한 변수들을 묶어서 새로운 변수를 생성한다.