빅데이터 탐색 - 데이터전처리(데이터축소변환/분석변수처리)
데이터 축소 : 변수선택, 요약변수 생성하여 데이터의 차원을 줄임 데이터 변환 : 변수값에 대한 표준화, 정규화, 데이터의 형식 변환을 통해 알고리즘에 입력할 수 있는 형태로 변환 1. Data Scaling 1 표준화(Standardization) = Z score 표준화 -> 평균이 0, 표준편차가 1인 분포로 만든다. 2 정규화(Min-Max 정규화) -> 데이터의 범위를 0과 1사이로 변환 2. 평활화(Smoothing)- 데이터에 있는 노이즈를 처리하기 위한 방법(거칠게 분포된 데이터를 매끄럽게 만들어줌) 분석변수처리- 변수(Variable) = 피처(Feature) X = 독립변수 = 설명변수 = 예측변수 Y = 종속변수 = 반응변수 = target - 이산형 변수(명목, 순서)..