[데이터자격시험용-필수요약정리]

빅데이터 탐색 - 데이터전처리(데이터전처리)

indongspace 2024. 4. 1. 03:00

 

데이터 전처리

: 좋은 데이터가 좋은 성능을 낸다.

: 분석과정에서 대부분의 시간을 차지한다.

 

※ 데이터 전처리 주요작업(암기!)

1. 데이터 정제 : 결측치/이상치 파악하여 제거 or 대체

2. 데이터 통합 : 여러 데이터 병합, 통합하여 데이터셋 생성(중복 데이터 해결할 것!)

3. 데이터 축소 : 변수선택, 요약변수 생성하여 데이터의 차원을 줄임

4. 데이터 변환 : 변수값에 대한 표준화, 정규화, 데이터의 형식 변환을 통해 알고리즘에 입력할 수 있는 형태로 변환

 

데이터 정제(Data Cleaning)

- 정의 : 오류 데이터값을 정확한 데이터로 수정하거나 삭제하는 과정(결측치/ 이상치(노이즈) 파악하여 제거 or 대체)

- 순서 : 데이터 오류 원인 분석 -> 정제 대상 선정 -> 정제 방법 결정

 

1. 결측값(Missing value) 처리

  1) 설명 : 누락되어 값이 존재하지 않음(NA, NULL 등으로 출력)

 

2) 결측값 종류

      1 완전 무작위 결측(MCAR, Missing Completely at Random) : 다른 변수들과 아무 상관이 없는 경우

      2 무작위 결측(MAR, Missing at Random) : 결측된 변수와 관련이 없지만, 다른 변수와 관련이 있는 경우

      3 비무작위 결측(NMAR, Not Missing at Random) : 결측 자체에 의미가 있는 경우, 발생 원인에 대한 이해가 필요함

 

3) 결측값 처리

     1 단순대치법

        - 완전삭제 : 결측값 존재하는 데이터 삭제(정보 손실 발생)

        - 평균대치 : 평균값으로 대치

            * 비조건부 : 관측 데이터의 평균값으로 대치

            * 조건부 : 회귀분석을 활용하여 대치

     2 다중대치법

        - 단순대치법을 여러 번(k번) 수행함, k개의 대치된 표본을 구함  대치->분석->결합

     3 단순확률대치법 : 확률값을 부여한 후 대치

        - 핫덱 대체(Hot-Deck) : 현재 진행 중인 연구에서 비슷한 성향을 가진 응답자의 자료로 무응답을 대체

        - 콜드덱 대체(Cold-Deck) : 외부 출처, 이전의 비슷한 연구에서 가져온 자료로 대체