데이터 전처리
: 좋은 데이터가 좋은 성능을 낸다.
: 분석과정에서 대부분의 시간을 차지한다.
※ 데이터 전처리 주요작업(암기!)
1. 데이터 정제 : 결측치/이상치 파악하여 제거 or 대체
2. 데이터 통합 : 여러 데이터 병합, 통합하여 데이터셋 생성(중복 데이터 해결할 것!)
3. 데이터 축소 : 변수선택, 요약변수 생성하여 데이터의 차원을 줄임
4. 데이터 변환 : 변수값에 대한 표준화, 정규화, 데이터의 형식 변환을 통해 알고리즘에 입력할 수 있는 형태로 변환
데이터 정제(Data Cleaning)
- 정의 : 오류 데이터값을 정확한 데이터로 수정하거나 삭제하는 과정(결측치/ 이상치(노이즈) 파악하여 제거 or 대체)
- 순서 : 데이터 오류 원인 분석 -> 정제 대상 선정 -> 정제 방법 결정
1. 결측값(Missing value) 처리
1) 설명 : 누락되어 값이 존재하지 않음(NA, NULL 등으로 출력)
2) 결측값 종류
1 완전 무작위 결측(MCAR, Missing Completely at Random) : 다른 변수들과 아무 상관이 없는 경우
2 무작위 결측(MAR, Missing at Random) : 결측된 변수와 관련이 없지만, 다른 변수와 관련이 있는 경우
3 비무작위 결측(NMAR, Not Missing at Random) : 결측 자체에 의미가 있는 경우, 발생 원인에 대한 이해가 필요함
3) 결측값 처리
1 단순대치법
- 완전삭제 : 결측값 존재하는 데이터 삭제(정보 손실 발생)
- 평균대치 : 평균값으로 대치
* 비조건부 : 관측 데이터의 평균값으로 대치
* 조건부 : 회귀분석을 활용하여 대치
2 다중대치법
- 단순대치법을 여러 번(k번) 수행함, k개의 대치된 표본을 구함 대치->분석->결합
3 단순확률대치법 : 확률값을 부여한 후 대치
- 핫덱 대체(Hot-Deck) : 현재 진행 중인 연구에서 비슷한 성향을 가진 응답자의 자료로 무응답을 대체
- 콜드덱 대체(Cold-Deck) : 외부 출처, 이전의 비슷한 연구에서 가져온 자료로 대체
'[데이터자격시험용-필수요약정리]' 카테고리의 다른 글
빅데이터 탐색 - 데이터전처리(데이터축소변환/분석변수처리) (0) | 2024.04.01 |
---|---|
빅데이터 탐색 - 데이터전처리(이상값 처리방법) (0) | 2024.04.01 |
빅데이터 탐색 - 데이터탐색(데이터탐색 기초/고급 데이터탐색) (0) | 2024.04.01 |
빅데이터 탐색 - 데이터탐색(피어슨상관계수/상자그림 이해하기) (0) | 2024.04.01 |
빅데이터 탐색 - 데이터탐색(데이터탐색/상관계수) (0) | 2024.04.01 |