2. 이상값(Outlier) 처리
1) 이상값 : 일반적으로 특정 범위에서 많이 벗어난 값
* 분석할 필요없이 삭제나 대체 : Bad data
* 분석할 필요가 있는 경우는 원인파악 : fraud(불량)
* 무작정 삭제하면 안된다. 원인을 파악하고 제거할지 대체할지 결정해야 함
2) 원인 : 입력 / 측정 / 실험오류 / 표본추출 오류 / 고의적인 이상값
3) 확인방법
1 상자그림 활용 : Q1 - 1.5*IQR < data < Q3 + 1.5*IQR, IQR = Q3 - Q1
2 ESD(Extreme Studentized Deviation)
* 평균에서 3표준편차 떨어진 값 μ –3σ < data < μ + 3σ (99.73%를 벗어난 값)
3 회귀분석 진단의 레버리지(Leverage) : 이상값 및 영향값 확인
4 군집화(Clustering) : 클러스터링 후 다른 클러스터 대비 데이터 수가 적거나 거리가 먼 경우
4) 이상값 처리
* 무작정 삭제가 아닌 데이터 상황에 맞게 논리적으로 처리해야 하는게 핵심임(모델이 좋은 성능을 내기 위해)
1 삭제 : 이상값은 제외하고 분석
- 추정치의 분산이 작아짐, 과소/과대 추정되어 편의 발생할 수 있음
- 양극단의 값을 절단(Trimming) 하기도 함 : 기하평균/ 상하단 %를 이용한 제거
* 절단보다는 극단값 조정 방법을 활용하는 것이 유리 -> 데이터 손실률 ↓ 설명력 ↑
2 대체법 : 하한값보다 작으면 하한값, 상한값보다 크면 상한값 대체
3 변환(Transformation)
- 자연로그를 취해 데이터 값 감소 -> 실제값 변형
- 오른쪽으로 길게 기울어진 분포 -> 평균 중심 대칭 형태로 변환
4 분류하여 처리 : 이상값이 많을 경우 사용하는 방법
- 서로 다른 그룹으로 묶음 -> 각 그룹에 대해 통계적인 모형 생성 -> 결과 결합
'[데이터자격시험용-필수요약정리]' 카테고리의 다른 글
빅데이터 탐색 - 데이터전처리(차원축소/피처 추출방법) (0) | 2024.04.01 |
---|---|
빅데이터 탐색 - 데이터전처리(데이터축소변환/분석변수처리) (0) | 2024.04.01 |
빅데이터 탐색 - 데이터전처리(데이터전처리) (0) | 2024.04.01 |
빅데이터 탐색 - 데이터탐색(데이터탐색 기초/고급 데이터탐색) (0) | 2024.04.01 |
빅데이터 탐색 - 데이터탐색(피어슨상관계수/상자그림 이해하기) (0) | 2024.04.01 |