[데이터자격시험용-필수요약정리]

빅데이터 탐색 - 데이터전처리(이상값 처리방법)

indongspace 2024. 4. 1. 03:14

 

2. 이상값(Outlier) 처리

   1) 이상값 : 일반적으로 특정 범위에서 많이 벗어난 값

       * 분석할 필요없이 삭제나 대체 : Bad data

       * 분석할 필요가 있는 경우는 원인파악 : fraud(불량)

       * 무작정 삭제하면 안된다. 원인을 파악하고 제거할지 대체할지 결정해야 함

 

   2) 원인 : 입력 / 측정 / 실험오류 / 표본추출 오류 / 고의적인 이상값

 

   3) 확인방법

       1 상자그림 활용 : Q1 - 1.5*IQR < data < Q3 + 1.5*IQR, IQR = Q3 - Q1

       2 ESD(Extreme Studentized Deviation)

           * 평균에서 3표준편차 떨어진 값 μ –3σ < data < μ + 3σ (99.73%를 벗어난 값)

       3 회귀분석 진단의 레버리지(Leverage) : 이상값 및 영향값 확인

       4 군집화(Clustering) : 클러스터링 후 다른 클러스터 대비 데이터 수가 적거나 거리가 먼 경우 

 

   4) 이상값 처리

      * 무작정 삭제가 아닌 데이터 상황에 맞게 논리적으로 처리해야 하는게 핵심임(모델이 좋은 성능을 내기 위해)

      1 삭제 : 이상값은 제외하고 분석

         - 추정치의 분산이 작아짐, 과소/과대 추정되어 편의 발생할 수 있음

         - 양극단의 값을 절단(Trimming) 하기도 함 : 기하평균/ 상하단 %를 이용한 제거

         * 절단보다는 극단값 조정 방법을 활용하는 것이 유리 -> 데이터 손실률 ↓ 설명력 ↑

 

      2 대체법 : 하한값보다 작으면 하한값, 상한값보다 크면 상한값 대체

 

      3 변환(Transformation)

         - 자연로그를 취해 데이터 값 감소 -> 실제값 변형

         - 오른쪽으로 길게 기울어진 분포 -> 평균 중심 대칭 형태로 변환

 

      4 분류하여 처리 : 이상값이 많을 경우 사용하는 방법

         - 서로 다른 그룹으로 묶음 -> 각 그룹에 대해 통계적인 모형 생성 -> 결과 결합