데이터 탐색 기초
* 데이터 탐색 도구 : 도표/ 그래프/ 요약통계
1. 데이터 탐색 개요
- 탐색적 데이터 분석(Exploratory Data Analysis, EDA)
- 수치요약, 시각화 등을 통해 데이터를 탐색하고 변수 간의 관계를 파악
- 주로 결측치, 이상값, 데이터 분포, 기초통계량, 변수간 상관성 확인(도구 : 도표, 그래프, 요약통계)
- 탐색적 데이터 분석(EDA)과 확증적 데이터 분석(CDF)의 차이
- 탐색적 데이터 분석(EDA)의 4가지 주제
1. 저항성의 강조
- 데이터의 일부가 파손되었을 때 영향을 적게 받는 성질
예) 이상값에 민감한 평균보다 중앙값을 선호함
2. 잔차 해석
- 잔차는 관찰 값들이 주 경향으로부터 얼마나 벗어났는지 알려주는 지표로, 이상치라 할 수 있음
- 주 경향으로부터 벗어난 것이 있는지 탐색하는 작업이 잔차 해석
3. 자료 재표현
- 데이터 분석 및 해석을 단순화하기 위해 원자료의 척도를 바꾸는 것
- 로그, 제곱근, 역수 변환 등을 통해 분포의 대칭성, 선형성, 안정성 등을 파악
4. 현시성
- 숨어있는 정보 시각화 -> 자료 구조를 효율적으로 파악
- 히스토그램, 상자그림, 산점도 등
Four R's : Resistance(저항성)
Residuals(잔차)
Re-expression(재표현)
Representation(현시성)
2. 상관관계 분석
- 정의 : 두 변수 간의 선형관계를 분석하는 기법
- 표현방법 : 공분산, 상관계수
1. 공분산
단점 : 두 변수의 단위에 따라 값의 차이가 크다. 이를 개선하기 위해 표준화된 값이 필요함 -> 피어슨 상관계수!
2. 상관계수
- 피어슨 상관계수 : -1 ≤ r ≤ 1 값을 가짐(연속형 데이터 사용)
- 절대값이 1에 가까울수록 강한 선형관계를 가짐(+양의 상관관계, -음의 상관관계)
- "상관계수가 0이다"의 의미는 선형관계(직선관계)가 없다 라는 의미(O)
- "상관계수가 0이다"의 의미가 두 변수간에 관계가 없다(X) - 틀린 말
* 상관계수가 0이지만 비선형관계(2차식 등)의 관계가 있을 수 있음
※ 상관계수의 종류
피어슨 상관계수 - 구간척도,비율척도(연속형 데이터), 모수검정
스피어만 상관계수 - 서열척도, 비모수검정, 켄달의 타우보다 간편, 비선형관계의 연관성 파악 가능
켄달의 타우 - 서열척도, 비모수검정, 스피어만보다 엄격, 데이터 수가 적을 때 사용
#참고자료
공분산 행렬과 상관행렬 : 변수 간의 공분산, 상관계수를 행렬로 표기
해석 예)
- X1과 X2의 공분산은 15.8(양의 상관관계)
- X1과 X3의 공분산은 -2.5(음의 상관관계)
* 해당 공분산 행렬로 변수 간의 상관계수를 알 수는 없음
- X1과 X2의 상관계수는 -0.62(음의 상관관계)
- X1과 X3의 상관계수는 0.75(양의 상관관계)
* 상관계수는 -1~1의 값을 가짐
#정준상관분석 : 2개 이상의 독립변수와 2개 이상의 종속변수 간의 관계를 분석
= 다변량 독립변수와 다변량 종속변수와의 관계를 분석
'[데이터자격시험용-필수요약정리]' 카테고리의 다른 글
빅데이터 탐색 - 데이터탐색(데이터탐색 기초/고급 데이터탐색) (0) | 2024.04.01 |
---|---|
빅데이터 탐색 - 데이터탐색(피어슨상관계수/상자그림 이해하기) (0) | 2024.04.01 |
빅데이터 탐색 - 통계기법이해(가설검정) (0) | 2024.04.01 |
빅데이터 탐색 - 통계기법이해(중심극한정리/추정) (1) | 2024.04.01 |
빅데이터 탐색 - 통계기법이해(포아송분포/정규분포/균일분포/표본분포) (4) | 2024.04.01 |