[데이터자격시험용-필수요약정리]

빅데이터 탐색 - 데이터탐색(데이터탐색/상관계수)

indongspace 2024. 4. 1. 02:25

 

데이터 탐색 기초

* 데이터 탐색 도구 : 도표/ 그래프/ 요약통계

1. 데이터 탐색 개요

- 탐색적 데이터 분석(Exploratory Data Analysis, EDA)

   - 수치요약, 시각화 등을 통해 데이터를 탐색하고 변수 간의 관계를 파악

   - 주로 결측치, 이상값, 데이터 분포, 기초통계량, 변수간 상관성 확인(도구 : 도표, 그래프, 요약통계)

 

- 탐색적 데이터 분석(EDA)과 확증적 데이터 분석(CDF)의 차이

 

- 탐색적 데이터 분석(EDA)의 4가지 주제

1. 저항성의 강조

   - 데이터의 일부가 파손되었을 때 영향을 적게 받는 성질

     예) 이상값에 민감한 평균보다 중앙값을 선호함

2. 잔차 해석

   - 잔차는 관찰 값들이 주 경향으로부터 얼마나 벗어났는지 알려주는 지표로, 이상치라 할 수 있음

   - 주 경향으로부터 벗어난 것이 있는지 탐색하는 작업이 잔차 해석

3. 자료 재표현

   - 데이터 분석 및 해석을 단순화하기 위해 원자료의 척도를 바꾸는 것

   - 로그, 제곱근, 역수 변환 등을 통해 분포의 대칭성, 선형성, 안정성 등을 파악

4. 현시성

   - 숨어있는 정보 시각화 -> 자료 구조를 효율적으로 파악

   - 히스토그램, 상자그림, 산점도 등

Four R's : Resistance(저항성) 

                Residuals(잔차)

                Re-expression(재표현)

                Representation(현시성)

 

 

2. 상관관계 분석

- 정의 : 두 변수 간의 선형관계를 분석하는 기법

- 표현방법 : 공분산, 상관계수

1. 공분산

 

단점 : 두 변수의 단위에 따라 값의 차이가 크다. 이를 개선하기 위해 표준화된 값이 필요함 -> 피어슨 상관계수!

 

2. 상관계수

- 피어슨 상관계수 : -1 ≤ r ≤ 1 값을 가짐(연속형 데이터 사용)

- 절대값이 1에 가까울수록 강한 선형관계를 가짐(+양의 상관관계, -음의 상관관계)

- "상관계수가 0이다"의 의미는 선형관계(직선관계)가 없다 라는 의미(O)

- "상관계수가 0이다"의 의미가 두 변수간에 관계가 없다(X) - 틀린 말

   * 상관계수가 0이지만 비선형관계(2차식 등)의 관계가 있을 수 있음

 

※ 상관계수의 종류

피어슨 상관계수 - 구간척도,비율척도(연속형 데이터), 모수검정

스피어만 상관계수 - 서열척도, 비모수검정, 켄달의 타우보다 간편, 비선형관계의 연관성 파악 가능

켄달의 타우 - 서열척도, 비모수검정, 스피어만보다 엄격, 데이터 수가 적을 때 사용

 

#참고자료

공분산 행렬과 상관행렬 : 변수 간의 공분산, 상관계수를 행렬로 표기

해석 예)

- X1과 X2의 공분산은 15.8(양의 상관관계)

- X1과 X3의 공분산은 -2.5(음의 상관관계)

* 해당 공분산 행렬로 변수 간의 상관계수를 알 수는 없음

 

- X1과 X2의 상관계수는 -0.62(음의 상관관계)

- X1과 X3의 상관계수는 0.75(양의 상관관계)

* 상관계수는 -1~1의 값을 가짐

 

#정준상관분석 : 2개 이상의 독립변수와 2개 이상의 종속변수 간의 관계를 분석

 = 다변량 독립변수와 다변량 종속변수와의 관계를 분석