[데이터자격시험용-필수요약정리] 44

빅데이터 탐색 - 데이터전처리(차원축소/피처 추출방법)

2. 차원축소 : 변수의 개수를 줄여서 새로운 차원의 데이터를 생성   * 선형모델(회귀분석 등) 변수의 개수가 많을 경우 다중공선성 발생 -> 차원축소가 하나의 해결책   1 피처선택(Feature Selection) = 변수선택      - 여러 변수들 중에 학습에 중요한 변수를 찾아 선택하는 것   2 피처추출(Feature Extraction) = 변수추출      - 기존 변수들 간의 관계를 파악해서 선형 or 비선형 결합을 통해 새로운 변수를 생성 피처추출(Feature Extraction) 방법다차원 척도법(MDS, Multidimensional scaling)- 개체들 사이의 유사성을 기준으로 2차원, 3차원으로 시각화 주성분 분석(PCA)- 변수의 선형 결합을 통해 데이터를 잘 표현할 수..

빅데이터 탐색 - 데이터전처리(데이터축소변환/분석변수처리)

데이터 축소 : 변수선택, 요약변수 생성하여 데이터의 차원을 줄임 데이터 변환 : 변수값에 대한 표준화, 정규화, 데이터의 형식 변환을 통해 알고리즘에 입력할 수 있는 형태로 변환 1. Data Scaling   1 표준화(Standardization) = Z score 표준화 -> 평균이 0, 표준편차가 1인 분포로 만든다.    2 정규화(Min-Max 정규화) -> 데이터의 범위를 0과 1사이로 변환 2. 평활화(Smoothing)- 데이터에 있는 노이즈를 처리하기 위한 방법(거칠게 분포된 데이터를 매끄럽게 만들어줌)  분석변수처리- 변수(Variable) = 피처(Feature)  X = 독립변수 = 설명변수 = 예측변수  Y = 종속변수 = 반응변수 = target - 이산형 변수(명목, 순서)..

빅데이터 탐색 - 데이터전처리(이상값 처리방법)

2. 이상값(Outlier) 처리   1) 이상값 : 일반적으로 특정 범위에서 많이 벗어난 값       * 분석할 필요없이 삭제나 대체 : Bad data       * 분석할 필요가 있는 경우는 원인파악 : fraud(불량)       * 무작정 삭제하면 안된다. 원인을 파악하고 제거할지 대체할지 결정해야 함    2) 원인 : 입력 / 측정 / 실험오류 / 표본추출 오류 / 고의적인 이상값    3) 확인방법       1 상자그림 활용 : Q1 - 1.5*IQR        2 ESD(Extreme Studentized Deviation)           * 평균에서 3표준편차 떨어진 값 μ –3σ        3 회귀분석 진단의 레버리지(Leverage) : 이상값 및 영향값 확인       ..

빅데이터 탐색 - 데이터전처리(데이터전처리)

데이터 전처리: 좋은 데이터가 좋은 성능을 낸다.: 분석과정에서 대부분의 시간을 차지한다. ※ 데이터 전처리 주요작업(암기!)1. 데이터 정제 : 결측치/이상치 파악하여 제거 or 대체2. 데이터 통합 : 여러 데이터 병합, 통합하여 데이터셋 생성(중복 데이터 해결할 것!)3. 데이터 축소 : 변수선택, 요약변수 생성하여 데이터의 차원을 줄임4. 데이터 변환 : 변수값에 대한 표준화, 정규화, 데이터의 형식 변환을 통해 알고리즘에 입력할 수 있는 형태로 변환 데이터 정제(Data Cleaning)- 정의 : 오류 데이터값을 정확한 데이터로 수정하거나 삭제하는 과정(결측치/ 이상치(노이즈) 파악하여 제거 or 대체)- 순서 : 데이터 오류 원인 분석 -> 정제 대상 선정 -> 정제 방법 결정 1. 결측값(..

빅데이터 탐색 - 데이터탐색(데이터탐색 기초/고급 데이터탐색)

4. 시각적 데이터 탐색 1. 줄기-잎 그림 : 각 구간 내의 자료 분포에 대해 정확한 정보를 알 수 있음   * 자료 요약에 따른 정보 손실이 없음 2. 히스토그램 : 각 구간의 관측도수를 기둥 형태로 표현  * 최대, 최소값 알 수 없음, 정보의 손실 발생  고급 데이터 탐색(4과목 중복내용)1. 시공간 데이터 탐색2. 다변량 데이터 탐색(여러 변수들 간의 관계를 파악)   - 산점도 행렬(상관관계 확인)   - 다차원척도법   - 피벗테이블   - 레이더차트   - 평행좌표 그래프   - 체르노프페이스   - 트리맵   - 모자이크 plot   - 선버스트 차트 #추가 말문장- 상관분석 시 p-value 값은 상관관계 유무를, 상관계수는 상관관계 정도를 나타낸다.

빅데이터 탐색 - 데이터탐색(피어슨상관계수/상자그림 이해하기)

※ 피어슨 상관계수의 유의성 검정(가설검정)1. 가설설정  - 귀무가설(H0) : 상관계수가 0이다(상관관계가 없다)  - 대립가설(H1) : 상관계수가 0이 아니다(상관관계가 있다)2. 판단(t-분포 활용)  - 유의수준 5% 하에서 p-value값이 0.05보다 크면 귀무가설 채택                                      p-value값이 0.05보다 작으면 귀무가설 기각즉, 상관관계가 있으려면 p-value값이 0.05보다 작아야 함  3. 기초 통계량 추출 및 이해 ※ 상자그림(Box plot)의 이해 - 왜도, 사분위수, 상자그림, 평균, 중앙값, 최빈값과의 관계

빅데이터 탐색 - 데이터탐색(데이터탐색/상관계수)

데이터 탐색 기초* 데이터 탐색 도구 : 도표/ 그래프/ 요약통계1. 데이터 탐색 개요- 탐색적 데이터 분석(Exploratory Data Analysis, EDA)   - 수치요약, 시각화 등을 통해 데이터를 탐색하고 변수 간의 관계를 파악   - 주로 결측치, 이상값, 데이터 분포, 기초통계량, 변수간 상관성 확인(도구 : 도표, 그래프, 요약통계) - 탐색적 데이터 분석(EDA)과 확증적 데이터 분석(CDF)의 차이 - 탐색적 데이터 분석(EDA)의 4가지 주제1. 저항성의 강조   - 데이터의 일부가 파손되었을 때 영향을 적게 받는 성질     예) 이상값에 민감한 평균보다 중앙값을 선호함2. 잔차 해석   - 잔차는 관찰 값들이 주 경향으로부터 얼마나 벗어났는지 알려주는 지표로, 이상치라 할 수..

빅데이터 탐색 - 통계기법이해(가설검정)

가설검정"~할 것이다"라는 잠정적인 주장(가설)에 대해 통계적인 방식으로 검정하는 것으로 통계적 가설검정이라 함(주로 모집단의 모수에 대해 설정) 1. 귀무가설과 대립가설1 귀무가설(H0) = 영가설 (기존에 알려진 사실)   - 차이가 없다, 서로 같다, 영향을 주지 않는다 등으로 설정 (일반적으로 = 사용) 2 대립가설(H1) = 연구가설 = 대안가설   - 차이가 있다, 같지 않다, 영향을 준다 등으로 설정 (일반적으로 ≠ 사용) ※ 가설검정은 귀무가설(H0)을 채택할 건지 기각할 건지 판단하는 과정 2. 가설 검정의 오류(1종 오류와 2종 오류)- 1종 오류(Type 1 error)   : 귀무가설(H0)이 참일 때 이를 기각하는 오류를 범할 확률   : 귀무가설(H0)이 참일 때 귀무가설을 기각..

빅데이터 탐색 - 통계기법이해(중심극한정리/추정)

중심극한정리(Central Limit Theorem, CLT)임의의 모집단이 평균이 μ, 표준편차 σ 라고 할 때, 표본의 크기 n이 충분히 크다면1) 모집단의 분포에 상관없이 표본평균( x̄ )의 분포는 N(𝝁, σ² /𝒏 ) 인 정규분포에 근사한다.2) 모집단이 정규분포라면 표본평균( x̄ )은 표본의 크기(n)와 상관없이 항상 정규분포한다.중요한 이유! : 표본평균이 정규분포를 따르면 모집단의 모수를 추정할 수 있게 된다(확률적 근거)  추론통계(Inferential statistics)추정-점 추정- 구간 추정 가설검정- 귀무/대립가설- 제1종, 제2종 오류- 유의수준, 유의확률 등 추정과 검정1. 추정 : 표본 정보를 이용하여 모수의 실제값을 추측2. 검정 : 모수에 대해 가설을 세우고 표본..

빅데이터 탐색 - 통계기법이해(포아송분포/정규분포/균일분포/표본분포)

3. 포아송분포- 단위시간/공간 내 발생하는 사건의 횟수를 확률변수 X라고 할 때   (발생 빈도가 낮은 사건)- X~P(λ)으로 표기- 포아송 분포의 확률함수기댓값과 분산- E(X) = λ- Var(X) = λ  2. 연속확률분포- 종류 : 정규분포, 표준정규분포, 균일분포, t-분포, X^2분포, F-분포, 감마분포, 지수분포 1. 정규분포- 가우스 분포라고 부르기도 함- 종 모양의 좌우대칭 분포- 평균, 중앙값, 최빈값이 같음- 평균이 μ, 분산이 σ², 표준편차 σ- 위치는 평균이, 모양은 표준편차가 결정- 첨도 3, 왜도 0 2. 표준정규분포N(0,1)- 평균이 0, 분산이 1인 정규분포 * 정규분포의 확률 계산(아래 면적)- 정규분포를 표준화하여 표준정규분포로 만든다.- 표준정규분포표를 보고 ..