빅데이터분석기사 46

빅데이터 분석기획 - 빅데이터의 이해

빅데이터 개요 및 활용 1. 빅데이터 : 대용량의 자료(정형/비정형 데이터) -> + 데이터에서 가치 추출/의사결정에 활용 2. 빅데이터 3V(7V) 특징 - 가트너 그룹 3. 정형/반정형/비정형 데이터 특징(★) 4. 정성적/정량적 데이터  ※ 참고사항 : 데이터 바이트 크기  5. 암묵지와 형식지※ 암묵지와 형식지의 상호 작용  - 내면화(형식지->암묵지) : 문서를 개인의 지식으로  - 공통화(암묵지->암묵지) : 개인->조직으로 지식공유  - 표출화(암묵지->형식지) : 지식을 문서화  - 연결화(형식지->형식지) : 형식지를 결합하여 새로운 지식 생성 6. DIKW 피라미드 : 데이터-정보-지식을 통해 최종 지혜를 찾아가는 과정- Wisdom(지혜) : A마트가 다른 상품들도 쌀 것이라고 판단-..

빅데이터 탐색 - 데이터전처리(분석변수처리)

분석 변수 처리 3. 파생변수   1 파생변수 : 분석가가 주관적으로 만든 변수(의미부여) -> 주관적으로 만든 변수이기 때문에 논리적으로 타당해야 함   2 요약변수 : 합계, 횟수, 빈도 등의 기본적인 요약 변수, 많은 모델에서 공통으로 사용할 수 있어 재활용성이 높음 4. 변수변환   1 변수의 구간화 : 연속형 변수를 다수의 구간으로 나눔(구간=변수가 된다)       - ex) 점수 70~100점 -> 1등급 : 90~100점                                             2등급 : 80~89점                                             3등급 : 70~79점    2 더미변수(Dummy Variable)    3 원-핫 인코딩..

빅데이터 탐색 - 데이터전처리(차원축소/피처 추출방법)

2. 차원축소 : 변수의 개수를 줄여서 새로운 차원의 데이터를 생성   * 선형모델(회귀분석 등) 변수의 개수가 많을 경우 다중공선성 발생 -> 차원축소가 하나의 해결책   1 피처선택(Feature Selection) = 변수선택      - 여러 변수들 중에 학습에 중요한 변수를 찾아 선택하는 것   2 피처추출(Feature Extraction) = 변수추출      - 기존 변수들 간의 관계를 파악해서 선형 or 비선형 결합을 통해 새로운 변수를 생성 피처추출(Feature Extraction) 방법다차원 척도법(MDS, Multidimensional scaling)- 개체들 사이의 유사성을 기준으로 2차원, 3차원으로 시각화 주성분 분석(PCA)- 변수의 선형 결합을 통해 데이터를 잘 표현할 수..

빅데이터 탐색 - 데이터전처리(데이터축소변환/분석변수처리)

데이터 축소 : 변수선택, 요약변수 생성하여 데이터의 차원을 줄임 데이터 변환 : 변수값에 대한 표준화, 정규화, 데이터의 형식 변환을 통해 알고리즘에 입력할 수 있는 형태로 변환 1. Data Scaling   1 표준화(Standardization) = Z score 표준화 -> 평균이 0, 표준편차가 1인 분포로 만든다.    2 정규화(Min-Max 정규화) -> 데이터의 범위를 0과 1사이로 변환 2. 평활화(Smoothing)- 데이터에 있는 노이즈를 처리하기 위한 방법(거칠게 분포된 데이터를 매끄럽게 만들어줌)  분석변수처리- 변수(Variable) = 피처(Feature)  X = 독립변수 = 설명변수 = 예측변수  Y = 종속변수 = 반응변수 = target - 이산형 변수(명목, 순서)..

빅데이터 탐색 - 데이터전처리(이상값 처리방법)

2. 이상값(Outlier) 처리   1) 이상값 : 일반적으로 특정 범위에서 많이 벗어난 값       * 분석할 필요없이 삭제나 대체 : Bad data       * 분석할 필요가 있는 경우는 원인파악 : fraud(불량)       * 무작정 삭제하면 안된다. 원인을 파악하고 제거할지 대체할지 결정해야 함    2) 원인 : 입력 / 측정 / 실험오류 / 표본추출 오류 / 고의적인 이상값    3) 확인방법       1 상자그림 활용 : Q1 - 1.5*IQR        2 ESD(Extreme Studentized Deviation)           * 평균에서 3표준편차 떨어진 값 μ –3σ        3 회귀분석 진단의 레버리지(Leverage) : 이상값 및 영향값 확인       ..

빅데이터 탐색 - 데이터전처리(데이터전처리)

데이터 전처리: 좋은 데이터가 좋은 성능을 낸다.: 분석과정에서 대부분의 시간을 차지한다. ※ 데이터 전처리 주요작업(암기!)1. 데이터 정제 : 결측치/이상치 파악하여 제거 or 대체2. 데이터 통합 : 여러 데이터 병합, 통합하여 데이터셋 생성(중복 데이터 해결할 것!)3. 데이터 축소 : 변수선택, 요약변수 생성하여 데이터의 차원을 줄임4. 데이터 변환 : 변수값에 대한 표준화, 정규화, 데이터의 형식 변환을 통해 알고리즘에 입력할 수 있는 형태로 변환 데이터 정제(Data Cleaning)- 정의 : 오류 데이터값을 정확한 데이터로 수정하거나 삭제하는 과정(결측치/ 이상치(노이즈) 파악하여 제거 or 대체)- 순서 : 데이터 오류 원인 분석 -> 정제 대상 선정 -> 정제 방법 결정 1. 결측값(..

빅데이터 탐색 - 데이터탐색(데이터탐색 기초/고급 데이터탐색)

4. 시각적 데이터 탐색 1. 줄기-잎 그림 : 각 구간 내의 자료 분포에 대해 정확한 정보를 알 수 있음   * 자료 요약에 따른 정보 손실이 없음 2. 히스토그램 : 각 구간의 관측도수를 기둥 형태로 표현  * 최대, 최소값 알 수 없음, 정보의 손실 발생  고급 데이터 탐색(4과목 중복내용)1. 시공간 데이터 탐색2. 다변량 데이터 탐색(여러 변수들 간의 관계를 파악)   - 산점도 행렬(상관관계 확인)   - 다차원척도법   - 피벗테이블   - 레이더차트   - 평행좌표 그래프   - 체르노프페이스   - 트리맵   - 모자이크 plot   - 선버스트 차트 #추가 말문장- 상관분석 시 p-value 값은 상관관계 유무를, 상관계수는 상관관계 정도를 나타낸다.

빅데이터 탐색 - 데이터탐색(피어슨상관계수/상자그림 이해하기)

※ 피어슨 상관계수의 유의성 검정(가설검정)1. 가설설정  - 귀무가설(H0) : 상관계수가 0이다(상관관계가 없다)  - 대립가설(H1) : 상관계수가 0이 아니다(상관관계가 있다)2. 판단(t-분포 활용)  - 유의수준 5% 하에서 p-value값이 0.05보다 크면 귀무가설 채택                                      p-value값이 0.05보다 작으면 귀무가설 기각즉, 상관관계가 있으려면 p-value값이 0.05보다 작아야 함  3. 기초 통계량 추출 및 이해 ※ 상자그림(Box plot)의 이해 - 왜도, 사분위수, 상자그림, 평균, 중앙값, 최빈값과의 관계

빅데이터 탐색 - 데이터탐색(데이터탐색/상관계수)

데이터 탐색 기초* 데이터 탐색 도구 : 도표/ 그래프/ 요약통계1. 데이터 탐색 개요- 탐색적 데이터 분석(Exploratory Data Analysis, EDA)   - 수치요약, 시각화 등을 통해 데이터를 탐색하고 변수 간의 관계를 파악   - 주로 결측치, 이상값, 데이터 분포, 기초통계량, 변수간 상관성 확인(도구 : 도표, 그래프, 요약통계) - 탐색적 데이터 분석(EDA)과 확증적 데이터 분석(CDF)의 차이 - 탐색적 데이터 분석(EDA)의 4가지 주제1. 저항성의 강조   - 데이터의 일부가 파손되었을 때 영향을 적게 받는 성질     예) 이상값에 민감한 평균보다 중앙값을 선호함2. 잔차 해석   - 잔차는 관찰 값들이 주 경향으로부터 얼마나 벗어났는지 알려주는 지표로, 이상치라 할 수..

빅데이터 탐색 - 통계기법이해(가설검정)

가설검정"~할 것이다"라는 잠정적인 주장(가설)에 대해 통계적인 방식으로 검정하는 것으로 통계적 가설검정이라 함(주로 모집단의 모수에 대해 설정) 1. 귀무가설과 대립가설1 귀무가설(H0) = 영가설 (기존에 알려진 사실)   - 차이가 없다, 서로 같다, 영향을 주지 않는다 등으로 설정 (일반적으로 = 사용) 2 대립가설(H1) = 연구가설 = 대안가설   - 차이가 있다, 같지 않다, 영향을 준다 등으로 설정 (일반적으로 ≠ 사용) ※ 가설검정은 귀무가설(H0)을 채택할 건지 기각할 건지 판단하는 과정 2. 가설 검정의 오류(1종 오류와 2종 오류)- 1종 오류(Type 1 error)   : 귀무가설(H0)이 참일 때 이를 기각하는 오류를 범할 확률   : 귀무가설(H0)이 참일 때 귀무가설을 기각..