전체 글 152

빅데이터 분석기획 - 데이터수집 및 저장계획

데이터 수집 및 전환 1. 데이터 수집★ 데이터 유형에 따른 빅데이터 수집기법(★) - 종류 꼭 기억해두기!1. 정형데이터2. 반정형데이터3. 비정형데이터  2. 데이터 변환- ETL : DW, DM에 저장하기 위해 Extract(추출), Transform(변환), Load(적재) 하는 기술           데이터 이동 및 변환이 주 목적임  3. 데이터 비식별화- 5가지 처리기법 및 예시까지 외우기!(★)  4. 데이터 품질검증정형데이터의 품질기준(5가지 암기!)1. 완전성 : 데이터 누락이 없어야 함2. 유일성 : 데이터 중복이 없어야 함3. 유효성 : 정해진 데이터 범위 혹은 도메인을 만족해야 함4. 일관성 : 데이터 구조, 형태가 일관되어야 함5. 정확성 : 실제 객체의 표현값을 정확히 반영해야..

빅데이터 분석기획 - 데이터 분석 계획

분석방안 수립 1. 분석의 기획최적화(Optimization)- 대상/방법을 알고 있기 때문에 문제를 최적화인사이트(Insight)- 대상을 모르고 방법은 알고 있는 상태로 인사이트를 얻을 수 있음솔루션(Solution)- 대상은 알고 방법은 모르기 때문에 솔루션을 찾아 분석을 수행함탐색(Discovery)- 대상/방법 둘 다 모르기 때문에 탐색을 통해 분석대상을 찾아야 함  ※ 분석 거버넌스 체계: 데이터 분석 업무를 고도화 하기 위해서는 데이터 분석 및 활용이 가능할 수 있도록 체계적인 관리가 중요함 구성요소1. Organization(분석기획/관리 수행조직)2. Process(과제기획 및 운영 프로세스)3. System(데이터분석 관련 시스템)4. Data5. Human Resource(교육/마인드..

빅데이터 분석기획 - 빅데이터의 이해

빅데이터 개요 및 활용 1. 빅데이터 : 대용량의 자료(정형/비정형 데이터) -> + 데이터에서 가치 추출/의사결정에 활용 2. 빅데이터 3V(7V) 특징 - 가트너 그룹 3. 정형/반정형/비정형 데이터 특징(★) 4. 정성적/정량적 데이터  ※ 참고사항 : 데이터 바이트 크기  5. 암묵지와 형식지※ 암묵지와 형식지의 상호 작용  - 내면화(형식지->암묵지) : 문서를 개인의 지식으로  - 공통화(암묵지->암묵지) : 개인->조직으로 지식공유  - 표출화(암묵지->형식지) : 지식을 문서화  - 연결화(형식지->형식지) : 형식지를 결합하여 새로운 지식 생성 6. DIKW 피라미드 : 데이터-정보-지식을 통해 최종 지혜를 찾아가는 과정- Wisdom(지혜) : A마트가 다른 상품들도 쌀 것이라고 판단-..

빅데이터 탐색 - 데이터전처리(분석변수처리)

분석 변수 처리 3. 파생변수   1 파생변수 : 분석가가 주관적으로 만든 변수(의미부여) -> 주관적으로 만든 변수이기 때문에 논리적으로 타당해야 함   2 요약변수 : 합계, 횟수, 빈도 등의 기본적인 요약 변수, 많은 모델에서 공통으로 사용할 수 있어 재활용성이 높음 4. 변수변환   1 변수의 구간화 : 연속형 변수를 다수의 구간으로 나눔(구간=변수가 된다)       - ex) 점수 70~100점 -> 1등급 : 90~100점                                             2등급 : 80~89점                                             3등급 : 70~79점    2 더미변수(Dummy Variable)    3 원-핫 인코딩..

빅데이터 탐색 - 데이터전처리(차원축소/피처 추출방법)

2. 차원축소 : 변수의 개수를 줄여서 새로운 차원의 데이터를 생성   * 선형모델(회귀분석 등) 변수의 개수가 많을 경우 다중공선성 발생 -> 차원축소가 하나의 해결책   1 피처선택(Feature Selection) = 변수선택      - 여러 변수들 중에 학습에 중요한 변수를 찾아 선택하는 것   2 피처추출(Feature Extraction) = 변수추출      - 기존 변수들 간의 관계를 파악해서 선형 or 비선형 결합을 통해 새로운 변수를 생성 피처추출(Feature Extraction) 방법다차원 척도법(MDS, Multidimensional scaling)- 개체들 사이의 유사성을 기준으로 2차원, 3차원으로 시각화 주성분 분석(PCA)- 변수의 선형 결합을 통해 데이터를 잘 표현할 수..

빅데이터 탐색 - 데이터전처리(데이터축소변환/분석변수처리)

데이터 축소 : 변수선택, 요약변수 생성하여 데이터의 차원을 줄임 데이터 변환 : 변수값에 대한 표준화, 정규화, 데이터의 형식 변환을 통해 알고리즘에 입력할 수 있는 형태로 변환 1. Data Scaling   1 표준화(Standardization) = Z score 표준화 -> 평균이 0, 표준편차가 1인 분포로 만든다.    2 정규화(Min-Max 정규화) -> 데이터의 범위를 0과 1사이로 변환 2. 평활화(Smoothing)- 데이터에 있는 노이즈를 처리하기 위한 방법(거칠게 분포된 데이터를 매끄럽게 만들어줌)  분석변수처리- 변수(Variable) = 피처(Feature)  X = 독립변수 = 설명변수 = 예측변수  Y = 종속변수 = 반응변수 = target - 이산형 변수(명목, 순서)..

빅데이터 탐색 - 데이터전처리(이상값 처리방법)

2. 이상값(Outlier) 처리   1) 이상값 : 일반적으로 특정 범위에서 많이 벗어난 값       * 분석할 필요없이 삭제나 대체 : Bad data       * 분석할 필요가 있는 경우는 원인파악 : fraud(불량)       * 무작정 삭제하면 안된다. 원인을 파악하고 제거할지 대체할지 결정해야 함    2) 원인 : 입력 / 측정 / 실험오류 / 표본추출 오류 / 고의적인 이상값    3) 확인방법       1 상자그림 활용 : Q1 - 1.5*IQR        2 ESD(Extreme Studentized Deviation)           * 평균에서 3표준편차 떨어진 값 μ –3σ        3 회귀분석 진단의 레버리지(Leverage) : 이상값 및 영향값 확인       ..

빅데이터 탐색 - 데이터전처리(데이터전처리)

데이터 전처리: 좋은 데이터가 좋은 성능을 낸다.: 분석과정에서 대부분의 시간을 차지한다. ※ 데이터 전처리 주요작업(암기!)1. 데이터 정제 : 결측치/이상치 파악하여 제거 or 대체2. 데이터 통합 : 여러 데이터 병합, 통합하여 데이터셋 생성(중복 데이터 해결할 것!)3. 데이터 축소 : 변수선택, 요약변수 생성하여 데이터의 차원을 줄임4. 데이터 변환 : 변수값에 대한 표준화, 정규화, 데이터의 형식 변환을 통해 알고리즘에 입력할 수 있는 형태로 변환 데이터 정제(Data Cleaning)- 정의 : 오류 데이터값을 정확한 데이터로 수정하거나 삭제하는 과정(결측치/ 이상치(노이즈) 파악하여 제거 or 대체)- 순서 : 데이터 오류 원인 분석 -> 정제 대상 선정 -> 정제 방법 결정 1. 결측값(..

빅데이터 탐색 - 데이터탐색(데이터탐색 기초/고급 데이터탐색)

4. 시각적 데이터 탐색 1. 줄기-잎 그림 : 각 구간 내의 자료 분포에 대해 정확한 정보를 알 수 있음   * 자료 요약에 따른 정보 손실이 없음 2. 히스토그램 : 각 구간의 관측도수를 기둥 형태로 표현  * 최대, 최소값 알 수 없음, 정보의 손실 발생  고급 데이터 탐색(4과목 중복내용)1. 시공간 데이터 탐색2. 다변량 데이터 탐색(여러 변수들 간의 관계를 파악)   - 산점도 행렬(상관관계 확인)   - 다차원척도법   - 피벗테이블   - 레이더차트   - 평행좌표 그래프   - 체르노프페이스   - 트리맵   - 모자이크 plot   - 선버스트 차트 #추가 말문장- 상관분석 시 p-value 값은 상관관계 유무를, 상관계수는 상관관계 정도를 나타낸다.

빅데이터 탐색 - 데이터탐색(피어슨상관계수/상자그림 이해하기)

※ 피어슨 상관계수의 유의성 검정(가설검정)1. 가설설정  - 귀무가설(H0) : 상관계수가 0이다(상관관계가 없다)  - 대립가설(H1) : 상관계수가 0이 아니다(상관관계가 있다)2. 판단(t-분포 활용)  - 유의수준 5% 하에서 p-value값이 0.05보다 크면 귀무가설 채택                                      p-value값이 0.05보다 작으면 귀무가설 기각즉, 상관관계가 있으려면 p-value값이 0.05보다 작아야 함  3. 기초 통계량 추출 및 이해 ※ 상자그림(Box plot)의 이해 - 왜도, 사분위수, 상자그림, 평균, 중앙값, 최빈값과의 관계