데이터자격검정 38

빅데이터 모델링 - 분석기법적용 (다변량분석/시계열분석)

다변량 분석 주성분 분석(PCA, Principle Component Analysis)- 다수의 변수를 소수의 변수로 줄여준다(단, 해석은 어려움) -> 서로 상관성이 높은 변수들의 선형 결합을 통해- 소수의 변수는 서로 상관성이 없음(서로독립, 상관계수=0, 다중공선성 존재X)- 각 변수들의 분산값 총합을 총 변동이라고 하며, 각 주성분들마다 기여하는 정도를 기여율이라고 함  -> 누적 기여율이 85%가 넘어갈 때의 주성분 수를 결정함(첫 번째 주성분이 제일 기여율 높음)  스크리 산점도(Scree plot)- 주성분 분석에서는 기울기가 급격히 변하는 곳에서 -1을 한다- 3에서 기울기가 급격히 변하므로 적절한 주성분의 수는 3-1=2이다(2개의 변수만 선택, PC1과 PC2)  시계열 분석1. 정상성..

빅데이터 모델링 - 분석기법적용 (연관분석)

연관분석(비지도학습) 설명- 장바구니 분석이라고도 함- if(조건)-then(반응)으로 이루어져 있음- 물건배열, 카탈로그, 교차판매 등에 활용 장단점- 장점 : 분석결과 쉽게 이해 가능, 사용이 편리함- 단점 : 품목수가 증가하면 계산이 기하급수적으로 증가함  1세대 알고리즘(Apriori)개선 -> FP-Growth 알고리즘 연관규칙 측도1. 지지도(Support) : 전체 거래 중, A와 B가 동시에 포함된 거래 비율 2. 신뢰도(Confidence) : 항목 A를 포함한 거래 중, A와 B가 동시에 포함된 거래 비율 3. 향상도(lift) : 품목 B를 구매한 고객대비 품목 A를 구매하고 품목 B를 구매하는 고객에 대한 확률 * 향상도 1 : 두 품목 간에 연관성이 없음(A와 B가 서로 독립)  ..

빅데이터 모델링 - 분석기법적용 (군집분석)

군집분석(비지도학습) 계층적 군집(군집개수 미리지정(X), 군집간 거리척도/연결법)합병형(Agglomerative) "Bottom-up"- 단일(최단)연결법- 완전(최장)연결법- 평균연결법- 중심연결법- 와드연결법 분리형(Divisive) "Top-down"- 다이아나 방법 비계층적(분할적) 군집(군집개수 미리지정(O))프로토타입 기반- K-중심군집 * K-평균군집 * K-중앙값군집 * K-메도이드군집 분포기반- 혼합분포군집 밀도기반- DBSCAN(군집수 미리지정(X)) 기타- SOM(자기조직화지도) #밀도기반군집 - 임의적인 모양의 군집#SOM(자기조직화지도) - kohenen map이라고도 부름  - 전방패스 알고리즘  - 고차원 데이터를 저차원의 지도 형태로 형상화  - 변수위치관계 보존  - 경쟁..

빅데이터 모델링 - 분석기법적용 (인공신경망/딥러닝 함수)

인공신경망 - 딥러닝(지도(회귀,분류)/비지도학습/패턴인식) 인공지능, 머신러닝, 딥러닝 관계  인공신경망 : 사람의 신경망을 모방 딥러닝의 대표적인 종류1. CNN(Convolution Neural Network)- 이미지 데이터 처리에 특화, 필터(커널)를 학습 2.RNN(Recurrent Neural Network)- 순차적인(sequence) 데이터 처리에 특화- 자연어 처리(번역기, 챗봇 등) 3. LSTM(Long Short Term Memory)- RNN의 장기의존성 문제(기울기 소실 문제)를 해결하기 위해 등장(은닉층의 과거 정보가 마지막까지 전달되지 못함)- Cell state 사용해서 장기적으로 기억할 정보를 조절 4. Autoencoder(오토인코더) - 비지도학습- 인코더&디코더 구..

빅데이터 모델링 - 분석기법적용 (의사결정나무/앙상블모형/K-NN)

의사결정나무(지도학습/ 회귀,분류)  Decision Tree(DT)- 회귀일때(Y연속형) 분리기준 : 분산분석 F-통계량 p값, 분산의 감소량- 분류일때(Y범주형) 분리기준 : 카이제곱 통계량 p값, 지니지수, 엔트로피지수#대표적인 DT 알고리즘 CART 특징 : 지니지수(Y범주), 분산의 감소량 사용(Y연속) - 장점 : 의사결정나무 시각화시 직관적 이해쉬움, 비선형분석 가능, 비모수적(가정 불필요)- 단점 : 노이즈에 영향을 크게 받음, 성능이 그리 좋지 않음  앙상블(Ensemble) : 여러가지 모형들을 만든 후에, 하나의 최종 결론을 내는 방법- 장점 : 성능이 좋음, 일반화 성능 굿 ex) 여러가지 의사결정나무를 만든 다음 투표를 시킴. 다수결원칙(하드보팅) 또는 특정 클래스로 분류될 확률을..

빅데이터 모델링 - 분석기법적용 (Logistic Regression / SVM)

지도학습 - 분류(Y:범주형) 로지스틱 회귀분석 (지도학습/분류)- 종속변수(Y) 가 범주형인 경우 사용, 이진분류(0 아니면 1로 분류)- 시그모이드 함수(S자형 곡선) : Y가 1일 확률값을 구해준다(0~1 사이 값)  * 임계값은 보통 p=0.5  * 확률값이 0.5보다 크면 1로 분류, 그렇지 않으면 0으로 분류   지도학습 - 회귀/분류 서포트 벡터 머신(지도학습/ 회귀,분류)  Support Vector Machine(SVM)- 데이터 세트를 분할하기 위한 최상의 초평면(Hyperplane)을 구함- 특징 : 비선형 데이터 분류시 커널 함수를 통해 다른차원(차원증가)으로 맵핑하여 해결            성능이 좋으나 하이퍼파라미터(초매개변수) 영향을 많이 받는다.            계산량이..

빅데이터 모델링 - 분석기법적용 (회귀분석/다중회귀분석)

지도학습 - 회귀(Y:연속형)회귀분석- 독립변수(X)가 종속변수(Y)에 어떻게 영향을 주는지 식으로 표현한 것, Y = 𝜷𝟎 + 𝜷𝟏X- 특징 : 식을 보고 설명이 가능함, 가장 적은 수의 X로 Y를 예측할 수 있어야 함수식으로 표현하면판매수 = 𝜷𝟎 + 𝜷𝟏온도Y = 𝜷𝟎 + 𝜷𝟏X  값이 최소가 되는 최적의 𝜷𝟎, 𝜷𝟏를 구하면 된다. -> 최소제곱법이라고 부름#RSS : Residual Sum of Squares 회귀분석의 가정1. 선형성 : 독립변수(X)와 종속변수(Y) 간의 선형성 2. 잔차의 3가지 가정(등분산성, 정규성, 독립성)  - 등분산성 : 산점도  - 정규성 : H0(귀무가설) : 정규분포를 따른다                  H1(대립가설) : not..

빅데이터 모델링 - 분석모형 설계

기계학습(머신러닝)지도학습 회귀 : 선형회귀분류 : 로지스틱회귀/ 판별분석/ 나이브베이즈회귀/분류 모두 가능 : 의사결정나무/ 랜덤포레스트/ K-NN/ SVM(서포트벡터머신)/ 인공신경망/ 앙상블(배깅,부스팅) 비지도학습 군집화 : 계층적(최단/최장/평균/와드)/ 비계층적(K-means등) #군집개수 정하면 비계층적차원축소 : 주성분분석(PCA)연관규칙자기조직화지도(SOM) 강화학습Q-러닝 분석모형설계데이터분할1) 하는 이유 : 분석 모델의 일반화 성능을 좋게!(과적합X)  - 일반화 성능 : 훈련모델의 실제 사용시 성능  - 과적합(Overfitting) : 학습(Train) 데이터를 과하게 학습하여 평가(Test) 데이터 입력시 성능이 떨어지는 것 2) 데이터 설명Train(훈련) : 알고리즘 학습V..