빅데이터분석기사 46

빅데이터 모델링 - 분석기법적용 (군집분석)

군집분석(비지도학습) 계층적 군집(군집개수 미리지정(X), 군집간 거리척도/연결법)합병형(Agglomerative) "Bottom-up"- 단일(최단)연결법- 완전(최장)연결법- 평균연결법- 중심연결법- 와드연결법 분리형(Divisive) "Top-down"- 다이아나 방법 비계층적(분할적) 군집(군집개수 미리지정(O))프로토타입 기반- K-중심군집 * K-평균군집 * K-중앙값군집 * K-메도이드군집 분포기반- 혼합분포군집 밀도기반- DBSCAN(군집수 미리지정(X)) 기타- SOM(자기조직화지도) #밀도기반군집 - 임의적인 모양의 군집#SOM(자기조직화지도) - kohenen map이라고도 부름  - 전방패스 알고리즘  - 고차원 데이터를 저차원의 지도 형태로 형상화  - 변수위치관계 보존  - 경쟁..

빅데이터 모델링 - 분석기법적용 (인공신경망/딥러닝 함수)

인공신경망 - 딥러닝(지도(회귀,분류)/비지도학습/패턴인식) 인공지능, 머신러닝, 딥러닝 관계  인공신경망 : 사람의 신경망을 모방 딥러닝의 대표적인 종류1. CNN(Convolution Neural Network)- 이미지 데이터 처리에 특화, 필터(커널)를 학습 2.RNN(Recurrent Neural Network)- 순차적인(sequence) 데이터 처리에 특화- 자연어 처리(번역기, 챗봇 등) 3. LSTM(Long Short Term Memory)- RNN의 장기의존성 문제(기울기 소실 문제)를 해결하기 위해 등장(은닉층의 과거 정보가 마지막까지 전달되지 못함)- Cell state 사용해서 장기적으로 기억할 정보를 조절 4. Autoencoder(오토인코더) - 비지도학습- 인코더&디코더 구..

빅데이터 모델링 - 분석기법적용 (의사결정나무/앙상블모형/K-NN)

의사결정나무(지도학습/ 회귀,분류)  Decision Tree(DT)- 회귀일때(Y연속형) 분리기준 : 분산분석 F-통계량 p값, 분산의 감소량- 분류일때(Y범주형) 분리기준 : 카이제곱 통계량 p값, 지니지수, 엔트로피지수#대표적인 DT 알고리즘 CART 특징 : 지니지수(Y범주), 분산의 감소량 사용(Y연속) - 장점 : 의사결정나무 시각화시 직관적 이해쉬움, 비선형분석 가능, 비모수적(가정 불필요)- 단점 : 노이즈에 영향을 크게 받음, 성능이 그리 좋지 않음  앙상블(Ensemble) : 여러가지 모형들을 만든 후에, 하나의 최종 결론을 내는 방법- 장점 : 성능이 좋음, 일반화 성능 굿 ex) 여러가지 의사결정나무를 만든 다음 투표를 시킴. 다수결원칙(하드보팅) 또는 특정 클래스로 분류될 확률을..

빅데이터 모델링 - 분석기법적용 (Logistic Regression / SVM)

지도학습 - 분류(Y:범주형) 로지스틱 회귀분석 (지도학습/분류)- 종속변수(Y) 가 범주형인 경우 사용, 이진분류(0 아니면 1로 분류)- 시그모이드 함수(S자형 곡선) : Y가 1일 확률값을 구해준다(0~1 사이 값)  * 임계값은 보통 p=0.5  * 확률값이 0.5보다 크면 1로 분류, 그렇지 않으면 0으로 분류   지도학습 - 회귀/분류 서포트 벡터 머신(지도학습/ 회귀,분류)  Support Vector Machine(SVM)- 데이터 세트를 분할하기 위한 최상의 초평면(Hyperplane)을 구함- 특징 : 비선형 데이터 분류시 커널 함수를 통해 다른차원(차원증가)으로 맵핑하여 해결            성능이 좋으나 하이퍼파라미터(초매개변수) 영향을 많이 받는다.            계산량이..

빅데이터 모델링 - 분석기법적용 (회귀분석/다중회귀분석)

지도학습 - 회귀(Y:연속형)회귀분석- 독립변수(X)가 종속변수(Y)에 어떻게 영향을 주는지 식으로 표현한 것, Y = 𝜷𝟎 + 𝜷𝟏X- 특징 : 식을 보고 설명이 가능함, 가장 적은 수의 X로 Y를 예측할 수 있어야 함수식으로 표현하면판매수 = 𝜷𝟎 + 𝜷𝟏온도Y = 𝜷𝟎 + 𝜷𝟏X  값이 최소가 되는 최적의 𝜷𝟎, 𝜷𝟏를 구하면 된다. -> 최소제곱법이라고 부름#RSS : Residual Sum of Squares 회귀분석의 가정1. 선형성 : 독립변수(X)와 종속변수(Y) 간의 선형성 2. 잔차의 3가지 가정(등분산성, 정규성, 독립성)  - 등분산성 : 산점도  - 정규성 : H0(귀무가설) : 정규분포를 따른다                  H1(대립가설) : not..

빅데이터 모델링 - 분석모형 설계

기계학습(머신러닝)지도학습 회귀 : 선형회귀분류 : 로지스틱회귀/ 판별분석/ 나이브베이즈회귀/분류 모두 가능 : 의사결정나무/ 랜덤포레스트/ K-NN/ SVM(서포트벡터머신)/ 인공신경망/ 앙상블(배깅,부스팅) 비지도학습 군집화 : 계층적(최단/최장/평균/와드)/ 비계층적(K-means등) #군집개수 정하면 비계층적차원축소 : 주성분분석(PCA)연관규칙자기조직화지도(SOM) 강화학습Q-러닝 분석모형설계데이터분할1) 하는 이유 : 분석 모델의 일반화 성능을 좋게!(과적합X)  - 일반화 성능 : 훈련모델의 실제 사용시 성능  - 과적합(Overfitting) : 학습(Train) 데이터를 과하게 학습하여 평가(Test) 데이터 입력시 성능이 떨어지는 것 2) 데이터 설명Train(훈련) : 알고리즘 학습V..