분류 전체보기 196

빅데이터 결과해석 - 분석모형평가(분류성능 ROC curve)

ROC curve AUC(Area Under the Curve): ROC 커브의 아래쪽 면적을 뜻함0.5~1.0 값을 가지며 1로 갈수록 분류성능이 좋음0.9~1.0 : 뛰어남(Excellent)0.8~0.9 : 우수함(Good)0.7~0.8 : 보통(Fair)0.6~0.7 : 불량(Poor)0.5~0.6 : 실패(Fail) #가장 이상적인 ROC 커브는 민감도1, 특이도1인 점을 지난다.# x축은 거짓긍정률 : FPR(False Positive Rate) = 1-특이도# y축은 참긍정률 : TPR(True Positive Rate) = 민감도(Sensitivity) = 재현율(Recall)

빅데이터 결과해석 - 분석모형평가(분류성능)

분류성능  이진분류(0 or 1)에서 나올 수 있는 경우의 수 : 4가지 혼동행렬(Confusion matrix)TP : True Positive (예측 Positive, 실제 Positive)FP : False Positive (예측 Positive, 실제 Negative)TN : True Negative (예측 Negative, 실제 Negative)FN : False Negative (예측 Negative, 실제 Positive) ★Tips!1. 예측/실제, Positive/Negative 위치 확인2. 예측기준으로 4가지(TP,TN,FP,FN) 항목 위치 표기3. 각각의 지표 정의 그대로 계산하기 여러가지 지표들! 정의를 암기할 것!1. 정확도(Accuracy) : 전체 중에 잘 분류한 비율 (T..

빅데이터 결과해석 - 분석모형평가(회귀성능)

회귀성능    실제값(y)과 예측값(ŷ)의 차이를 계산하여 성능을 측정 1. MSE(Mean Squared Error) 평균제곱오차  2. RMSE(Root MSE) 평균제곱근오차  3. MAE(Mean Absolute Error) 평균절대오차  4. MAPE(Mean Absolute Percentage Error) 평균절대백분율오차서로 오차의 크기가 다른 모델을 서로 비교할때 백분율로 A라는 모델과 B라는 모델을 나타낼 수 있다. 두 모델을 비교하는데 사용%로 표기 하기 때문에 오차의 크기가 다른 모델을 서로 비교 가능함 5.  R^2(결정계수)- 회귀모형의 설명력(총 변동 중에 회귀모형이 설명 가능한 변동, SSR/SST = 1-(SSE/SST))- 0~1 사이의 값을 가지며 값이 클수록 성능이 좋음..

빅데이터 모델링 - 분석기법적용 (다변량분석/시계열분석)

다변량 분석 주성분 분석(PCA, Principle Component Analysis)- 다수의 변수를 소수의 변수로 줄여준다(단, 해석은 어려움) -> 서로 상관성이 높은 변수들의 선형 결합을 통해- 소수의 변수는 서로 상관성이 없음(서로독립, 상관계수=0, 다중공선성 존재X)- 각 변수들의 분산값 총합을 총 변동이라고 하며, 각 주성분들마다 기여하는 정도를 기여율이라고 함  -> 누적 기여율이 85%가 넘어갈 때의 주성분 수를 결정함(첫 번째 주성분이 제일 기여율 높음)  스크리 산점도(Scree plot)- 주성분 분석에서는 기울기가 급격히 변하는 곳에서 -1을 한다- 3에서 기울기가 급격히 변하므로 적절한 주성분의 수는 3-1=2이다(2개의 변수만 선택, PC1과 PC2)  시계열 분석1. 정상성..

빅데이터 모델링 - 분석기법적용 (연관분석)

연관분석(비지도학습) 설명- 장바구니 분석이라고도 함- if(조건)-then(반응)으로 이루어져 있음- 물건배열, 카탈로그, 교차판매 등에 활용 장단점- 장점 : 분석결과 쉽게 이해 가능, 사용이 편리함- 단점 : 품목수가 증가하면 계산이 기하급수적으로 증가함  1세대 알고리즘(Apriori)개선 -> FP-Growth 알고리즘 연관규칙 측도1. 지지도(Support) : 전체 거래 중, A와 B가 동시에 포함된 거래 비율 2. 신뢰도(Confidence) : 항목 A를 포함한 거래 중, A와 B가 동시에 포함된 거래 비율 3. 향상도(lift) : 품목 B를 구매한 고객대비 품목 A를 구매하고 품목 B를 구매하는 고객에 대한 확률 * 향상도 1 : 두 품목 간에 연관성이 없음(A와 B가 서로 독립)  ..

빅데이터 모델링 - 분석기법적용 (군집분석)

군집분석(비지도학습) 계층적 군집(군집개수 미리지정(X), 군집간 거리척도/연결법)합병형(Agglomerative) "Bottom-up"- 단일(최단)연결법- 완전(최장)연결법- 평균연결법- 중심연결법- 와드연결법 분리형(Divisive) "Top-down"- 다이아나 방법 비계층적(분할적) 군집(군집개수 미리지정(O))프로토타입 기반- K-중심군집 * K-평균군집 * K-중앙값군집 * K-메도이드군집 분포기반- 혼합분포군집 밀도기반- DBSCAN(군집수 미리지정(X)) 기타- SOM(자기조직화지도) #밀도기반군집 - 임의적인 모양의 군집#SOM(자기조직화지도) - kohenen map이라고도 부름  - 전방패스 알고리즘  - 고차원 데이터를 저차원의 지도 형태로 형상화  - 변수위치관계 보존  - 경쟁..

빅데이터 모델링 - 분석기법적용 (인공신경망/딥러닝 함수)

인공신경망 - 딥러닝(지도(회귀,분류)/비지도학습/패턴인식) 인공지능, 머신러닝, 딥러닝 관계  인공신경망 : 사람의 신경망을 모방 딥러닝의 대표적인 종류1. CNN(Convolution Neural Network)- 이미지 데이터 처리에 특화, 필터(커널)를 학습 2.RNN(Recurrent Neural Network)- 순차적인(sequence) 데이터 처리에 특화- 자연어 처리(번역기, 챗봇 등) 3. LSTM(Long Short Term Memory)- RNN의 장기의존성 문제(기울기 소실 문제)를 해결하기 위해 등장(은닉층의 과거 정보가 마지막까지 전달되지 못함)- Cell state 사용해서 장기적으로 기억할 정보를 조절 4. Autoencoder(오토인코더) - 비지도학습- 인코더&디코더 구..

빅데이터 모델링 - 분석기법적용 (의사결정나무/앙상블모형/K-NN)

의사결정나무(지도학습/ 회귀,분류)  Decision Tree(DT)- 회귀일때(Y연속형) 분리기준 : 분산분석 F-통계량 p값, 분산의 감소량- 분류일때(Y범주형) 분리기준 : 카이제곱 통계량 p값, 지니지수, 엔트로피지수#대표적인 DT 알고리즘 CART 특징 : 지니지수(Y범주), 분산의 감소량 사용(Y연속) - 장점 : 의사결정나무 시각화시 직관적 이해쉬움, 비선형분석 가능, 비모수적(가정 불필요)- 단점 : 노이즈에 영향을 크게 받음, 성능이 그리 좋지 않음  앙상블(Ensemble) : 여러가지 모형들을 만든 후에, 하나의 최종 결론을 내는 방법- 장점 : 성능이 좋음, 일반화 성능 굿 ex) 여러가지 의사결정나무를 만든 다음 투표를 시킴. 다수결원칙(하드보팅) 또는 특정 클래스로 분류될 확률을..

빅데이터 모델링 - 분석기법적용 (Logistic Regression / SVM)

지도학습 - 분류(Y:범주형) 로지스틱 회귀분석 (지도학습/분류)- 종속변수(Y) 가 범주형인 경우 사용, 이진분류(0 아니면 1로 분류)- 시그모이드 함수(S자형 곡선) : Y가 1일 확률값을 구해준다(0~1 사이 값)  * 임계값은 보통 p=0.5  * 확률값이 0.5보다 크면 1로 분류, 그렇지 않으면 0으로 분류   지도학습 - 회귀/분류 서포트 벡터 머신(지도학습/ 회귀,분류)  Support Vector Machine(SVM)- 데이터 세트를 분할하기 위한 최상의 초평면(Hyperplane)을 구함- 특징 : 비선형 데이터 분류시 커널 함수를 통해 다른차원(차원증가)으로 맵핑하여 해결            성능이 좋으나 하이퍼파라미터(초매개변수) 영향을 많이 받는다.            계산량이..