[데이터자격시험용-필수요약정리] 44

빅데이터 결과해석 - 분석모형평가(분석모형진단)

회귀모형 진단 1. 회귀모형에 대한 진단- 회귀모형 : F검정, p-value가 0.05보다 작아야 함(유의확률   H0(귀무가설) : 회귀계수(𝛽i) 는 0이다- 회귀계수 : t검정, p-value가 0.05보다 작아야 함(유의확률   H0(귀무가설) : i번째 회귀계수는 0이다 2. 잔차에 대한 가정 : 정규성 / 등분산성 / 독립성[잔차의 등분산성 예시] - 잔차에 대해서 산점도로 그려봤을때 X에 따라서 분산이 경향을 띄는 것이 아니라 0을 기준으로 위아래로 고르게 분포되어 있는 것 복습) 회귀분석의 가정1. 선형성 : 독립변수(X)와 종속변수(Y)간의 선형성2. 잔차의 3가지 가정(등분산성, 정규성, 독립성)   a. 등분산성 : 산점도   b. 정규성       - H0(귀무가설) : 정규분포..

빅데이터 결과해석 - 분석모형평가(군집분석 및 기타 성능지표)

군집분석 평가지표 군집 내 데이터는 거리가 짧아야 하고, 군집 간 거리는 멀어야 함- 던지수 : (군집간 거리의 최소값) / (군집 내 거리의 최대값), 값이 클수록 좋음- 실루엣 계수는 -1~1 값을 가지며 1에 가까울수록 좋은 군집 모형 카파 상관계수- 두 평가자의 결과값이 일치하는지에 대한 척도로 개발되었다- 0~1사이 값을 가지며 1에 가까울수록 모델의 성능이 좋다고 할 수 있다- 모델의 예측값과 실제값이 얼마나 일치하는지 확인할 수 있는 지표이다- 모형의 평가결과가 우연히 나온 결과가 아니라는 것을 보여주는 지표이다- 범주형 데이터에 사용- k값에 따라(0~1사이 값)   0.8~1.0 : 매우 높은 일치   0.6~0.8 : 높은 일치   0.4~0.6 : 보통 일치   0.2~0.4 : 어느..

빅데이터 결과해석 - 분석모형평가(분류성능 ROC curve)

ROC curve AUC(Area Under the Curve): ROC 커브의 아래쪽 면적을 뜻함0.5~1.0 값을 가지며 1로 갈수록 분류성능이 좋음0.9~1.0 : 뛰어남(Excellent)0.8~0.9 : 우수함(Good)0.7~0.8 : 보통(Fair)0.6~0.7 : 불량(Poor)0.5~0.6 : 실패(Fail) #가장 이상적인 ROC 커브는 민감도1, 특이도1인 점을 지난다.# x축은 거짓긍정률 : FPR(False Positive Rate) = 1-특이도# y축은 참긍정률 : TPR(True Positive Rate) = 민감도(Sensitivity) = 재현율(Recall)

빅데이터 결과해석 - 분석모형평가(분류성능)

분류성능  이진분류(0 or 1)에서 나올 수 있는 경우의 수 : 4가지 혼동행렬(Confusion matrix)TP : True Positive (예측 Positive, 실제 Positive)FP : False Positive (예측 Positive, 실제 Negative)TN : True Negative (예측 Negative, 실제 Negative)FN : False Negative (예측 Negative, 실제 Positive) ★Tips!1. 예측/실제, Positive/Negative 위치 확인2. 예측기준으로 4가지(TP,TN,FP,FN) 항목 위치 표기3. 각각의 지표 정의 그대로 계산하기 여러가지 지표들! 정의를 암기할 것!1. 정확도(Accuracy) : 전체 중에 잘 분류한 비율 (T..

빅데이터 결과해석 - 분석모형평가(회귀성능)

회귀성능    실제값(y)과 예측값(ŷ)의 차이를 계산하여 성능을 측정 1. MSE(Mean Squared Error) 평균제곱오차  2. RMSE(Root MSE) 평균제곱근오차  3. MAE(Mean Absolute Error) 평균절대오차  4. MAPE(Mean Absolute Percentage Error) 평균절대백분율오차서로 오차의 크기가 다른 모델을 서로 비교할때 백분율로 A라는 모델과 B라는 모델을 나타낼 수 있다. 두 모델을 비교하는데 사용%로 표기 하기 때문에 오차의 크기가 다른 모델을 서로 비교 가능함 5.  R^2(결정계수)- 회귀모형의 설명력(총 변동 중에 회귀모형이 설명 가능한 변동, SSR/SST = 1-(SSE/SST))- 0~1 사이의 값을 가지며 값이 클수록 성능이 좋음..

빅데이터 모델링 - 분석기법적용 (다변량분석/시계열분석)

다변량 분석 주성분 분석(PCA, Principle Component Analysis)- 다수의 변수를 소수의 변수로 줄여준다(단, 해석은 어려움) -> 서로 상관성이 높은 변수들의 선형 결합을 통해- 소수의 변수는 서로 상관성이 없음(서로독립, 상관계수=0, 다중공선성 존재X)- 각 변수들의 분산값 총합을 총 변동이라고 하며, 각 주성분들마다 기여하는 정도를 기여율이라고 함  -> 누적 기여율이 85%가 넘어갈 때의 주성분 수를 결정함(첫 번째 주성분이 제일 기여율 높음)  스크리 산점도(Scree plot)- 주성분 분석에서는 기울기가 급격히 변하는 곳에서 -1을 한다- 3에서 기울기가 급격히 변하므로 적절한 주성분의 수는 3-1=2이다(2개의 변수만 선택, PC1과 PC2)  시계열 분석1. 정상성..

빅데이터 모델링 - 분석기법적용 (연관분석)

연관분석(비지도학습) 설명- 장바구니 분석이라고도 함- if(조건)-then(반응)으로 이루어져 있음- 물건배열, 카탈로그, 교차판매 등에 활용 장단점- 장점 : 분석결과 쉽게 이해 가능, 사용이 편리함- 단점 : 품목수가 증가하면 계산이 기하급수적으로 증가함  1세대 알고리즘(Apriori)개선 -> FP-Growth 알고리즘 연관규칙 측도1. 지지도(Support) : 전체 거래 중, A와 B가 동시에 포함된 거래 비율 2. 신뢰도(Confidence) : 항목 A를 포함한 거래 중, A와 B가 동시에 포함된 거래 비율 3. 향상도(lift) : 품목 B를 구매한 고객대비 품목 A를 구매하고 품목 B를 구매하는 고객에 대한 확률 * 향상도 1 : 두 품목 간에 연관성이 없음(A와 B가 서로 독립)  ..

빅데이터 모델링 - 분석기법적용 (군집분석)

군집분석(비지도학습) 계층적 군집(군집개수 미리지정(X), 군집간 거리척도/연결법)합병형(Agglomerative) "Bottom-up"- 단일(최단)연결법- 완전(최장)연결법- 평균연결법- 중심연결법- 와드연결법 분리형(Divisive) "Top-down"- 다이아나 방법 비계층적(분할적) 군집(군집개수 미리지정(O))프로토타입 기반- K-중심군집 * K-평균군집 * K-중앙값군집 * K-메도이드군집 분포기반- 혼합분포군집 밀도기반- DBSCAN(군집수 미리지정(X)) 기타- SOM(자기조직화지도) #밀도기반군집 - 임의적인 모양의 군집#SOM(자기조직화지도) - kohenen map이라고도 부름  - 전방패스 알고리즘  - 고차원 데이터를 저차원의 지도 형태로 형상화  - 변수위치관계 보존  - 경쟁..

빅데이터 모델링 - 분석기법적용 (인공신경망/딥러닝 함수)

인공신경망 - 딥러닝(지도(회귀,분류)/비지도학습/패턴인식) 인공지능, 머신러닝, 딥러닝 관계  인공신경망 : 사람의 신경망을 모방 딥러닝의 대표적인 종류1. CNN(Convolution Neural Network)- 이미지 데이터 처리에 특화, 필터(커널)를 학습 2.RNN(Recurrent Neural Network)- 순차적인(sequence) 데이터 처리에 특화- 자연어 처리(번역기, 챗봇 등) 3. LSTM(Long Short Term Memory)- RNN의 장기의존성 문제(기울기 소실 문제)를 해결하기 위해 등장(은닉층의 과거 정보가 마지막까지 전달되지 못함)- Cell state 사용해서 장기적으로 기억할 정보를 조절 4. Autoencoder(오토인코더) - 비지도학습- 인코더&디코더 구..