ADsP 38

빅데이터 결과해석 - 분석결과해석 및 활용(분석결과해석, 분석결과활용)

분석결과 해석 1. 비즈니스 기여도 평가기법- 비즈니스 기여도 : 데이터분석 결과 활용을 통해 실질적으로 얻게 되는 효과- 평가기법   1) 총소유비용(TCO) : 하나의 자산을 획득하려 할 때 주어진 기간동안 모든 연관비용을 고려할 수 있도록 확인하기 위해사용   2) 투자대비효과(ROI) : 자본 투자대비 순 효과 비율   3) 순현재가치(NPV) : 특정 시점의 투자금액과 매출금액의 차이를 이자율까지 고려하여 계산한 값   4) 내부수익률(IRR) : 순현재가치를 "0"으로 만드는 할인율   5) 투자회수기간(PP) : 흑자 전환 시점   분석결과 활용 1. 분석결과 모니터링- 신규 분석 모델이 시스템에 도입되면 원하는 성능이 나오는지 모니터링 해야 함- 데이터의 수명은 유한함(여러 원인들에 의해 ..

빅데이터 결과해석 - 분석결과해석 및 활용(시각화)

1. 데이터 시각화(Data Visualization) : 데이터를 이해하기 쉽게 표현- 기능 : 설명, 탐색, 표현- 목적 : 정보전달, 설득하기 2. 시각화 절차 : 구조화 - 시각화 - 시각표현 3. 데이터 시각화 유형(★) : 시간/ 공간/ 관계/ 비교/ 분포/ 인포그래픽   1) 시간 시각화 : 시간에 따른 Trend 변화       - 이산형 : 막대/ 누적막대/ 점그래프       - 연속형 : 선그래프/ 영역차트/ 계단식차트    2) 공간 시각화 : 위도&경도 사용, 지도를 통해 경향과 차이를 표현       - 등치지역도, 등치선도(등치지역도 단점개선), 도트/버블맵, 카토그램(면적왜곡)   3) 관계 시각화 : 집단 간 상관관계, 연관성, 분포, 패턴 등을 찾음      - 산점도, ..

빅데이터 결과해석 - 분석모형개선(분석모형융합)

앙상블(Ensemble) : 여러가지 모형들을 만든 후에, 하나의 최종 결론을 내는 방법- 장점 : 성능이 좋음, 일반화 성능 굿 1) 배깅(bagging)- 붓스트랩으로 데이터셋 생성 -> 각 데이터셋마다 모델링 -> 투표해서 최종 값 결정* 붓스트랩 : 단순랜덤 복원추출(샘플에 한 번도 선택되지 않는 원데이터가 발생할 수 있음, 약 36.8% 숫자기억) 2) 부스팅(Boosting)- 예측력이 약한(weak) 모델에서 오류에 가중치를 줘서 더 좋은 모델로 발전시켜나감- 모델링 -> 오분류 데이터에 가중치 부여 -> 모델링 -> 오분류 데이터에 가중치 부여 순- 종류 : GBM, XGBoost, Adaboost, LightGBM(LGBM) 3) 랜덤포레스트(배깅 + 변수선택)- 다수의 의사결정나무를 랜..

빅데이터 결과해석 - 분석모형개선(매개변수 최적화)

1. 손실함수 : 모델의 예측값( ŷ )과 실제값(y)의 차이(오차) 2. 모델의 학습 목적 : 오차(손실함수)를 가장 작게 만드는 매개변수(가중치,편향)를 찾는 것 -> 매개변수 최적화 3. 매개변수 최적화 알고리즘(경사하강법 기반)* 경사하강법 : 손실함수의 기울기를 이용하여 손실함수가 최소가 되도록 매개변수 갱신 SGD- 데이터 전체를 한번에 학습(X), 부분을 무작위(확률적)로 학습(O)- 손실함수 기울기를 따라 조금씩 최적점으로 이동- 지그재그로 크게 변함, 최적점 근처에서 느림 Adagrad- 진행할수록 학습률 ↓- 처음에 학습률이 크고 최적점에 가까워지면 학습률 감소- 지그재그 움직임이 크게 줄어든다(효율적 움직임) Momentum(SGD + 속도) - 누적된 기울기 값에 의해 빠르게 최적점..

빅데이터 결과해석 - 분석모형평가(교차검증 & 분석모형개선-과적합방지)

교차검증 1. 홀드아웃- 계산량 적음, 단순함, 랜덤하게 학습/평가로 분할 2. k-fold 교차검증- k개의 집단으로 나누고 k-1개로 학습, 1개로 평가 3. LpOCV- 전체 N개에서 p개 선택, N-p개로 학습, p개로 평가  * 평가데이터 경우의 수 : nCp = n! / (n-p)!p! -> 비용/시간이 많이 든다4. LOOCV는 LpOCV에서 p=1인 경우 5. 붓스트랩 : 단순랜덤 복원추출- 학습데이터에 한번도 포함되지 않을 확률(약 36.8%)- 반대로 학습데이터에 포함될 확률(약 63.2%)   분석모형개선 - 과적합방지 1. 편향(Bias) : 예측값과 실제값의 차이-> 편향이 크면 오차가 크다 2. 분산(Variance) : 예측값들의 흩어진 정도-> 분산이 크면 예측값이 예측값의 ..

빅데이터 결과해석 - 분석모형평가(분석모형진단)

회귀모형 진단 1. 회귀모형에 대한 진단- 회귀모형 : F검정, p-value가 0.05보다 작아야 함(유의확률   H0(귀무가설) : 회귀계수(𝛽i) 는 0이다- 회귀계수 : t검정, p-value가 0.05보다 작아야 함(유의확률   H0(귀무가설) : i번째 회귀계수는 0이다 2. 잔차에 대한 가정 : 정규성 / 등분산성 / 독립성[잔차의 등분산성 예시] - 잔차에 대해서 산점도로 그려봤을때 X에 따라서 분산이 경향을 띄는 것이 아니라 0을 기준으로 위아래로 고르게 분포되어 있는 것 복습) 회귀분석의 가정1. 선형성 : 독립변수(X)와 종속변수(Y)간의 선형성2. 잔차의 3가지 가정(등분산성, 정규성, 독립성)   a. 등분산성 : 산점도   b. 정규성       - H0(귀무가설) : 정규분포..

빅데이터 결과해석 - 분석모형평가(군집분석 및 기타 성능지표)

군집분석 평가지표 군집 내 데이터는 거리가 짧아야 하고, 군집 간 거리는 멀어야 함- 던지수 : (군집간 거리의 최소값) / (군집 내 거리의 최대값), 값이 클수록 좋음- 실루엣 계수는 -1~1 값을 가지며 1에 가까울수록 좋은 군집 모형 카파 상관계수- 두 평가자의 결과값이 일치하는지에 대한 척도로 개발되었다- 0~1사이 값을 가지며 1에 가까울수록 모델의 성능이 좋다고 할 수 있다- 모델의 예측값과 실제값이 얼마나 일치하는지 확인할 수 있는 지표이다- 모형의 평가결과가 우연히 나온 결과가 아니라는 것을 보여주는 지표이다- 범주형 데이터에 사용- k값에 따라(0~1사이 값)   0.8~1.0 : 매우 높은 일치   0.6~0.8 : 높은 일치   0.4~0.6 : 보통 일치   0.2~0.4 : 어느..

빅데이터 결과해석 - 분석모형평가(분류성능 ROC curve)

ROC curve AUC(Area Under the Curve): ROC 커브의 아래쪽 면적을 뜻함0.5~1.0 값을 가지며 1로 갈수록 분류성능이 좋음0.9~1.0 : 뛰어남(Excellent)0.8~0.9 : 우수함(Good)0.7~0.8 : 보통(Fair)0.6~0.7 : 불량(Poor)0.5~0.6 : 실패(Fail) #가장 이상적인 ROC 커브는 민감도1, 특이도1인 점을 지난다.# x축은 거짓긍정률 : FPR(False Positive Rate) = 1-특이도# y축은 참긍정률 : TPR(True Positive Rate) = 민감도(Sensitivity) = 재현율(Recall)

빅데이터 결과해석 - 분석모형평가(분류성능)

분류성능  이진분류(0 or 1)에서 나올 수 있는 경우의 수 : 4가지 혼동행렬(Confusion matrix)TP : True Positive (예측 Positive, 실제 Positive)FP : False Positive (예측 Positive, 실제 Negative)TN : True Negative (예측 Negative, 실제 Negative)FN : False Negative (예측 Negative, 실제 Positive) ★Tips!1. 예측/실제, Positive/Negative 위치 확인2. 예측기준으로 4가지(TP,TN,FP,FN) 항목 위치 표기3. 각각의 지표 정의 그대로 계산하기 여러가지 지표들! 정의를 암기할 것!1. 정확도(Accuracy) : 전체 중에 잘 분류한 비율 (T..

빅데이터 결과해석 - 분석모형평가(회귀성능)

회귀성능    실제값(y)과 예측값(ŷ)의 차이를 계산하여 성능을 측정 1. MSE(Mean Squared Error) 평균제곱오차  2. RMSE(Root MSE) 평균제곱근오차  3. MAE(Mean Absolute Error) 평균절대오차  4. MAPE(Mean Absolute Percentage Error) 평균절대백분율오차서로 오차의 크기가 다른 모델을 서로 비교할때 백분율로 A라는 모델과 B라는 모델을 나타낼 수 있다. 두 모델을 비교하는데 사용%로 표기 하기 때문에 오차의 크기가 다른 모델을 서로 비교 가능함 5.  R^2(결정계수)- 회귀모형의 설명력(총 변동 중에 회귀모형이 설명 가능한 변동, SSR/SST = 1-(SSE/SST))- 0~1 사이의 값을 가지며 값이 클수록 성능이 좋음..