빅데이터분석기사 46

빅데이터 결과해석 - 분석모형개선(매개변수 최적화)

1. 손실함수 : 모델의 예측값( ŷ )과 실제값(y)의 차이(오차) 2. 모델의 학습 목적 : 오차(손실함수)를 가장 작게 만드는 매개변수(가중치,편향)를 찾는 것 -> 매개변수 최적화 3. 매개변수 최적화 알고리즘(경사하강법 기반)* 경사하강법 : 손실함수의 기울기를 이용하여 손실함수가 최소가 되도록 매개변수 갱신 SGD- 데이터 전체를 한번에 학습(X), 부분을 무작위(확률적)로 학습(O)- 손실함수 기울기를 따라 조금씩 최적점으로 이동- 지그재그로 크게 변함, 최적점 근처에서 느림 Adagrad- 진행할수록 학습률 ↓- 처음에 학습률이 크고 최적점에 가까워지면 학습률 감소- 지그재그 움직임이 크게 줄어든다(효율적 움직임) Momentum(SGD + 속도) - 누적된 기울기 값에 의해 빠르게 최적점..

빅데이터 결과해석 - 분석모형평가(교차검증 & 분석모형개선-과적합방지)

교차검증 1. 홀드아웃- 계산량 적음, 단순함, 랜덤하게 학습/평가로 분할 2. k-fold 교차검증- k개의 집단으로 나누고 k-1개로 학습, 1개로 평가 3. LpOCV- 전체 N개에서 p개 선택, N-p개로 학습, p개로 평가  * 평가데이터 경우의 수 : nCp = n! / (n-p)!p! -> 비용/시간이 많이 든다4. LOOCV는 LpOCV에서 p=1인 경우 5. 붓스트랩 : 단순랜덤 복원추출- 학습데이터에 한번도 포함되지 않을 확률(약 36.8%)- 반대로 학습데이터에 포함될 확률(약 63.2%)   분석모형개선 - 과적합방지 1. 편향(Bias) : 예측값과 실제값의 차이-> 편향이 크면 오차가 크다 2. 분산(Variance) : 예측값들의 흩어진 정도-> 분산이 크면 예측값이 예측값의 ..

빅데이터 결과해석 - 분석모형평가(분석모형진단)

회귀모형 진단 1. 회귀모형에 대한 진단- 회귀모형 : F검정, p-value가 0.05보다 작아야 함(유의확률   H0(귀무가설) : 회귀계수(𝛽i) 는 0이다- 회귀계수 : t검정, p-value가 0.05보다 작아야 함(유의확률   H0(귀무가설) : i번째 회귀계수는 0이다 2. 잔차에 대한 가정 : 정규성 / 등분산성 / 독립성[잔차의 등분산성 예시] - 잔차에 대해서 산점도로 그려봤을때 X에 따라서 분산이 경향을 띄는 것이 아니라 0을 기준으로 위아래로 고르게 분포되어 있는 것 복습) 회귀분석의 가정1. 선형성 : 독립변수(X)와 종속변수(Y)간의 선형성2. 잔차의 3가지 가정(등분산성, 정규성, 독립성)   a. 등분산성 : 산점도   b. 정규성       - H0(귀무가설) : 정규분포..

빅데이터 결과해석 - 분석모형평가(군집분석 및 기타 성능지표)

군집분석 평가지표 군집 내 데이터는 거리가 짧아야 하고, 군집 간 거리는 멀어야 함- 던지수 : (군집간 거리의 최소값) / (군집 내 거리의 최대값), 값이 클수록 좋음- 실루엣 계수는 -1~1 값을 가지며 1에 가까울수록 좋은 군집 모형 카파 상관계수- 두 평가자의 결과값이 일치하는지에 대한 척도로 개발되었다- 0~1사이 값을 가지며 1에 가까울수록 모델의 성능이 좋다고 할 수 있다- 모델의 예측값과 실제값이 얼마나 일치하는지 확인할 수 있는 지표이다- 모형의 평가결과가 우연히 나온 결과가 아니라는 것을 보여주는 지표이다- 범주형 데이터에 사용- k값에 따라(0~1사이 값)   0.8~1.0 : 매우 높은 일치   0.6~0.8 : 높은 일치   0.4~0.6 : 보통 일치   0.2~0.4 : 어느..

빅데이터 결과해석 - 분석모형평가(분류성능 ROC curve)

ROC curve AUC(Area Under the Curve): ROC 커브의 아래쪽 면적을 뜻함0.5~1.0 값을 가지며 1로 갈수록 분류성능이 좋음0.9~1.0 : 뛰어남(Excellent)0.8~0.9 : 우수함(Good)0.7~0.8 : 보통(Fair)0.6~0.7 : 불량(Poor)0.5~0.6 : 실패(Fail) #가장 이상적인 ROC 커브는 민감도1, 특이도1인 점을 지난다.# x축은 거짓긍정률 : FPR(False Positive Rate) = 1-특이도# y축은 참긍정률 : TPR(True Positive Rate) = 민감도(Sensitivity) = 재현율(Recall)

빅데이터 결과해석 - 분석모형평가(분류성능)

분류성능  이진분류(0 or 1)에서 나올 수 있는 경우의 수 : 4가지 혼동행렬(Confusion matrix)TP : True Positive (예측 Positive, 실제 Positive)FP : False Positive (예측 Positive, 실제 Negative)TN : True Negative (예측 Negative, 실제 Negative)FN : False Negative (예측 Negative, 실제 Positive) ★Tips!1. 예측/실제, Positive/Negative 위치 확인2. 예측기준으로 4가지(TP,TN,FP,FN) 항목 위치 표기3. 각각의 지표 정의 그대로 계산하기 여러가지 지표들! 정의를 암기할 것!1. 정확도(Accuracy) : 전체 중에 잘 분류한 비율 (T..

빅데이터 결과해석 - 분석모형평가(회귀성능)

회귀성능    실제값(y)과 예측값(ŷ)의 차이를 계산하여 성능을 측정 1. MSE(Mean Squared Error) 평균제곱오차  2. RMSE(Root MSE) 평균제곱근오차  3. MAE(Mean Absolute Error) 평균절대오차  4. MAPE(Mean Absolute Percentage Error) 평균절대백분율오차서로 오차의 크기가 다른 모델을 서로 비교할때 백분율로 A라는 모델과 B라는 모델을 나타낼 수 있다. 두 모델을 비교하는데 사용%로 표기 하기 때문에 오차의 크기가 다른 모델을 서로 비교 가능함 5.  R^2(결정계수)- 회귀모형의 설명력(총 변동 중에 회귀모형이 설명 가능한 변동, SSR/SST = 1-(SSE/SST))- 0~1 사이의 값을 가지며 값이 클수록 성능이 좋음..

빅데이터 모델링 - 분석기법적용 (다변량분석/시계열분석)

다변량 분석 주성분 분석(PCA, Principle Component Analysis)- 다수의 변수를 소수의 변수로 줄여준다(단, 해석은 어려움) -> 서로 상관성이 높은 변수들의 선형 결합을 통해- 소수의 변수는 서로 상관성이 없음(서로독립, 상관계수=0, 다중공선성 존재X)- 각 변수들의 분산값 총합을 총 변동이라고 하며, 각 주성분들마다 기여하는 정도를 기여율이라고 함  -> 누적 기여율이 85%가 넘어갈 때의 주성분 수를 결정함(첫 번째 주성분이 제일 기여율 높음)  스크리 산점도(Scree plot)- 주성분 분석에서는 기울기가 급격히 변하는 곳에서 -1을 한다- 3에서 기울기가 급격히 변하므로 적절한 주성분의 수는 3-1=2이다(2개의 변수만 선택, PC1과 PC2)  시계열 분석1. 정상성..

빅데이터 모델링 - 분석기법적용 (연관분석)

연관분석(비지도학습) 설명- 장바구니 분석이라고도 함- if(조건)-then(반응)으로 이루어져 있음- 물건배열, 카탈로그, 교차판매 등에 활용 장단점- 장점 : 분석결과 쉽게 이해 가능, 사용이 편리함- 단점 : 품목수가 증가하면 계산이 기하급수적으로 증가함  1세대 알고리즘(Apriori)개선 -> FP-Growth 알고리즘 연관규칙 측도1. 지지도(Support) : 전체 거래 중, A와 B가 동시에 포함된 거래 비율 2. 신뢰도(Confidence) : 항목 A를 포함한 거래 중, A와 B가 동시에 포함된 거래 비율 3. 향상도(lift) : 품목 B를 구매한 고객대비 품목 A를 구매하고 품목 B를 구매하는 고객에 대한 확률 * 향상도 1 : 두 품목 간에 연관성이 없음(A와 B가 서로 독립)  ..