[데이터자격시험용-필수요약정리]

빅데이터 결과해석 - 분석모형평가(분류성능)

indongspace 2024. 3. 23. 22:42

분류성능

 

 

이진분류(0 or 1)에서 나올 수 있는 경우의 수 : 4가지

 

혼동행렬(Confusion matrix)

-> 정확도, 민감도(재현율), 특이도, F1 score

TP : True Positive (예측 Positive, 실제 Positive)

FP : False Positive (예측 Positive, 실제 Negative)

TN : True Negative (예측 Negative, 실제 Negative)

FN : False Negative (예측 Negative, 실제 Positive)

 

★Tips!

1. 예측/실제, Positive/Negative 위치 확인

2. 예측기준으로 4가지(TP,TN,FP,FN) 항목 위치 표기

3. 각각의 지표 정의 그대로 계산하기

 

여러가지 지표들! 정의를 암기할 것!

1. 정확도(Accuracy) : 전체 중에 잘 분류한 비율 (TP+TN) / 전체

2. 민감도(Sensitivity) : 실제 Positive 중에 잘 분류한 비율 TP / (TP+FN)

  =재현율(Recall)

3. 특이도(Specificity) : 실제 Negative 중에 잘 분류한 비율 TN  / (FP+TN)

4. 정밀도(Precision) : 예측 Positive 중에 잘 분류한 비율 TP / (TP+FP)

5. F1 score = 2*정밀도*재현율 / (정밀도+재현율)

 

# 분석하려는 과제들마다 보는 지표들이 다름. Positive와  Negative가 불균형 되어있으면(불균형 데이터셋) 정확도만 보면 안됨.

# 민감도 = 재현율 = TPR(True Positive Rate), 정밀도 = PPV(Positive Predicted Value)