模型评估—混淆矩阵&ROC
The following article is from 风控建模 Author Monica
本篇文章介绍一下进行模型评估的一些指标:
1.混淆矩阵;
2.ROC-AUC
3.离散度
4.GINI系数
5.K-S
6.LIFT
首先,我们介绍一下混淆矩阵和ROC:
一、混淆矩阵
实际 | ||||
0 | 1 | sum | ||
预测 | 0 | TN | FN | TN+FN |
1 | FP | TP | FP+TP | |
sum | 合计 | TN+FP | FN+TP | TN+FP+FN+TP |
真正例(True Positive,TP):预测值和真实值都为1
假正例(False Positive,FP):预测值为1,真实值为0
真负例(True Negative,TN):预测值与真实值都为0
假负例(False Negative,FN):预测值为0,真实值为1
以上 TN和TP是预测正确的数量,FP和FN是预测错误的数量;
*****************************************************************************;
以上就是混淆矩阵,接下来我们看一下根据混淆矩阵计算的各个指标:
1. 召回率(Recall,TPR):预测正确的正例数(即TP)占真正正例数的比例:
TPR =TP/(FN+TP);
2. 误报率(FPR):预测错误的负例数(即FP)占实际负例数比例:
FPR = FP/(FP+TN);
3. 准确率(accuracy):反映分类器统对整个样本的判定能力,能将正例的的判定为正例,负例判定为负例,即预测正确的记录数占总记录数的比例:
Accuracy = (TP+TN)/(TN+FN+FP+TP);
4. 误分率(error):和准确率相反,即预测错误的记录数占总记录数的比例:
Error = (FN+FP)/(TN+FN+FP+TP);
5. 查准率(Precision):指的是所得数值与真实值之间的精确程度,即在所有预测为正例的样本中实际正例的占比,计算公式:
Precision=TP / (TP+FP);
6. 正常预测值:负例预测值被预测准确的比例,计算公式:
NPV=TN / (TN+FN)
二、AUC_ROC:
通过混淆矩阵,可以得到真正例率(True Positive Rate , TPR):
TPR = TP/FN+TP
和得到假正例率(False Positive Rate , FPR):
FPR = FP/(FP+TN)
那么我们只要给一个阈值就可以得到一个对应的TPR和FPR值,反过来说就是我们有大量的阈值,就可以得到一个TPR-FPR的相关图,即ROC 曲线就是不同阈值下真正例率和假正例率的轨迹:
从上图就可以看出
1.横轴是FPR即假正例率,纵轴是真正例率;
2.每个阈值都对应一个(FPR,TPR),当阈值最大时,所有样本都被识别成负样本,对应于右上角的点(0,0),当阈值最小时,所有样本都被识别成正样本,对应于右上角的点(1,1),随着阈值从最大变化到最小,真正例(TP)和假正例(FP)都逐渐增大;
3.一个好的分类模型应尽可能位于图像的左上角,而一个随机猜测模型应位于连接点(TPR=0,FPR=0)和(TPR=1,FPR=1)的主对角线上;
4.可以使用ROC曲线下方的面积AUC(AreaUnder roc Curve)值来度量算法好坏:如果模型是完美的,那么它的AUC= 1,如果模型是个简单的随机猜测模型,那么它的AUC= 0.5,如果一个模型好于另一个,则好的模型曲线下方面积相对较大;
来源|风控建模
作者|Monica
更多精彩,戳这里:
点击阅读原文,即可报名信用评分卡模型课程