查看原文
其他

模型评估—混淆矩阵&ROC

66号学苑 2022-09-08

The following article is from 风控建模 Author Monica

本篇文章介绍一下进行模型评估的一些指标:


1.混淆矩阵;

2.ROC-AUC

3.离散度

4.GINI系数

5.K-S

6.LIFT


首先,我们介绍一下混淆矩阵和ROC:


一、混淆矩阵

 


实际


0

1

sum

预测

0

TN

FN

TN+FN

1

FP

TP

FP+TP

sum

合计

TN+FP

FN+TP

TN+FP+FN+TP


真正例(True Positive,TP):预测值和真实值都为1

假正例(False Positive,FP):预测值为1,真实值为0

真负例(True Negative,TN):预测值与真实值都为0

假负例(False Negative,FN):预测值为0,真实值为1

以上 TN和TP是预测正确的数量,FP和FN是预测错误的数量;

*****************************************************************************;

以上就是混淆矩阵,接下来我们看一下根据混淆矩阵计算的各个指标:


1. 召回率(Recall,TPR):预测正确的正例数(即TP)占真正正例数的比例:

TPR =TP/(FN+TP);


2. 误报率(FPR):预测错误的负例数(即FP)占实际负例数比例:

FPR = FP/(FP+TN);


3. 准确率(accuracy):反映分类器统对整个样本的判定能力,能将正例的的判定为正例,负例判定为负例,即预测正确的记录数占总记录数的比例:

Accuracy = (TP+TN)/(TN+FN+FP+TP);


4. 误分率(error):和准确率相反,即预测错误的记录数占总记录数的比例:

Error = (FN+FP)/(TN+FN+FP+TP);


5. 查准率(Precision):指的是所得数值与真实值之间的精确程度,即在所有预测为正例的样本中实际正例的占比,计算公式:

Precision=TP / (TP+FP);


6. 正常预测值:负例预测值被预测准确的比例,计算公式:

NPV=TN / (TN+FN)


二、AUC_ROC:


通过混淆矩阵,可以得到真正例率(True Positive Rate , TPR):

TPR = TP/FN+TP

和得到假正例率(False Positive Rate  , FPR):

FPR = FP/(FP+TN)

那么我们只要给一个阈值就可以得到一个对应的TPR和FPR值,反过来说就是我们有大量的阈值,就可以得到一个TPR-FPR的相关图,即ROC 曲线就是不同阈值下真正例率和假正例率的轨迹:


   


从上图就可以看出


1.横轴是FPR即假正例率,纵轴是真正例率;


2.每个阈值都对应一个(FPR,TPR),当阈值最大时,所有样本都被识别成负样本,对应于右上角的点(0,0),当阈值最小时,所有样本都被识别成正样本,对应于右上角的点(1,1),随着阈值从最大变化到最小,真正例(TP)和假正例(FP)都逐渐增大;


3.一个好的分类模型应尽可能位于图像的左上角,而一个随机猜测模型应位于连接点(TPR=0,FPR=0)和(TPR=1,FPR=1)的主对角线上;


4.可以使用ROC曲线下方的面积AUC(AreaUnder roc Curve)值来度量算法好坏:如果模型是完美的,那么它的AUC= 1,如果模型是个简单的随机猜测模型,那么它的AUC= 0.5,如果一个模型好于另一个,则好的模型曲线下方面积相对较大;


来源|风控建模

作者|Monica


更多精彩,戳这里:


|这是一份可以让你很牛很牛的风控技能包|

|评分卡建模-拒绝推断|

|基于迁移学习的反欺诈方法研究|

|一个提高写sas代码效率的代码技巧|

|SAS评分卡建模-PSI|


点击阅读原文,即可报名信用评分卡模型课程



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存