查看原文
其他

第3.3节 逻辑回归(常见的分类评估指标)

空字符 月来客栈 2024-01-19

各位朋友大家好,欢迎来到月来客栈,我是掌柜空字符。

本期推送内容目录如下,如果你觉得本期内容对你所有帮助欢迎点个赞、关个注、下回更新不迷路。

本次推送内容目录如下:

  • 3.3 常见的分类评估指标
    • 3.3.1 二分类场景
    • 3.3.2 二分类指标示例代码
    • 3.3.3 多分类场景
    • 3.3.4 多分类指标示例代码
    • 3.3.5小结

3.3 常见的分类评估指标

如同回归模型一样,对于任何分类模型来讲同样需要通过一些评价指标来衡量模型的优与劣。在分类任务中,常见的评价指标有准确率(Accuracy)、精确率(Precision)、召回率(Recall)与F值(Fscore),其中应用最为广泛的是准确率,接着是召回率。为了能够使读者更容易地理解与运用这4种评价指标,下面笔者将会由浅入深地从二分类到多分类的场景来对这4种指标进行介绍。

3.3.1 二分类场景

首先以一个猫狗图片识别的任务场景为例,假设现在有一个猫狗图片分类器对100张图片进行分类,分类结果显示有38张图片是猫,62张图片是狗。经过与真实标签对比后发现,38张猫的图片中有20张是分类正确的,62张狗的图片中有57张是分类正确的。

根据上述这一情景,便可以得到一张如图3-7所示的矩阵,称为混淆矩阵(Confusion Matrix)。

图 3-7 二分类混淆矩阵

如何来读这个混淆矩阵呢?读的时候首先横向看,然后纵向看。例如读TP的时候,首先横向表示真实的正样本,其次是纵向表示预测的正样本,因此TP表示的就是将正样本预测为正样本的个数,即预测正确,因此,同理共有以下4种情况。

(1) True Positive(TP):表示将正样本预测为正样本,即预测正确。

(2) False Negative(FN):表示将正样本预测为负样本,即预测错误。

(3) False Positive(FP):表示将负样本预测为正样本,即预测错误。

(4) True Negative(TN):表示将负样本预测为负样本,即预测正确。

如果此时突然问FP表示什么含义,又该怎样迅速地反映出来呢?我们知道FP(False Positive)从字面意思来看表示的是错误的正类,也就是说实际上它并不是正类,而是错误的正类,即实际上为负类,因此,FP表示的就是将负样本预测为正样本的含义。再看一个FN,其字面意思为错误的负类,也就是说实际上它表示的是正类,因此FN的含义就是将正样本预测为负样本。

定义完上述4个类别的分类情况后就能定义出各种场景下的计算指标,如式(34)~式(37)所示。

注意:当时称为值,同时也是用得最多的评价指标。

可以看出准确率是最容易理解的,即所有预测对的数量,除以总的数量。同时还可以看到,精确率计算的是预测对的正样本在整个预测为正样本中的比重,而召回率计算的是预测对的正样本在整个真实正样本中的比重,因此一般来讲,召回率越高也就意味着这个模型寻找正样本的能力越强(例如在判断是否为癌细胞的时候,寻找正样本癌细胞的能力就十分重要),而则是精确率与召回率的调和平均,但值得注意的是,通常在绝大多数任务中并不会明确哪一类别是正样本,哪一类别又是负样本,所以对于每个类别来讲都可以计算其各项指标,但是准确率只有一个。

在得到式(3.4)~式(3.7)中各项评价指标的计算公式后,便可以分别计算出3.3.1节一开始的示例场景中,猫狗分类模型的各项评估值。

1. 准确率

2.

对于类别猫来讲,有

对于类别狗来讲,有

到这里,对于4种指标各自的原理及计算方式已经介绍完了,但是如果要来衡量整体的精确率、召回率或者F值又该怎么处理呢?对于分类结果整体的评估值,常见的做法有两种:第一种是取算术平均;第二种是加权平均[1]。


1. 算术平均

所谓算术平均也叫作宏平均(Macro Average),也就是等权重地对各类别的评估值进行累加求和。例如对于上述两个类别来讲,其精确率、召回率和F1值分别为

继续滑动看下一个

第3.3节 逻辑回归(常见的分类评估指标)

空字符 月来客栈
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存