论文推荐|[CVPR19Oral] 如何避免高置信度的错误预测（有源码）

Original 罗灿杰/陈向乐 CSIG文档图像分析与识别专委会 2022-07-11

本文简要介绍CVPR 2019的Oral论文：Why ReLU Networks Yield High-Confidence Predictions Far Away From the Training Dataand How to Mitigate。该文章主要解决的问题是：在已知分布以外的样本上，神经网络预测结果的置信度过高。开源代码：https://github.com/max-andr/relu_networks_overconfident

一、研究背景

神经网络拟合能力极强。通常来说，提供足够多的训练样本，神经网络的鲁棒性能极大提高。然而，神经网络的鲁棒性提高了，也带来了风险。例如，将一个在CIFAR 10数据集（10类普通物体）上训练的神经网络，放到SVHN数据集（街景门牌）上做测试，该模型竟然能够以100%的置信度将门牌识别为狗、鸟和飞机等。这个现象引发了一个问题：神经网络的预测什么时候是可靠的，具体来讲，当这个样本在已知分布以外时，神经网络能不能以较低的置信度表示没有学习过这种样本，避免高置信度的错误预测？

图1.高置信度错误样本示例（图像来源：https://github.com/max-andr/relu_networks_overconfident）

二、主要贡献

这篇文章主要通过理论建模，解释ReLU带来的高置信度问题，并提出两种训练方式，即conﬁdence enhancing data augmentation（CEDA）和adversarial conﬁdence enhancingtraining （ACET），来缓解上述的不良情况。

三、基本理论

首先，作者先给出定义，什么是piecewise aﬃne functions[1] ：

这里的线性区域的显式上界已经在[2] 中讨论。与[3] 类似，带有ReLU的线性变换（如全连接层）可以写为：

作者引入两个对角矩阵：

则线性变换可以表示为：

为了进一步简化表示，作者将上述式子简写为：

其中，

四、高置信度问题

在解释ReLU带来的高置信度问题前，作者先给出引理：

紧接着是数值上的讨论：

上述的证明过程请见该论文的补充材料。

五、两种训练方式

作者提出了两种训练方式，一种是从数据层面来改善，例如攻击样本，另一种是在loss方程上的改进。两种方法的名称分别是conﬁdence enhancingdata augmentation（CEDA）和adversarialconﬁdence enhancing training （ACET）。

数据增广CEDA上，每个batch加入λB张噪声图像，服从p_out分布，这个做法类似[4] ：

其中，

另一种ACET方法最小化下列的表达式：

其中，p设置为正无穷大，即与u差距最大的z起重要作用：

六、实验结果

作者在MNIST, SVHN, CIFAR-10 和CIFAR100上进行实验。在一个数据集上训练，在其余的数据集上测试，观察置信度的分布情况。实验发现，CEDA和ACET都能显著缓解本文开头阐述的问题，即神经网络对已知分布以外的样本置信度过高的问题。在CIFAR-100上，最好的指标均来自ACET方法。

为了进一步阐述该文章的效果，作者在项目主页上（https://github.com/max-andr/relu_networks_overconfident），给出了Two Moon Dataset上的二分类可视化结果。对于图2中红色和绿色两个半月形的训练样本，简单的分类器只会在两个类别中间画出N字型的低置信度区域。虽然模型并没有见过左上部分和右下部分的数据，但它仍然会在这一大片区域给出100%置信度的分类预测。

图2.简单的二分类模型的置信度

作者使用CEDA的方法训练模型，由图3能够得知，对于训练数据以外的大部分数据，模型都能给出比较低置信度的预测。

图3.基于CEDA的二分类模型的置信度

由于CEDA增加了额外训练样本，消耗更多训练时间，且对训练样本临近域的样本的甄别效果依然较差，所以作者使用ACET方法训练的模型，它的高置信度数据区域会更少，如图4所示。

图4.基于ACET的二分类模型的置信度

七、总结与讨论

本文提出了一个重要问题：带有ReLU的神经网络模型在已知分布以外的样本上置信度过高。这是一个需要权衡的问题，模型首先不能过拟合于训练集（overfitting），但是也不能对训练集以外的未知分布的样本过度自信（over confidence）。本文提出的CEDA和ACET通过挖掘训练集分布边缘的样本来提高模型对分布边缘的敏感度，抑制模型过度自信。这是一个很重要却少有学者思考的问题，该论文初步缓解了这个问题，也给未来更多的问题带来启发，例如少样本或零样本学习问题、类别分布不均匀（拖尾）问题等。

参考文献

[1] R. Arora, A.Basuy, P. Mianjyz, and A. Mukherjee.Understanding deep neural networks withrectiﬁed linear unit. In ICLR, 2018.

[2] G. Montufar, R.Pascanu, K. Cho, and Y. Bengio. On the number of linear regions of deep neuralnetworks. In NIPS, 2014.

[3] F. Croce and M.Hein. A randomized gradient-free attack on relu networks. In GCPR, 2018.

[4] D. Hendrycks, M.Mazeika, and T. Dietterich. Deep anomaly detection with outlier exposure. InICLR, 2019.

原文作者：Matthias Hein,Maksym Andriushchenko,Julian Bitterwolf

撰稿：罗灿杰/陈向乐

编排：高学

审校：殷飞

发布：金连文

免责声明：（1）本文仅代表撰稿者观点，个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。（2）本文观点不代表本公众号立场。

▼

往期精彩回顾

▼

征稿启事：本公众号将不定期介绍一些文档图像分析与识别领域为主的论文、数据集、代码等成果，欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。请发Word版的图文介绍材料到：xuegao@scut.edu.cn

(扫描识别如上二维码加关注）

噩耗传来！她的遗体被找到

事关收入，赶紧确认！！！

万年县委书记毛奇案，又有新消息！

不生娃不买房，李健自曝消失3年真相：永远不要和人性较劲

三联，刺痛了多少中国人

论文推荐|[CVPR19Oral] 如何避免高置信度的错误预测（有源码）

您可能也对以下帖子感兴趣

噩耗传来！她的遗体被找到

事 关 收 入 ，赶 紧 确 认 ！！！

万年县委书记毛奇案，又有新消息！

不生娃不买房，李健自曝消失3年真相：永远不要和人性较劲

三联，刺痛了多少中国人

生成图片，分享到微信朋友圈

论文推荐|[CVPR19Oral] 如何避免高置信度的错误预测（有源码）

您可能也对以下帖子感兴趣

事关收入，赶紧确认！！！