NeurIPS 2022
直播回顾
《追AI的人》系列直播第17期特别场《NeurIPS AI安全论文分享会》以围绕更加安全可靠的智能技术为主题,分享在NeurIPS中包括对抗学习、贝叶斯深度学习、异常检测、鲁棒评估、噪声学习、 鲁棒动态图学习、偏微分方程求解等方向上发表的7篇论文。
以下为议题三Boosting OOD detection with typical features《利用典型特征提升分布外样本检测性能》直播的文字回放,共计3414字。
🙋♂️直播详情回顾:7篇NeurIPS论文公开分享,阿里清华邀你共话AI安全!
现分享议题三Boosting OOD detection with typical features《利用典型特征提升分布外样本检测性能》直播回放,全文共计3534字。👇
论文链接:https://arxiv.org/abs/2210.04200
朱尧,浙江大学电子信息技术及仪器专业博士生,阿里巴巴人工智能治理与可持续发展研究中心 (AAIG) 研究型实习生,主要研究方向为计算机视觉领域的模型可解释性和对抗攻防技术研究。曾在ICCV,NeurIPS,ICLR,TIP等会议及期刊上发表多篇论文。我们把深度模型部署到一个真实世界的场景中,会遇到训练的时候模型没有见过的数据集。比如一个人脸识别的模型可以识别不同的人,但是它部署到真实世界中,可能会遇到猫、狗的情况,它对猫和狗可能会给出置信度比较高的判断。当它识别人脸的模型,遇到异常的样本的时,我们希望它能够把异常样本拒绝推测,进行异常样本检测的工作。我们做了一定的分析之后,提出了一个即插即用的模块来提升现有方法的性能。文章的动机是:OOD检测是一个单样本的假设检验问题。假设分布内样本是从P0中采样获得的,如何判断一个样本是否服从P0?OOD检测方法通常通过一个检验指标T和一个阈值来构建一个拒绝域,样本落在拒绝域中,则认为其不符合分布P0。拒绝掉分布外的样本有利于提高模型的可靠性。这个检验指标通常是通过一个深度模型或者模型的一部分(如特征层)来构建的。我们考虑到深度模型在训练的时,对不同的样本敏感程度是不一样的,所以深度模型对训练集的样本会提取出来不同的特征。我们观察不同深度模型特征通道上的特征分布,如ResNet-50有2048个特征通道,ResNet-18有512个特征通道,发现它其实是符合高斯分布的,也就是在训练的过程中,模型遇到的特征有一部分是以很高的概率出现的,另一部分是以很低的概率出现的。
所以我们假设模型可能对于出现在高概率区域的特征,会给出更可靠的判断。对于那些出现概率比较低的特征,给出的判断是置信度会比较低。如右图,我们画了某一个特征通道上的训练集的特征分布。大多数的特征都落在绿色部分,另一部分落在黄色的区间里边。那么我们希望模型在做推测的时候,更多的去依赖绿色部分的,比较典型的特征来做推测,然后降低黄色部分的影响。具体怎么做?对于没有BN的网络,需要使用一批训练集的数据来确定特征在不同通道的均值和方差,来构建这个图里绿色的区间,即特征的典型区间。对于有BN的网络,BN在训练中已经使用移动平均的方法统计了不同通道上的均值方差。
在做OOD检测的时,我们提出在计OOD得分之前,先把特征规范到典型特征区间里边,就是特征出现概率比较高的区间里边。如果特征落在这个典型区间外,我们认为它是一个比较极端类似的特征,我们将它约束为典型区间的边界值。如果是落在典型特征区间里面,我们就不进行这种约束。这样做有什么影响?它其实相当于降低了异常特征的影响,对模型输出的方差有减小的作用,有利于提升对拒绝域估计的准确性。考虑一个极端的情况,把所有的特征都规范到了很小的一个特征区间,它的每个特征通道上的输出的方差都是比较小的,所以它有降低方差的作用。但是由于我们做了特征截断的操作,它会对模型输出会引入一个新的偏差项。随超参数的减小,方差减小,偏差项增大。具体从这个实验效果来看,右边的超参数比较大,可以想象成是没有对特征进行约束的情况,到最左边是超参数比较小,可以想象成我们对特征约束比较强的情况。在这4幅图里边不同颜色就是绿色和黄橙色分别表示的是分布外样本和分布内样本在检验指标下的得分分布情况。从右边到左边,约束越强,样本的得分的方差是越来越小的。当方差非常小时,引入的偏差是比较大的,这时模型失去了区分ID和OOD样本的能力,如最左边的图。在方差减小和偏差增大之间存在一个trade-off,我们希望方差减小,这样可以提升对拒绝域估计的准确性,我们同时也希望不要引入过大的偏差项。当超参数选择合适时如1.25,ID样本和OOD样本得分之间的overlap比较小,能够更好的区分出分布外样本。我们的操作是对现有的方法进行改进,如图,我们考虑现有的几种OOD检测方法MSP、ODIN、Energy和GradNorm检测的方法,结合我们的方法(蓝色的小柱),可以让性能有一个比较大的提升。这里使用的是FPR95作为检测性能好坏的评判指标,该指标越小越好。我们没有提出一个新的指标,而是提出在计算OOD的检验指标之前,把模型的特征做规范化的操作,不管是FPR95还是AUROC都比过去的方法有很大的提升。在这个表里我们我们是在Energy这种方法上加了特征规范化操作,可见达到了最佳的效果。
这个图用来直观的体现我们这个方法对现有的这些检测指标的影响,我们的方法可以降低模型输出的方差,减小ID样本和OOD样本得分的重叠部分,提升检测性能。
第一行图像是使用普通的OOD检测方法,第二行是在OOD检测方法上结合了我们的特征校正操作之后的效果,可以看到overlap明显减小,说明我们的方法是有利于获得更加可分的OOD和ID样本得分。
同时我们发现这种特征校正的操作,会对于模型的性能也有所提升。“Vanilla”表示干净精度,“SP”是椒盐噪声、“Crop”是一些图像的破坏操作。我们的方法不需要重新训练模型,只需要在模型特征层做校正的操作,就可以让模型的精度有一定的提升。
上图是描述了我们操作里的方差减小与偏差引入的trade off。横坐标是超参数的取值,虚线表示的是不使用我们的特征校正的检测性能。
超参数比较小的时候,检测性能是下降的;超参数比较大的时候,就趋近于虚线部分,会和原始方法性能比较接近。如果我们选择一个合适的超参数,可以大幅度提升检测方法的性能。
文章主要是提供了一个新的视角来分析OOD检测方法的性能,我们没有提出新的方法,但对现有的方法提出了改进的方式,即在进行OOD检测得分计算之前,先对特征做规范化的操作。其二是我们其实在理论上分析了我们的方法对模型的性能的影响,包括方差减小和偏差引入之间的trade-off。第三是我们建议在进行OOD检验指标计算之前先对特征进行规范化操作,并提出来简洁高效的实现方式。🔥议题四:
Evaluating the Robustness of Visual Recognition to Adversarial Viewpoints《ViewFool:探索深度学习的视角鲁棒性》
🔥议题五 :
Confidence-based Reliable Learning under Dual Noises《双重噪声下的可靠学习》
🔥议题六:
A Unified Hard-Constraint Framework for
Solving Geometrically ComplexPDEs《硬约束引导的深度学习偏微分方程求解框架》
我们将持续更新,敬请期待😚~关注【AAIG】公众号,获取NeurIPS论文PPT👇👇AAIG课代表,获取最新动态就找她 关注公众号发现更多干货❤️