查看原文
其他

干货| ICML 2023:针对X2X后门攻击的无监督检测

向臻 AI TIME 论道 2023-11-23

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!


向臻,伊利诺伊大学香槟分校Secure Learning Lab博士后,主要方向为可信赖机器学习。








内容简介


后门攻击是深度神经网络的一种常见威胁,其中嵌入后门触发器的一个或多个源类的样本将被错误分类为对抗性目标类。现有的检测分类器是否受到后门攻击的方法大多是针对单一对抗目标类的攻击(例如,多对一攻击)而设计的。


据我们所知,在没有监督的情况下,没有任何现有方法可以有效地解决具有任意数量的源类(每个源类与任意目标类配对)的更一般的X2X攻击。在本文中,我们提出了UMD,这是第一个无监督模型检测方法,它通过对抗性(源、目标)类对的联合推理来有效检测X2X后门攻击。特别是,我们首先定义一种新颖的可转移性统计量,以基于提出的聚类方法来测量和选择假定的后门类对的子集。然后,使用我们提出的鲁棒且无监督的异常检测器,根据用于检测推理的逆向工程触发器大小的聚合来联合评估这些选定的类对。


我们对CIFAR-10、GTSRB和Imagenette数据集进行了综合评估,在多种X2X攻击设定下的结果表明,我们的无监督UMD在针对不同目标的检测精度方面分别优于SOTA检测器(即使有监督)17%、4%和8%。我们还展示了UMD针对几种强自适应攻击的强大检测性能。




针对深度学习模型的对抗性攻击

深度学习现在有很多广泛的应用,但是也面临着很多的安全问题,比如躲避攻击、投毒攻击、针对隐私的模型窃取攻击以及后门攻击等。




针对深度学习模型的对抗性攻击


经典的后门攻击包含两类元素:一个目标类和一个带有相关嵌入函数的触发器。后门攻击有两个主要目标:


第一,希望带有触发器的测试样本被错误地分类为目标类;


第二,希望不带触发器的测试样本也可以被正确分类。


以一个简单的例子说明。如下图所示,考虑一个用来识别不同交通信号的分类器。“Clean”的不带触发器的交通信号就会被分类到正常的“stop sign”中,而带有触发器的“Yellow Square”交通信号则会被分类到“speed limit sign”。



后门攻击的发动方式可以通过攻击者投毒。一般而言,攻击者收集正常的样本并在其中加入触发器,将其标注成所期望的目标类后混入分类器的训练集中进行学习,那么有触发器的样本在测试时就有可能被分到目标类。




高级的后门攻击


近些年,后门攻击经历了非常多的发展。触发器有不同的嵌入方式,比如BadNet、Blended、ISSBA、WaNet等。另外一个非常重要的扩展方向,即本文的关注点,是对于目标类的不同configuration,比如all-to-one、all-to-all等。



X2X后门攻击


X2X的定义是包含一个触发器,可以有任意多个目标类和源类,每个目标类可以被多个源类共享,一个源类仅与一个目标类相关联。



X2X的分类如下图所示,包含X2O、A2X、O2O、A2O、A2A等等。



多种可能的源类和目标类的不同组合方式使得对X2X后门攻击的防御成为了一个棘手的问题。



后门攻击模型的无监督检测


目标


后门攻击的无监督检测的目标是检测一个分类器是否被后门攻击。假设分类器被后门攻击,那么我们同时也希望知道所有参与的source、target class pairs,以便后续进行Backdoor mitigation操作。


限制条件


后门攻击模型的无监督检测是一个非常难的任务,因为它存在很多的限制条件。首先,检测者没有办法获取到训练集;其次,防御者无法获取关于source、target configuration的先验知识;第三,防御者无法获得未被攻击的分类器作为参考(否则,该模型可替代原有模型进行使用)。



相关工作


基于这些挑战,现有的方法对于X2X基本上是束手无策的。一种经典的方法是基于触发器逆工程的检测方法,该方法的前提条件是后门的触发器在扰动量级上很小。具体的检测方法是对于每一个类逆工程一个可能的触发器,然后通过无监督异常检测检测异常触发扰动的大小。另外一类方法是Meta-classification。检测者首先训练很多“有backdoor”和“无backdoor”的模型,然后在模型上再训练一个meta classifier。但是这两类方法存在一个局限,现有的方法需要知道source、target configuration,所以是无法对X2X进行检测的。


UMD


Outline


我们在本篇文章中提出一种叫做UMD的方法。该方法设计思路如下:(1) 我们希望判断所有的class pairs中是否有backdoor class pair;(2) 但是对于每个class pair进行基于扰动量级异常检测的触发逆向工程会因为存在intrinsic backdoors而产生误报;(3) 于是我们提出了一个额外的detection statistic:Transferability。


基于上述的中心思想,我们提出一个四步检测方法。第一步,首先对每个class pair逆向工程出一个触发器;第二步,基于逆向工程的触发器计算TR statistic;第三步,基于TR statistic选择最可能的backdoor class pairs的子集;最后,通过无监督异常检测对聚合的触发扰动幅度进行检查。


Step1:trigger reverse engineering


对于某一个class pair做触发器逆工程,我们希望能找到很小的trigger perturbation magnitude使得source class到target class的误分类率更高。



Step2:compute TR statistics


TR statistics是在每两个有序的class pair上来定义的。例如对于两个不同的class pair ai=(si,ti),si≠ti,和aj=(sj,tj), sj≠tj, 从ai到aj的TR定义如下:



我们通过理论分析可以证明,触发器逆工程在获得最优解的情况下,TR在backdoor class pair之间的值不小于从backdoor class pair到non-backdoor class pair的值。


Step3:select putative backdoor class pairs


我们所提出的节点聚类问题的目标是找到一个集群内TR大、从集群内到集群外TR小的集群。其中,节点是class pair,边是TR statistic。我们将其转化成一个优化问题,用符号语言表示如下:



解决该问题的经典算法是使用agglomerative hierarchical clustering。该算法的主要步骤是:先初始化一个具有两个节点的最大TR的集群,然后从剩下的节点中,选择一个使目标函数最大化的节点,如此重复下去,直到没有节点满足约束条件时终止。最后,从与上述每次迭代相关的聚类中,选择使目标函数最大化的聚类。


Step4:unsupervised anomaly detection


我们做无监督异常检测的目标是为了确定集群中的class pairs是否确实是backdoor class pairs。这里我们使用基于中位数绝对偏差(MAD)的异常检测的方式检查所选集群的聚合触发扰动程度是否明显小于non-selected class pairs的触发扰动程度。但是这有一个潜在的问题:当我们的统计数据无限增加,总会产生相较于零分布的异常值。所以我们采取的方式是根据“零统计量”的个数N和显著性水平β求出阈值。




Experiments


我们在实验中考虑了3种不同的数据集CIFAR-10、GTSRB、ImageNette,2种不同的触发器类型BadNet patch、Invisible perturbation。我们的主要评价指标是模型检测的准确率。如下图所示,我们在以上三个数据集上分别取得了优于现有方法17%、4%和8%的检测准确率。


 Cifar-10


GTSRB


Imagenette


如下图所示,我们的方法对Blended触发器和WaNet触发器的检测性能、针对几种其他高级攻击的检测性能都表现很好。




最后,如果使用我们检测到的class pairs进行backdoor mitigation,对于不同的X2X形式,UMD能够降低攻击效能,并且不会对分类器的性能有很大影响,具体的数据如下图所示。




整理:陈研

审核:向臻


提醒

点击“阅读原文”跳转到35:37

可以查看回放哦!


往期精彩文章推荐


记得关注我们呀!每天都有新知识!



 关于AI TIME 


AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。


迄今为止,AI TIME已经邀请了1100多位海内外讲者,举办了逾550场活动,超600万人次观看。

我知道你

在看

~

点击 阅读原文 观看回放!

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存