查看原文
其他

【源头活水】ICCV‘21 | 具有样本特定触发器的隐形后门攻击

“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。

来源:知乎—GeorgeLee
地址:https://zhuanlan.zhihu.com/p/394018343
很荣幸我们的近期工作 Invisible Backdoor Attack with Sample-Specific Triggers 被IEEE International Conference on Computer Vision (ICCV), 2021顺利接收。在这篇文章中,我们提出了一种新的投毒式(poisoning-based)后门攻击(backdoor attack)设计范式。这种攻击突破了很多现有防御方法对后门攻击的潜在假设,因此在保持攻击效果的同时可以绕过它们。论文的Prelimary Version如下链接所示,相关代码也将在近期放出。
https://arxiv.org/pdf/2012.03816.pdf

01

现有的后门攻击方法简介
顾名思义,后门攻击希望在模型的训练过程中通过某种方式在模型中埋藏后门(backdoor),埋藏好的后门通过攻击者预先设定的触发器(trigger)激发。在后门未被激发时,被攻击的模型具有和正常模型类似的表现;而当模型中埋藏的后门被攻击者指定的触发器激活时,模型的输出变为攻击者预先指定的标签(target label)以达到恶意的目的。后门攻击可以发生在训练过程非完全受控的很多场景中,例如使用第三方数据集、使用第三方平台进行训练、直接调用第三方模型,因此对模型的安全性造成了巨大威胁。其具体攻击流程如下:
现有的后门攻击几乎都使用与样本无关 (sample-agnositc) 的触发器 (trigger),i.e., 不同的被投毒样本 (poisoned samples) 上的触发器是完全相同的,例如下图1所示:

02

Revisiting现有后门防御方法
正因为现有后门攻击的trigger都是sample-agnostic的,防御者很容易可以通过分析不同样本上的相似异常行为进而检测甚至是重建出backdoor trigger,以实现对后门攻击的抵御。目前,大部分的防御方法都是建立在triggers是sample-agnostic这个假设下设计的。例如,Neural Cleanse防御对每个类别生成通用对抗扰动作为该类别的潜在trigger,然后执行异常检测算法以分析出真正的backdoor trigger; 基于显著图(Saliency Map)的防御方法通过计算每个类别样本的公共显著区域作为该类别的潜在trigger,然后执行异常检测算法以分析出真正的backdoor trigger。

03

我们的方法 (Backdoor Attack with Sample-Specific Triggers)
根据上述对现有防御方法的分析,我们提出了一种新的后门攻击范式,即Backdoor Attack with Sample-Specific Triggers,其定义如下:
这种新的攻击范式不满足现有防御方法对后门攻击的潜在假设,因此可以逃逸它们的检测。
具体的,我们从基于DNN的图像隐写 (Image Steganography)获得启发,我们使用一个预训练好的图像隐写网络对所有的poisoned samples隐写进同样的信息,进行数据投毒。由于图像隐写算法本身的特性,每张被投毒样本被植入的trigger完全不同,实现了sample-specific的攻击模式。图像隐写网络的训练和本文所提攻击的Pipeline如下图所示:
值得一提的是,图像隐写网络具有普适性,即在数据集A上训练的隐写网络针对数据集B的投毒也能具有很好的效果。也就是说,只要图像大小一致,攻击者可以复用已经训练好的隐写网络进行后门投毒;攻击者也可以提前预训练好各个常用image sizes的隐写网络,以待攻击使用。这种性质极大的降低了我们攻击的计算代价,额外的计算代价几乎可以忽略不计。
当然,我们的攻击针对非数据集的测试样本也能有很强的泛化性,即无论图片是否来源于测试集,通过我们的攻击植入trigger后都能被分为target label。

04

实验
我们的攻击有效且隐蔽:
我们的攻击也能bypass大量不同的后门防御(e.g., Neural-Cleanse和STRIP):
写在最后
如果对后门学习(后门攻击与后门防御)感兴趣,欢迎refer我们整理的Github资源repo与综述论文:
https://github.com/THUYimingLi/backdoor-learning-resources
https://www.researchgate.net/publication/343006441_Backdoor_Learning_A_Survey
当然, 如果对我们别的相关工作感兴趣,也欢迎大家refer我的homepage:
http://liyiming.tech/


本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。


“源头活水”历史文章


更多源头活水专栏文章,

请点击文章底部“阅读原文”查看



分享、在看,给个三连击呗!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存