查看原文
其他

浅谈后门学习

杨海天 中国保密协会科学技术分会 2022-10-02

引  言

       后门学习(backdoor learning)是人工智能安全中一个新兴并且快速发展的研究领域。与对抗学习类似,后门学习也是研究深度学习模型安全有关的问题,其研究主要包括两个方向:后门攻击(backdoor attacks)与后门防御(backdoor defenses)。后门攻击的目的是希望在训练过程中将隐藏的后门通过某种方式嵌入到深度神经网络,隐藏的后门通过攻击者预先设定的触发器激活,当后门未被激活时,被攻击的模型与正常模型表现类似;而当后门被攻击者激活时,模型的输出则变为攻击者预先指定的标签。与传统对抗学习(adversarial learning) 有很大的区别。一般来说,传统对抗攻击关注的是模型预测过程的安全性问题,而后门学习中的后门攻击关注的是模型训练过程的安全性。后门防御主要是对后门攻击进行相应的防御,目前后门防御主要包含两大类,经验主义后门防御和认证后门防御。学者们基于对现有攻击的一些观察或理解,提出了经验性后门防御,并且在实践中具有不错的表现。但是,它们的有效性没有理论上的保证,可能会被某些自适应攻击所绕开。相比之下,在某些假设下,经过认证的后门防御的有效性在理论上得到了保证,但在实践中通常比经验防御的有效性要弱。如何更好地防御后门攻击仍然是一个重要的悬而未决的问题。后门攻击是一种现实威胁,其防御具有重要的研究意义。

研究背景

在过去的十年中,深度神经网络(Deep Neural Network,DNN)在人们日常生活中已有很成功的应用,例如人脸识别,智能客服等逐渐走进人们的生活。就如同大家熟知的互联网以及移动互联网的发展,给人们生活带来方便的同时,暴露出的安全问题也接踵而来,进而吸引了大量的学者投身到互联网安全以及移动互联网安全研究中。同样的道理随着人工智能技术的普及与发展,其安全性研究的重要意义不言而喻。同时,众所周知,DNN的强大功能在很大程度上取决于大量的训练数据和计算资源。为了降低训练成本,大部分用户会选择Internet上免费的可用数据,而不是自己收集训练数据。甚至有用户直接基于第三方平台(例如,云计算平台)训练DNN,而不是在本地训练DNN。同时随着预训练基础的成熟与发展,一大批免费的预训练好的模型都开源出来,相当一部分用户直接利用第三方模型(比如Bert、VGG以及RestNet等)。用户使用这些预训练模型带来了便利,但付出的代价是失去对训练阶段的控制和知情权。这可能会进一步增加DNN用户的安全风险,通常训练阶段的一个典型威胁是后门攻击。

如图1所示,通过添加攻击者指定的触发器(例如本地补丁)来修改某些训练样本。这些带有攻击者指定目标标签的修改样本和良性训练样本被馈送到DNN中进行训练。触发器可能是不可见的,中毒样品的真实标签也可能与目标标签一致,从而增加了后门攻击的隐蔽性。除了直接中毒训练样本外,还可以通过迁移学习,直接修改模型的权重,或者引入额外的恶意模块来嵌入隐藏的后门等,这些攻击可能会在训练过程的任何阶段发生。

图1. 基于中毒的后门攻击的示意图

常见术语介绍

我们简要描述和解释在后门学习相关文献中使用的常见术语。

•良性模型(Benign model)是指在良性设置下训练的模型。

•感染模型(Infected model)是指具有隐藏后门的模型。

•中毒样本(Poisoned sample)是在基于中毒的后门攻击中使用的经过修改的训练样本,用于在训练过程中将后门嵌入模型中。

•触发器(Trigger)是用于生成中毒样本和激活隐藏后门的模式。

•被攻击的样本(Attack sample)表示用于查询受感染模型的恶意测试样本(带有触发器)。

•攻击场景(Attack scenario)是指可能发生后门攻击的场景。通常,它发生在训练过程不可访问或用户无法控制时,例如使用第三方数据集进行训练,通过第三方平台进行训练或采用第三方模型。

•来源标签(Source label)表示中毒或受攻击样品的真实标签。

•目标标签(Target label)是攻击者指定的标签。攻击者打算将所有被攻击的样本作为被感染模型预测为目标标签。

•攻击成功率(Attack success rate,ASR)表示被感染模型预测为目标标签的被攻击样本的比例。

•良性准确率(Benign accuracy,BA)表示受感染模型预测的良性测试样本的准确性。

•攻击者的目标(Attacker’s goal)描述了后门攻击者打算做什么。通常,攻击者希望设计一种感染模型,该模型在良性测试样本上表现良好,同时获得较高的ASR。

•能力(Capacity)定义了攻击者/防御者可以和不能做什么以实现其目标。

•攻击/防御方法(Attack/Defense approach)说明了设计后门攻击/防御的过程。

基于中毒的后门攻击

1)BadNet:通俗地说,是一个包含后门的神经网络,即在模型中嵌入隐藏的后门通常涉及在模型参数内对恶意功能进行编码。研究者们[1]首先定义了后门攻击,并提出了一种称为BadNets的方法,该方法通过给一些训练样本投毒来篡改训练过程来嵌入后门。BadNets是可见攻击的代表,这开启了该领域的时代。几乎所有基于后门中毒的攻击都是基于这种方法进行的。

2)隐形后门攻击:部分研究者[2-9]讨论了基于中毒的后门攻击的隐身要求。中毒的图像与其良性版本相比应无区别,以逃避人类的检查。为了满足这一要求,他们提出了一种混合策略,即通过将后门触发器与良性图像混合。

3)使用优化触发的攻击:

后门触发器是基于中毒攻击的核心,因此分析如何设计更好的触发器而不是使用给定的非优化触发器模式具有重要意义,并引起了广泛关注。Liu等人 [10] 首先探讨了这个问题,他们提出优化触发器,以便重要的神经元可以达到最大值。

4)物理后门攻击:

与以前采用完全在数字空间进行攻击的数字攻击不同,Wenger等人 [11] 还讨论了在物理世界中对攻击面部识别的进一步探索。最近,Li等人 [12] 证明了现有的数字攻击在物理世界中失败了,因为与用于训练的样本相比,所涉及的转换(例如,旋转和收缩)改变了样本中触发器的位置和外观。

5)黑匣子后门攻击:

与以前的白盒攻击(需要训练样本的知识)不同,黑盒攻击采用了无法访问训练集的设置。实际上,出于隐私或版权方面的考虑,通常不会共享训练数据集,因此黑盒攻击比白盒攻击更现实。

6)语义后门攻击:

大多数后门攻击(即非语义攻击)都假定触发器独立于良性图像。换句话说,攻击者需要在推断阶段修改映像以激活隐藏的后门。样本的语义部分[13]是否也可以用作触发器,以使攻击者不需要在推断时修改输入以欺骗受感染的模型。

后门防御

之前我们谈论了基于后门学习的各类攻击,下面我们讨论一下后门防御方法。为了防御后门攻击,研究者们提出了多种后门防御方法。现有方法可以分为两大类,基于经验性后门防御和经过认证的后门防御。

直观上,基于中毒的后门攻击类似于用相应的钥匙解锁门。换句话说,要确保成功进行后门攻击,有三个必不可少的要求,其中包括:(1)在模型中具有隐藏的后门;(2)在样本中包含触发器;(3)触发器和后门是匹配的;如图2所示。因此,可以采用三种主要的防御范例来防御现有攻击,包括触发-后门不匹配、后门消除和触发消除。

图2. 后门攻击和三个相应防御范例的说明


这些方法可被归纳为以下几类:

1)基于预处理的防御:基于预处理的防御[14]在原始推理过程之前引入了预处理模块,从而更改了被攻击样本中触发器的模式。因此,修改后的触发器不再与隐藏的后门匹配,因此阻止了后门激活。

2)基于模型重构的防御:与基于预处理的防御不同,基于模型重构[15]的防御旨在消除受感染模型中的隐藏后门。因此,即使触发器仍包含在受攻击的样本中,由于后门已被删除,因此预测仍然是恶意的。

3)基于触发综合的防御措施:

除了直接消除隐藏的后门之外,基于触发器合成[16]的防御措施还建议首先合成后门触发器,然后在第二阶段通过抑制触发器的作用消除隐藏的后门。这种防御与第二阶段基于模型重构的防御具有某些相似之处。

4)基于模型诊断的防御措施:

基于模型诊断的防御[17]论证了所提供的模型是否通过受过训练的元分类器被感染,并拒绝部署被感染的模型。由于仅使用良性模型进行部署,因此自然消除了隐藏的后门。

5)基于毒物抑制的防御:

在训练过程中,基于毒物抑制的防御[18]措施会降低中毒样本的有效性,以防止创建隐藏的后门。

6)训练基于样本过滤的防御措施:

基于训练样本过滤的防御措施[19]旨在区分良性样本和中毒样本。在训练过程中将仅使用良性样品或纯净的中毒样品,从而消除了源头的后门。

7)测试基于样本过滤的防御措施:

与训练基于样本过滤的样本相似,基于测试样本过滤的防御措施[20]还旨在区分恶意样本和良性样本。但是,与以前的方法相比,在推理中而不是训练阶段采用了基于测试样本过滤的方法。将仅预测良性或纯净的受攻击样本,这可通过移除触发器来防止后门激活。

总  结

包括后门攻击和后门防御在内的后门学习是一个至关重要且蓬勃发展的研究领域。在本文中,我们对现有的后门攻击与防御技术进行了归纳和分类。该领域的几乎所有研究都在过去三年中完成,攻击和防御之间的猫鼠游戏可能会在未来继续。我们希望本文能够提供一些及时的看法,并提醒研究人员后门威胁的不可忽视性。这将是迈向值得信赖的深度学习的重要一步。


参考文献

[1] T. Gu, K. Liu, B. Dolan-Gavitt, and S. Garg, “Badnets: Evaluating backdooring attacks on deep neural networks,” IEEE Access, vol. 7, pp. 47 230–47 244, 2019.

[2] X. Chen, C. Liu, B. Li, K. Lu, and D. Song, “Targeted backdoor attacks on deep learning systems using data poisoning,” arXiv preprint arXiv:1712.05526, 2017.

[3] A. Turner, D. Tsipras, and A. Madry, “Label-consistent backdoor attacks,” arXiv preprint arXiv:1912.02771, 2019.
[4] S. Li, B. Z. H. Zhao, J. Yu, M. Xue, D. Kaafar, and H. Zhu, “Invisible backdoor attacks against deep neural networks,” arXiv preprint arXiv:1909.02742, 2019.
[5] H. Zhong, C. Liao, A. C. Squicciarini, S. Zhu, and D. Miller, “Backdoor embedding in convolutional neural network models via invisible perturbation,” in ACM CODASPY, 2020.

[6] E. Bagdasaryan and V. Shmatikov, “Blind backdoors in deep learning models,” arXiv preprint arXiv:2005.03823, 2020.

[7] Y. Liu, X. Ma, J. Bailey, and F. Lu, “Reflection backdoor: A natural backdoor attack on deep neural networks,” in ECCV, 2020.

[8] A. Turner, D. Tsipras, and A. Madry, “Label-consistent backdoor attacks,” arXiv preprint arXiv:1912.02771, 2019.

[9] S. Zhao, X. Ma, X. Zheng, J. Bailey, J. Chen, and Y.-G. Jiang, “Clean label backdoor attacks on video recognition models,” in CVPR, 2020.

[10] Y. Liu, S. Ma, Y. Aafer, W.-C. Lee, J. Zhai, W. Wang, and X. Zhang, “Trojaning attack on neural networks,” in NDSS, 2017.

[11] E. Wenger, J. Passananti, Y. Yao, H. Zheng, and B. Y. Zhao, “Backdoor attacks on facial recognition in the physical world,” arXiv preprint arXiv:2006.14580, 2020.

[12] Y. Li, T. Zhai, B. Wu, Y. Jiang, Z. Li, and S. Xia, “Rethinking the trigger of backdoor attack,” arXiv preprint arXiv:2004.04692, 2020.

[13] E. Bagdasaryan, A. Veit, Y. Hua, D. Estrin, and V. Shmatikov, “How to backdoor federated learning,” in AISTATS, 2020.

[14] Y. Liu, Y. Xie, and A. Srivastava, “Neural trojans,” in ICCD, 2017.

[15] J. Kirkpatrick, R. Pascanu, N. Rabinowitz, J. Veness, G. Desjardins, A. A. Rusu, K. Milan, J. Quan, T. Ramalho, A. Grabska-Barwinska et al., “Overcoming catastrophic forgetting in neural networks,” Proceedings of the national academy of sciences, vol. 114, no. 13, pp. 3521–3526, 2017.

[16] B. Wang, Y. Yao, S. Shan, H. Li, B. Viswanath, H. Zheng, and B. Y. Zhao, “Neural cleanse: Identifying and mitigating backdoor attacks in neural networks,” in IEEE S&P, 2019

[17] S. Kolouri, A. Saha, H. Pirsiavash, and H. Hoffmann, “Universal litmus patterns: Revealing backdoor attacks in cnns,” in CVPR, 2020.

[18] M. Du, R. Jia, and D. Song, “Robust anomaly detection and backdoor attack detection via differential privacy,” in ICLR, 2020.

[19] B. Tran, J. Li, and A. Madry, “Spectral signatures in backdoor attacks,” in NeurIPS, 2018.

[20] M. Subedar, N. Ahuja, R. Krishnan, I. J. Ndiour, and O. Tickoo, “Deep probabilistic models to detect data poisoning attacks,” in NeurIPS Workshop, 2019.


中国保密协会

科学技术分会

长按扫码关注我们

作者:杨海天

责编:高   琪

往期精彩文章TOP5回顾

美国攻击窃密能力背后的顶层架构
美国网络安全体系架构简介
起底突破物理隔离的USB设备攻击窃密技术
通过电力线“搞定”物理隔离计算机
请注意:扬声器、耳机也能窃密了!——Mosquito攻击技术

近期精彩文章回顾

潜在内部攻击者预测方法
无线局域网安全风险及防护技术浅析
浅谈移动边缘计算及其关键技术浅析AES加密算法的硬件设计方法
恶意软件检测常见方法

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存