基于互信息的深度神经网络后门攻击
背景知识
首先我们需要明白,后门攻击实现需要有两个要素——后门模型和对应的后门触发器。这两者不仅是后门攻击需要考虑的要素,也是后门攻击防御设计的出发点。早期的后门攻击设计时,研究者倾向于设计隐蔽的后门触发器。最简单的后门攻击——Badnets就是简单的修改图像固定位置的像素值,这种方法相当直接且粗暴,但是好用是真的,但也容易被发现,因为这种对图片的修改往往是人眼可见的。
随后研究者开始想尽各种办法设计人眼辨别不出的触发器。包括但不限于叠加微小的扰动,使用一些图像处理函数变换图形,或者使用动态的触发器。
每次看见或者复现这些攻击。我都会深深地被他们的想象力折服。这也是后门共及的现状——触发器设计这个方向卷之又卷。静态的,动态的;可视的,不可视;局部的,全图的……触发器设计的排列组合产生了很多种后门攻击。但是触发器生成越是复杂的攻击,往往越容易被模型微调防御。因为越复杂的触发器模型学到的特征越脆弱,那么一旦参数被破坏,这种脆弱的特征就会被消除。后门攻击的成功率就会大大降低。
卷之又卷的触发器设计方向走不动,那就在后门模型上下功夫了。后门模型又如何去设计呢?研究者研究的目标往往是让学到的后门特征更加鲁棒,难以被防御者消除。这一种方法也是我们今天介绍论文的攻击思路,通过改进模型训练的过程,在检测阶段不表现出后门特征,在特定情况下才激活后门效应。此外文章作者还证明了这种攻击方式具有对抗微调的鲁棒性。
算法讲解
接下来我们就来介绍文章作者如何实现这种休眠式的后门攻击的。又如何激活呢?我们接着向下看。
互信息的推导就不展示了,大家看原文吧。我尽量讲清楚它怎么利用互信息。后门攻击的算法如下图所示。
这里使用了四种数据集——训练数据集,纯净微调数据集,后门数据集和去毒化的后门数据集。训练数据集就是普通的训练数据集,用于将模型的准确准确率提高。微调数据集就比较有讲究了。这里的对用户的假设是使用模型前会微调模型,微调模型使用的数据就是这里提到的纯净微调数据集,攻击者未必可以拿到一模一样的数据集,但是可以保证数据分布是一样的。后门数据集由微调数据集构造,去毒化的后门数据集就是后门数据集的标签换成了原数据标签,没有模型误导性的数据集。
训练分成了三步:
第一步用纯净训练数据训练模型,保证输出模型的性能。这一步平平无奇,一般后门攻击都会这么做。
第二步就是最大化后门数据和纯净微调数据在模型上的梯度之间的互信息。互信息(Mutual Information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。那么我们可以理解为通过最大化两数据的梯度互信息,可以使得模型在微调的过程中“睹物思人”,也就是在使用纯净微调数据梯度更新模型的同时也将学习后门信息。这就是后门的激活过程。
第三步为后门休眠。这里就要使用去毒后门数据了,将去毒后门数据用于训练模型使得模型不会学到第二步后门数据的标签。
文章向我们展示了模型在MNIST数据上训练后门模型的全过程,如下图所示:
上面一张图展示的是随着训练轮数变化互信息的变化,可见在后门训练的过程中互信息值逐渐升高最后收敛。下面的图是模型准确率(蓝线)和攻击成功率(红线)的变化。
在后门训练的过程中,可见模型的准确率逐渐升高并收敛,攻击成功率保持在较低水平。微调过程中,模型的准确率变化不大,但是后门攻击成功率快速提升达到较高水平。
观察模型的表现也可以看出模型的休眠状态。下图表中可见后门模型在休眠状态下的低攻击成功率可以绕开后门攻击检测。使用Neural Cleanse逆向生成触发器可以看出无法通过休眠模型生成正确的触发器。
文章也使用了简单的微调和剪枝算法来扰动模型,这些算法对模型的后门消除效果并不明显。
主要实验结果
前面这些都只是这个攻击的开胃小菜,接下来文章作者给大家整个大活。
还是比较后门攻击在逃避后门检测和微调时的表现。这一次作者选择了BadNet, Trojan attack,Hidden Backdoor ,Latent Backdoor和Refool作为攻击的baseline。选择了7种检测算法:Neural Cleanse; Gangsweap (GC);TABOR;Strip;DL-TND;DF-TND和ULP。
实验使用的数据集为CIFAR10, VGGFACE10,和Imagenet10。使用的模型为resnet34。后门模型的表现如下图所示:
可见无论何种攻击,都达到了后门攻击高准确率和高ASR的要求。
攻击隐蔽性测试如下图所示:
只有文章使用的算法完美避开了所有的后门检测,最简单的攻击BadNets完全暴露在检测之下。
除了检测隐蔽性,还要检测模型在微调下的鲁棒性,实验结果如下图所示:
可见文章提出的算法在微调不同层,使用不同微调学习率时基本可以保持比较好的防御效果。
本文来源:COMPASS Lab
作者:熊晖
往期推荐
TDSC 2022 | 为安全联邦学习建立互信的多混洗框架
NFGen | 自动化非线性函数评估代码生成器