提高对抗性迁移能力,通过基于神经元归属的攻击方法(CVPR 2022)
关注公众号,发现CV技术之美
本篇文章分享 CVPR 2022 论文『Improving Adversarial Transferability via Neuron Attribution-Based Attacks』,通过基于神经元归属的攻击提高对抗性迁移能力。
详细信息如下:
论文链接:https://arxiv.org/abs/2204.00008
项目链接:https://github.com/jpzhang1810/NAA
01
引言
该论文是关于对抗样本可迁移性攻击的文章。现有的特征级攻击通常会采用不准确的神经元重要性估计,这样会降低了对抗样本的可迁移性。在该论文中,作者提出了基于的神经元属性的对抗攻击,它通过更准确的神经元重要性估计来进行特征级攻击。
首先将模型的输出完全归因于中间层的每个神经元。然后,作者推导了神经元属性的近似方案,以极大地减少计算开销。最后,根据神经元的属性结果对神经元进行加权,并发起特征级攻击。实验结果也证实了论文中方法优越性。论文的代码已经开源。
02
论文方法
特征级别的攻击在生成对抗样本的过程中会破坏掉积极的特征从而扩大消极的特征。因此,由特征级别生成的对抗样本可有继承误导其它深度学习模型的高迁移性特征。特征级别攻击的关键在于找到一个合适的方式去度量每一个神经元的重要程度。在该论文中作者引入了一个度量神经元重要程度的度量方式,名为神经元属性,此外作者还基于神经元重要程度提出了基于神经元属性的攻击方式。
令为干净样本,它对应的真实标签为。为一个分类模型,则表示为的输出。表示第层的激活值,其中表示在这个特征图中第个神经单元的激活值。表示对抗样本,且有,其中表示范数,为对抗扰动。 给定一个基准图像,作者可以定义输入图片的属性为
生成对抗样本的过程中有用的特征被抑制,有害的特征则会被放大。为了分析这两种特征的影响,作者试图找出哪一种特征主导了对抗样本的可迁移性,利用一个超参数来平衡正面和负面属性,此外,作者还区分不同值的神经元属性的显著程度。
例如,当调查减少一个大的积极属性神经元是否比增加一个小的消极属性神经元更有利于攻击。为此,作者设计了多个线性或非线性变换函数,即,用于积极的神经元属性和用消极神经元属性。因此,目标层上所有神经元的加权属性可以被计算为
03
实验结果
如下表所示为论文中的方法与与baseline方法在无防御模型,对抗训练模型和加载防御模型的分别在白盒和黑盒条件下的攻击效果。可以发现在白盒条件下,论文中的方法的攻击成功率接近100%;在黑盒条件下,该方法也比其它的方法有更高的攻击迁移率。
另外作者还比较了带输入变换的攻击方法的效果,其中输入变换方法分别是PIM和DIM。如下表所示为带输入变换的不同的攻击方法在无防御模型,对抗训练模型和加载防御模型的分别在白盒和黑盒条件下的攻击效果。可以发现在黑盒条件下,论文中方法比其它的方法有更高的攻击迁移率。
END
欢迎加入「对抗学习」交流群👇备注:Ad