ICML 2023 | 你的AI被黑客攻击了吗？如何用期望扰动分数揭秘对抗数据？

Original 张书海将门创投

2024-08-23

对抗攻击（Adversarial Attack）旨在通过向样本中加入难以察觉的扰动来误导模型的预测结果，其产生的对抗样本（Adverasarial Samples）会对已经广泛部署的机器学习模型系统造成威胁，急需高性能的对抗防御方法来保障神经网络模型的安全性和鲁棒性。

现有的对抗样本处理策略主要分为对抗训练（Adversarial Training）、对抗净化（Adversarial Purification）和对抗检测（Adversarial Detection）。

对抗训练方法将对抗样本引入到训练过程中，从而提升模型的鲁棒性，然而可能面临性能退化问题和极高的计算复杂度；
对抗净化方法利用生成模型来净化对抗样本，再将净化后的样本输入到分类模型中，但是需要在自然和对抗精度（Natural and Adversarial Accuracy）间做出妥协，性能难以令人满意；
对抗检测方法则是根据分布差异来检测对抗样本，并拒绝为对抗样本做出预测，这类方法可以在几乎不损失自然精度的前提下确保安全的输入源，对现有模型体系十分友好。

然而，现有对抗检测方法大多仅针对某些特殊攻击方法，或仅用于某些特定分类模型，忽视了对自然样本和对抗样本空间分布的建模，难以应对不可见攻击（Unseen Attacks）或可转移的攻击（Transferable Attacks）。

此外，在高维空间中直接估计和比较两个数据分布十分困难，一般通过估计样本的对数概率密度梯度（a.k.a Score）来代替。该统计量在对抗防御和扩散模型领域已经成为一个强大的工具。然而，如何有效利用score进行对抗检测仍是一个未解决的难题。

本文介绍我们发表于ICML 2023的文章《Detecting Adversarial Data by Probing Multiple Perturbations Using Expected Perturbation Score》。文章中提出了基于期望扰动分数（Expected Perturbation Score, EPS）的对抗检测方法EPS-AD。在此基础上，我们从理论上验证了自然样本与对抗样本间的分布差异，并在CIFAR-10、ImageNet数据集上取得了一致性的优异性能。

论文链接：
https://arxiv.org/abs/2305.16035
代码链接：
https://github.com/ZSHsh98/EPS-AD.git

一、Motivations

最近，一些方法开始利用扩散模型（Diffusion Model）来净化（purify）对抗样本。Yoon et al[1]通过逐步移除对抗样本或自然样本中的噪声达到净化的目的。在净化过程中（ purification process），通过净化后的自然样本与净化后的对抗样本的score范数确定一个阈值停止对样本净化，防止过度净化对样本造成损坏。他们从经验上发现，在净化过程中自然样本通常比对抗样本拥有更低的score范数。

直观来看，score可以用来表示样本向自然数据分布高密度区域的运动动量，较低的score范数意味着样本距离自然数据分布高密度区域更近，即样本遵循自然样本分布的概率更高。

本文通过实验验证了这一结果，在上图中，同一净化时刻（timestep），大多数自然样本的score范数始终低于对抗样本。然而，实验结果同样揭示出单个样本的score存在问题：在整个净化过程中，自然样本与对抗样本的score范数分布始终存在重合，且自然样本与对抗样本的score范数重合程度对净化过程的timestep十分敏感。

上述问题说明，单个样本的score所包含的信息并不足以完全分辨自然样本与对抗样本，会导致两类样本分布差异波动极大，难以实现高性能的对抗检测。

二、方法与分析

本文考虑利用多级扰动来获取单个样本的更多信息，以次构造了一个新的统计量：期望扰动分数（EPS）。基于该统计量，本文提出一种对抗检测方法，称为EPS-AD。方法框架如下图所示：

这里首先给出期望扰动分数的定义，并理论推导出自然样本和对抗样本EPS的分布差异。基于EPS，本文利用MMD（Maximum Mean Discrepancy）探索了一种通用的检测机制，称为EPS-AD。最后，以高斯核的MMD（Gaussian Kernel MMD）为例，给出对抗检测方法EPS-AD有效性的理论依据。

2.1 期望扰动分数（EPS）

上述实验表明，由于单个样本的score所包含的信息不足，自然样本与对抗样本之间score的分布差异会随扰动过程出现明显波动，不利于对抗检测性能的提高。对此，本文考虑通过加入多级扰动来获得单个样本的多个观测，并计算这些观测在相应扰动下score的期望（即EPS），从而获得一个样本充足的信息。

需要注意的是，扰动过程中的状态转移分布可以是任何形式的分布，如高斯分布或均匀分布。由于本文采用现有的预训练扩散模型来实现扰动过程，后续分析中的状态转移分布与数据分布均视为高斯分布。

基于Definition 1，本文进一步分析自然样本与对抗样本的EPS ，并得出下面的Theorem 1 ：

Theorem 1中的结论说明：

1、前两条表明，自然样本与对抗样本的EPS分布的均值相差；

2、第三条表明，相比于对抗样本，自然样本的EPS更接近其余的自然样本，并且当扰动参数和较小时，这种差异越为明显。

为了实现更好的检测性能，我们希望得到更大的期望和更小的方差。然而，从Theorem 1中可以发现，随着扩散时长的增加，与会同时下降。如果仅考虑单个时间的样本score（即去掉EPS定义中的期望），则分布差异的期望和方差会出现大幅波动，进而导致对抗检测的性能对净化过程的timestep十分敏感。为缓解这个问题，本文计算了净化过程中多个timestep时样本score的期望，从而使自然样本与对抗样本之间的分布差异度量更加稳定。

基于EPS所拥有的上述性质，可以很自然地将这种统计量用于样本分布的估计和比较，进而应用在对抗检测任务中。

2.2 基于EPS的对抗检测（EPS-AD）

一个初步的想法是直接使用EPS的范数来作为对抗检测的度量标准，然而，范数仅能表示EPS向量的模长，而忽略了向量方向中包含的信息。因此，选择一个可以充分利用EPS来衡量对抗样本与自然样本间距离的度量指标十分关键。

受益于最大平均差异（MMD）衡量两个分布间距离时的优秀性能，本文选择它来作为度量指标。首先构造自然样本集合和测试样本集合，利用MMD，可以计算与间的距离如下：

由于对所有自然样本和测试样本均进行相同的扰动过程，上式中的第一项与第三项在多数情况下（如为高斯核）对不同测试样本来说均相同，因此在分析时只考虑交叉项，于是可得出如下推论：

Corollary 1表明，当给定使得接近时，交叉项将变得很大。结合Theorem 1，可以得出结论：由于附加项，自然样本在大概率下拥有比对抗样本更大的交叉项，即自然样本EPS之间的MMD小于自然样本与对抗样本EPS之间的MMD。

除此之外，为展现EPS统计量本身的价值，本文在实验中给出并分析了EPS-N方法，即通过比较测试样本与自然样本集合间EPSs的范数差异来检测对抗样本。实验发现，仅使用EPS-N的范数也可以取得较好的检测性能。

三、实验验证

3.1 EPS-AD在CIFAR-10、ImageNet数据集上均取得SOTA

在两个数据集上的实验中，EPS-AD与EPS-N均一致性地优于baseline方法，且EPS-AD在各种攻击方式的样本下均达到SOTA水平（其余5种常用攻击方式的结果请见文中附录E）。

3.2 EPS-AD在面对不可见攻击、可迁移的攻击时保持优异性能

在复杂多变的现实部署场景中，模型极有可能受到未知来源、未知方式的攻击，例如检测模块训练阶段没见过的攻击（Unseen Attack），或是针对其他分类器生成的、可迁移的攻击（Transferable Attack）。

面对上述攻击方式，尤其是迁移攻击，一些方法的性能严重下降，而EPS-AD通过建模对抗样本与自然样本间的数据分布差异来实现检测，不依赖具体的攻击方法，在此类场景下有较好的性能。为了验证这一点，本文设置了针对不可见攻击和可迁移攻击的评估实验。

对于不可见攻击的检测，由于EPS-AD使用和的对抗样本训练深度核，本文将这两种攻击设置作为为可见的（Seen）样本来训练baseline模型，用于检测其他10种不可见（Unseen）对抗样本（其余5种常用攻击方式的结果请见文中附录G.1）。从下表的结果可以看出，几个baseline模型出现了不同程度的性能下降，而EPS-AD则始终保持SOTA性能。

对于可迁移攻击的检测，本文在ImageNet数据集上生成了针对ResNet-101分类器的对抗样本，并用来攻击ResNet-50分类器上训练的检测模型。从下表的结果可以看出，非diffusion的几个baseline方法（如KD,LID,MD和LiBRe）均出现了性能的大幅下降，而EPS-AD则始终保持SOTA性能，表明EPS-AD在多样的攻击场景都有好的检测性能。（其余5种常用攻击方式的结果请见文中附录G.1）

3.3 EPS-AD在面对低强度攻击、跨数据集攻击时保持优异性能

为展示EPS-AD的性能，本文在极低的攻击强度（e.g. ）下进行了一项实验。当攻击强度极低时，攻击通常不能成功误导模型，但EPS-AD仍能精准度量对抗样本与自然样本间的分布差异，并给出正确的检测结果。

除此之外，由于EPS的估计需要借助预训练的扩散模型，检测算法的性能是否会依赖某一特定的扩散模型也是本文关心的问题之一。为此，本文设计了一个跨数据集迁移攻击的检测实验。具体来说，在CIFAR-10数据集上生成对抗样本，并采样出两个不相交的自然样本集与对抗样本集，接着，使用在ImageNet数据集上训练的扩散模型与核函数来检测这些样本。为了与原方法区分，本文将跨数据集的检测器称为EPS-AD*。

从上表的结果可以看出，EPS-AD* 的性能与原方法基本相当，进一步说明EPS统计量对于衡量分布差异的优异的性质，以及EPS-AD方法的通用性。

3.4 Timestep对检测性能的影响

考虑到基于样本score的指标对扩散时长的敏感性，本文还设置了针对timestep的消融实验，实验中测试了一个完整的扩散过程中不同时刻的对抗样本（使用方法攻击）检测精度。

试验结果表明，当时，EPS-AD和EPS-N均取得了可用的AUROC，并且在时一致性地优于baseline方法。由此可见，本文的方法很好地解决了现有方法对扩散时间的敏感性问题。

四、总结与未来工作

本文提出了一种新的统计量：期望扰动分数（EPS），来获取单个样本丰富的的多个观测信息，并将其作为区分自然与对抗样本的有效度量。基于EPS，文中提出了一个新颖的对抗检测方法EPS-AD，并通过理论分析与实验证明了所提方法的优异性能。

与其他利用对抗样本在神经网络中的隐层特征来训练检测器的方法不同，EPS-AD通过建模自然样本与对抗样本的分布差异实现样本的区分，这使得模型在面对不同攻击方式、攻击强度和跨数据集的对抗样本时表现出惊人的鲁棒性和一致优异的性能。

一个可能的concern是，EPS-AD的推理阶段需要对样本进行多级的扩散过程，尤其是在高分辨率样本（e.g. ImageNet）时会花费较长的时间。在本文的实验部分也对此进行了探究，发现通过降低输入样本的采样精度或是选择更短的扩散时长可以显著的减少推理时间，但却需要对检测精度做出相应的妥协。在未来工作中，可以考虑如何简化扩散过程的构造，进一步缩减方法的推理时间，使得该方法能够用于实时检测。

Reference

[1] Adversarial Purification with Score-based Generative Models. ICML 2021.

作者：张书海

Illustration by IconScout Store from IconScout

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线480+期talk视频，2400+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信（chemn493）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

>>> 添加小编微信！

关于我“门”▼将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构，旗下涵盖将门创新服务、将门技术社群以及将门创投基金。
将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”: bp@thejiangmen.com

点击右上角，把文章分享到朋友圈点击“阅读原文”按钮，查看社区原文⤵一键送你进入TechBeat快乐星球

继续滑动看下一个

将门创投

向上滑动看下一个

“占坑式辩护”，侵犯了谁？

突发！一小学门口发生撞人事件

52岁孟晚舟参加毕业典礼，穿2万多羊绒衫显贵气，演讲内容惹争议

大老虎！落马了

浙西旗山同学会（3）——荷塘、稻香、山中大观

ICML 2023 | 你的AI被黑客攻击了吗？如何用期望扰动分数揭秘对抗数据？

一、Motivations

您可能也对以下帖子感兴趣

“占坑式辩护”，侵犯了谁？

突发！一小学门口发生撞人事件

52岁孟晚舟参加毕业典礼，穿2万多羊绒衫显贵气，演讲内容惹争议

大老虎！落马了

浙西旗山同学会（3）——荷塘、稻香、山中大观

生成图片，分享到微信朋友圈

ICML 2023 | 你的AI被黑客攻击了吗？如何用期望扰动分数揭秘对抗数据？

一、Motivations

您可能也对以下帖子感兴趣