建议收藏!近期值得读的 9 篇「对抗样本」最新论文
#Adversarial Attack
本文来自清华大学和腾讯 AI Lab。黑盒对抗攻击是所有对抗攻击中难度最高的,因为模型的结构和参数以及训练的数据集都未知,只能通过对 AI 模型进行查询获得信息。标准的 ES(进化策略)算法可以进行黑盒攻击,其中高斯分布作为搜索分布被广泛采用。然而,它可能不够灵活,无法捕捉不同良性样本周围对抗扰动的不同分布。
该论文提出了一个新的策略,通过一个基于条件流的模型将高斯分布变量转换到另一个空间,以增强捕捉良性样本上的对抗扰动的内在分布的能力和灵活性。此外还在一些白盒代理模型的基础上,利用对抗扰动在不同模型间的可传递性,对条件流模型进行预训练。实验结果表明该策略可以同时利用基于查询和基于转移的攻击方法,在有效性和效率上达到令人满意的攻击效果。
本文来自丹麦奥尔堡大学。在对抗样本的防御中,神经网络的鲁棒性是一个重要的方向,但是很多研究对鲁棒性的定义不尽相同,缺乏精确的共同基础的鲁棒性概念。
在该论文中,作者提出了一个严格而灵活的框架来定义不同类型的鲁棒性,这有助于解释鲁棒性和泛化之间的相互作用。论文也给出了最小化相应损失函数的有效方法。一个损失是为了增强对抗非流形攻击的鲁棒性,另一个损失是为了提高给定数据分布下的泛化能力。
实验结果表明,与目前最先进的数据增强和正则化技术相比,我们可以在不同的鲁棒性目标下进行有效的训练,获得更高的鲁棒性得分和更好的泛化能力。
#Adversarial Training
本文来自多伦多大学的向量研究所。对抗训练是提高深度神经网络鲁棒性的常用方法。该论文用一种新的正则化方法代替对抗训练。在鲁棒优化框架下建立了对抗鲁棒性问题,提出了一个二阶对抗正则化器(SOAR),通过二阶泰勒级数展开逼近损失函数,实验表明,该方法提高了网络对 CIFAR10 数据集的鲁棒性。论文推荐指数:3颗星。
本文来自韩国科学技术院。现有对抗样本生成方法(如 FGSM,PGD,CW,JSMA,和 AdvGAN 等)大多使用类标签来生成导致 AI 模型预测错误。为了提高模型的鲁棒性会利用对抗样本进行对抗训练。
该文提出了一种新的针对未标记数据的对抗攻击方法,并且提出了一个自监督对比学习框架来训练一个无标记数据的鲁棒神经网络,其目的是最大限度地提高增强的数据样本与对抗扰动之间的相似性。实验结果表明,该方法获得了与最先进的监督对抗性学习方法相当的鲁棒精度,并且显著提高了对黑盒攻击和不可见攻击的鲁棒性。
本文是中国电子科技大学和旷视科技发表于 CVPR 2020 的工作。机器学习模型存在对抗性样本攻击的可能性。黑盒攻击模式下,当前的替身攻击(Substitute Attacks)需要使用预训练模型生成对抗性样本,再通过样本迁移性攻击目标模型。但是实际任务中,获得这样的预训练模型很困难。
本文提出一种替身模型训练方法——DaST,无需任何真实数据即可获得对抗性黑盒攻击的替身模型。DaST 利用专门设计的生成对抗网络(GAN)训练替身模型,并且针对生成模型设计多分支架构和标签控制损失,以处理 GAN 生成数据分布不匀的问题。然后,使用 GAN 生成器生成的样本训练分类器(即替身模型),样本的标签为目标模型的输出。
实验表明,相较基准替身模型,DaST 生产的替身模型可实现具有竞争力的性能。此外,为评估所该方法的实用性,本文在 Microsoft Azure 平台上攻击了在线机器学习模型,在线模型错误地分类了本文方法生成的 98.35% 的对抗性样本。据知,这是首个无需任何真实数据即可生成替身模型并用来产生对抗攻击的工作。
本文来自新泽西理工学院。黑盒对抗攻击由于无法获取模型的参数信息和网络结构信息,只能通过查询的方式获取分类结果信息,所以对抗样本的可迁移性是攻击黑盒模型很重要的特性。
本文证明了黑盒攻击对 0-1 损失模型的有效性低于凸模型,并且 0-1 损失模型攻击对凸模型和 0-1 损失模型都无效。实验结果表明,在双层神经网络中,0-1 损失的不连续性会使得对抗样本在 AI 模型之间不可迁移。
#IJCAI 2019
本文来自阿里巴巴。对抗样本可以导致机器学习模型的误分类,对抗样本中对抗扰动的可以基于梯度方法生成如 FGSM,PGD,也可以基于优化的方法生成如 CW 和 JSMA,但这些方法产生的扰动只依赖于输入图像。
本文提出了一个通用的框架,可以根据输入图像和目标标签推断目标条件扰动。与以往的单目标攻击模型不同,该模型通过学习攻击目标与图像语义的关系来进行目标条件攻击。通过对 MNIST 和 CIFAR10 数据集的大量实验,证明了该方法在单目标攻击模型下取得了较好的性能,在小扰动范数下获得了较高的欺骗率。
推荐系统(RS)在各大软件平台得到的广泛的应用,如影视推荐,音乐推荐,新闻推荐,书单推荐等。但近些年来的研究表明,推荐系统容易受到对抗样本的攻击,用户交互数据可能受到恶意活动或用户误操作的污染,从而导致不可预测的自然噪声和危害推荐结果。
本文详细介绍了当前有关攻击和防御推荐模型的最新进展,并且提供了 60 多篇主要发表在 RS(推荐系统)和 ML(机器学习)的期刊和会议上的文章。该论文为 RS 社区提供了参考,致力于推荐模型的安全性。
#Adversarial Examples
本文来自 UC San Diego。Deepfake 技术使得假视频生成更加容易,在多媒体环境中导致假视频泛滥,滋生虚假信息,降低媒体的信任度。因此,对假视频的检测引起了学术界和工业界的极大兴趣。最近发展起来的依靠深度神经网络的视频检测方法可以区分人工智能生成的假视频和真实视频。
本文证明了对现有 Deepfake 方法合成的假视频进行反向修改来绕过 Deepfake 检测器的可能性,并且在白盒和黑盒攻击场景中通过提供管道,可以欺骗基于 DNN 的 Deepfake 检测器,将假视频分类为真实视频。
更多阅读
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。