高被引Top1团队综述:图像、图形及文本领域的对抗攻击及防御
深度神经网络(DNN)逐渐代替传统模型,成为机器学习中最热门的工具,它已被成功应用于计算机视觉,自然语言处理等很多领域。然而,最近的研究表明,深度模型极容易被对抗样本攻击。人为稍微扰动模型的输入,可能导致模型给出完全相反的预测结果,从而出现差之毫厘、失之千里的错误。从此,对于深度模型在对抗样本的鲁棒性的研究成为机器学习的热门话题之一。
4月,IJAC于最新一期发表美国工程院院士、密歇根州立大学Anil K. Jain团队和Jiliang Tang 团队合作带来的特约综述,第一作者为密歇根州立大学Xu Han博士。文章总结、讨论了与对抗样本及其应对策略相关的研究,系统且全面地综述了图像、图形、文本领域的前沿算法,概览了对抗攻击与防御(adversarial attacks and defenses)的主要技术与成果。
Anil K. Jain教授简介
密歇根州立大学(Michigan State University)杰出教授,美国工程院院士,印度工程院外籍院士。研究领域包括模式识别、计算机视觉和生物特征识别,在学术界和工业界具有极高的知名度和影响力,曾被评为全球计算机学科论文引用率最高的学者,Google h-index高达181,Google引用次数接近十九万次。
全文下载(开放获取):
https://link.springer.com/article/10.1007/s11633-019-1211-x
云/交/流/邀/请
IJAC编辑部特邀请本文作者参与在线互动交流,全球高被引Top1团队成员在线答疑,后台提问,作者有问必答!
在机器学习领域中,深度神经网络(DNN)逐渐代替传统模型,成功地应用于各个场景,例如计算机视觉和自然语言处理等等。在一些应用中,深度模型表现出了近似或者高于人脑的智力,比如在2017年DeepMind科学家提出的Alpha Zero模型,可以战胜顶尖的人类围棋选手。
随着深度学习模型的发展,它们的的安全性逐渐被得到重视,因为它们经常被用于处理一些安全性相关的任务。比如,自动驾驶车辆通过卷积神经网络识别交通标志。或者是金融风险检测系统可以借助图形卷积网络(GCN),帮助企业判断客户的信用评级。假如以上涉及的深度神经网络发生任何不可预测的错误,这会产生巨大的损失。所以我们除了要求深度模型有高性能的表现以外,也需要关注它们的稳定性和可靠性。
近年来,很多研究表明DNN模型极容易被对抗样本所攻击,"对抗样本"可定义为"机器学习模型中,攻击者有意设计的、旨在使模型出错的输入数据"。最早的对抗样本产生于图像分类的场景中。对于已经训练好并有很好的准确度的图片分类模型,攻击者可以人为合成一些图片,它们与原图看上去几乎一样,但能误导分类器得到完全错误的预测,如下图所示。
在MNIST,CIFAR, ImageNet等数据集上的实验上显示,几乎所有的图片都可以被上述的方式攻击。这表明我们所使用的DNN模型有很大的安全性隐患。此外,在其他包括图形、文本或声音的应用领域,可对抗样本的现象也同样存在。
例如,在图形神经网络(GNN)中,改变原图的一两条边,足以使模型产生错误的判断。或者是在对话系统中,一句话中一个错误的拼写,会导致模型返回完全不相关的回答。因此,对抗样本以及模型在对抗样本下的鲁棒性成为了深度学习领域中亟待解决的问题。
为了解决对抗样本带来的问题,找到保护深度神经网络的对策,学术界已经发表了很多研究成果,这些成果可大致分为三类:1) 隐藏梯度(gradient masking):由于多数攻击算法基于分类器的梯度信息,因此故意隐藏或混淆梯度可以使(攻击者找不到对抗样本。2) 鲁棒优化(robust optimization):这类研究展示了如何训练出鲁棒的分类器。即使攻击者生成对抗样本,模型依旧可以准确的将它们分类。3) 对抗检测(Adversary detection):这类方法试图在样本输入模型之前先对样本是否对抗做出检测,可以看作是一种预防对抗样本的方法。上述三类方法很好地提升了DNN对于对抗样本的防御能力,但仍有很多被之后的更先进的攻击方法攻击。攻击和防御算法的发展使其相互促进,从而帮助我们不断提升深度模型的安全性能。
除了构建安全可靠的DNN模型,研究对抗样本及其应对措施可帮助我们更好理解DNNs的特性,并不断对其进行改善。例如,对抗扰动在感观上不易被人眼察觉,但能逃避DNN的检测,这表明DNN的预测方法与人脑推理不一致。当前,有一些说明和解释DNNs对抗样本存在的研究,可以让我们更加深入了解DNN模型。
本文旨在总结、讨论与对抗样本及其应对策略相关的研究,系统且全面地综述了图像、图形、文本领域的前沿算法,概览了对抗攻击与防御的主要技术与成果。
本文第一部分为导读;第二部分介绍了一些对抗攻击与防御相关的常用概念及其定义,同时对攻击与防御进行了基本分类;第三和第四部分着重讨论了图像分类场景中的主要攻击及防御技术;第五部分简述了一些研究,旨在解释对抗样本现象;第六和第七部分分别综述了图形及文本数据领域的相关研究。
Adversarial Attacks and Defenses in Images, Graphs and Text: A Review
Han Xu, Yao Ma, Hao-Chen Liu, Debayan Deb, Hui Liu, Ji-Liang Tang, Anil K. Jain
摘要:
Deep neural networks (DNN) have achieved unprecedented success in numerous machine learning tasks in various domains. However, the existence of adversarial examples raises our concerns in adopting deep learning to safety-critical applications. As a result, we have witnessed increasing interests in studying attack and defense mechanisms for DNN models on different data types, such as images, graphs and text. Thus, it is necessary to provide a systematic and comprehensive overview of the main threats of attacks and the success of corresponding countermeasures. In this survey, we review the state of the art algorithms for generating adversarial examples and the countermeasures against adversarial examples, for three most popular data types, including images, graphs and text.
关键词:
Adversarial example, model safety, robustness, defenses, deep learning.
全文下载:
https://link.springer.com/article/10.1007/s11633-019-1211-x
往期好文✚●
○
港科大-微众AI杨强团队:用于生成对话系统的迁移多层注意力网络
【综述】美外籍院士Brian Anderson: 社交网络中舆论动力学研究进展
○2020年国际学术会议参考列表
【最新】2020年4月会议变动汇总
一款强大的公式编辑器
2020年3月会议 & 科技部新政速览
【科研战”疫”】IEEE ICAC’20 征稿!
2020年1-2月会议日历
IJAC 2019高被引论文 & 优秀审稿人
如何在不平坦的科研路上狂奔?
【新学期必备】AI学习全路线资源分享【资源共享】9大类186组公开数据集
复杂公式转LaTex:一张图片,三步搞定!提升科研效率的几款小工具一张图帮你界定AIIEEE给您的8条办会建议
【主编报告】如何写好一篇学术论文?
Global Focus · Leading Research
官网 : www.ijac.net
Springer主页:link.springer.com/journal/11633
新浪微博:IJAC-国际自动化与计算杂志
Twitter: IJAC_Journal
Facebook: ijac journal