查看原文
其他

我们生活中的深度学习模型真的安全吗?

董胤蓬 探臻科技评论 2023-01-01


图片来源:论文“Boosting Adversarial Attacks with Momentum”


作者简介:

董胤蓬,清华大学计算机系四年级博士生,导师为朱军教授。主要研究方向为机器学习与计算机视觉,聚焦深度学习鲁棒性的研究,先后发表CVPR、NeurIPS、IJCV等顶级国际会议及期刊论文十余篇。在Google举办的NeurIPS 2017人工智能对抗性攻防大赛中获得全部三个比赛项目的冠军,2020年清华大学特等奖学金候选人


导读

尽管以深度学习为代表的人工智能算法性能十分优越,但是它们的鲁棒性与安全性存在严重不足,很容易被攻击者恶意构造的对抗样本欺骗。例如,基于人脸识别技术的手机解锁系统可能存在安全漏洞,攻击者可以通过伪装等方式欺骗人脸解锁,进入他人手机。自动驾驶汽车的识别系统也会被攻击者误导,可能导致交通事故。人工智能算法的安全性问题对于这些技术的大规模应用带来巨大的安全隐患。


本文将介绍深度学习鲁棒性相关的前沿进展以及本人所在团队的研究工作,总字数2832,阅读约10分钟。

1. 深度学习的鲁棒性与对抗样本

以深度学习为代表的人工智能算法在图像分类、语音识别、自然语言处理等诸多任务上的性能都取得了巨大突破,也被广泛应用于人脸识别、自动驾驶、智能医疗等实际场景中。然而,近年来的研究发现深度学习模型在鲁棒性上存在严重的不足,很多在特定数据集上测试性能良好的模型反而会被一些人眼不容易识别的“对抗”样本欺骗,导致出现高可信度的错误判断,这就给深度学习算法的大范围应用带来了极大的隐患。例如,向道路标志中添加一些涂鸦式噪声,就会使得自动驾驶的路标识别系统发生预测错误,带来严重的安全隐患[1]。


图1 路标识别中的对抗样本

(左:道路标志中真实的涂鸦;

右:道路标志中对抗构造的涂鸦)图片来源:[1]


所谓对抗样本,是指攻击者向原始样本中添加微小的噪声,使得模型预测发生错误的样本。但是对于人类观察者来说,却很难发现对抗样本和正常样本之间的区别。关于对抗样本的研究主要分为两方面:一是对抗攻击的研究,旨在及时发现模型的问题,评估不同模型的鲁棒性;二是对抗防御的研究,旨在修复模型的问题,提升模型的鲁棒性。

2. 对抗攻击算法

对抗攻击研究如何高效地生成对抗样本,评估模型的鲁棒性。对抗攻击的场景主要分为两种:白盒攻击和黑盒攻击。对于白盒攻击,攻击者知道目标模型的结构和参数,可以利用基于梯度的方法构造对抗样本。由于所构造的对抗样本具有一定的迁移性能(即对于一个模型构造的对抗样本也可以欺骗另一个模型),所以其可以被用来攻击未知结构和参数的黑盒模型,即黑盒攻击,如图2所示。

图2:对抗样本迁移性能示意图


然而,在实际的应用过程中,攻击一个黑盒模型十分困难,尤其对于具有一定防御措施的模型更加难以成功地进行黑盒攻击。造成此现象的根本原因在于现有攻击方法的白盒攻击成功率和迁移性能之间的耦合与限制,使得没有能够同时达到很好的白盒攻击成功率和迁移性能的方法。


由于产生对抗样本可以被描述为一个优化问题,之前的典型攻击算法(如[2])通过迭代的方式求解此优化问题,在迭代过程中的每一步计算当前的梯度,并贪婪地将梯度结果加到对抗样本上,使得所生成的对抗样本仅能欺骗直接攻击的白盒模型,而不能欺骗未知的黑盒模型,在实际的应用中受到了很大的限制。为了解决上述问题,我们在论文[3]中提出了动量攻击算法。该方法在迭代式攻击方法上加入动量项,避免在迭代过程中可能出现的更新震荡和落入较差的局部极值,使得生成的对抗样本不仅能有效欺骗白盒模型,也能欺骗未知的黑盒模型,达到更好的攻击效果。


如图3所示,所提出的动量攻击方法对于未知的黑盒模型可以将攻击成功率提升一倍左右,也证明了模型在黑盒场景下鲁棒性的不足。


图3:动量攻击算法与已有算法的对比

3. 对抗防御算法

由于对抗样本所带来的严重的安全威胁,近年来有大量的对抗防御算法被提出,以提升模型的鲁棒性。目前公认防御效果最好的算法之一是对抗训练。其将模型训练建模为最小最大化(minimax)问题[4],其中内层的最大化问题通过最大化模型损失函数寻找对抗样本;而外层的最小化为题将对抗样本作为训练数据训练模型参数。最典型的对抗训练算法利用投影梯度下降(PGD)方式产生对抗样本进行训练[4],可以得到较好的鲁棒性性能。


然而,仅仅利用某一种方式产生的对抗样本训练得到的模型在某些情况下对于其它方式产生的对抗样本并不能够有效地防御。并且现有的对抗训练算法也不能够有效地探索对抗样本空间,找到不同的、具有多样性的对抗样本。我们提出了一种新颖的训练框架,被称为对抗分布式训练(ADT)[5]。与对抗训练不同的是,对抗分布式训练通过建模对抗样本的分布,可以更好地找到更多样的对抗样本。从而利用对抗分布训练模型参数,可以使得训练得到的模型对于不同的攻击都具备更好的防御能力。图4中展示了不同的对抗训练算法与本文中所提出的对抗分布式训练算法的鲁棒性性能的对比。在CIFAR-10数据集上,对抗分布式训练可以取得更好的结果。


图4:不同算法鲁棒性对比(最后一列为模型最终性能)

4. 对抗攻防平台与测评

随着越来越多的对抗攻防方法与模型的提出,如何合理地评测它们的性能成为一个重要的问题。由于对抗攻防的研究呈现出“军备竞赛”的发展历程:很多防御方法在提出时通常可以抵御当时的各种攻击方法,但是随后就会被新提出的攻击方法攻破,导致人们不能真正地了解不同算法的优劣。同时很多攻防模型没有进行全面的评估,而且现有的鲁棒性测评指标过于简单。


针对这些问题,我们研发了全面的、公平的鲁棒性测评基准与平台,对于已有的对抗攻防方法与模型进行了全面系统的评测[6]。本文选取了16个典型的(防御)模型(包括8个CIFAR-10上的模型和8个ImageNet上的模型)和15种典型的攻击方法,覆盖了白盒、得分、决策、迁移等不同威胁场景,基于无穷范数距离和二范数距离,在统一的标准下定量地评测了这些模型与方法的性能。


同时,为了解决之前测评指标过于简单的问题,我们提出了利用鲁棒性曲线进行测评的方式,可以更加全面地比较不同模型和算法的有效性。图5展示了对于CIFAR-10上模型进行测试的一部分结果。


图5:对于CIFAR-10数据集上模型的鲁棒性测评结果

本文通过分析评测结果,有以下的发现:


1.

防御方法和攻击方法的强度在不同的扰动大小和攻击方法迭代次数下可能会有较大的差别,因此之前的工作中常见的使用少量的选取特定的一组参数的攻击方法来说明防御方法的有效性的做法并不合理;

2.

对抗训练仍然是目前最好的防御方法,且具有泛化性,即针对某种威胁模型进行对抗训练的方法在其它威胁模型下也有较好的鲁棒性;

3.

在基于查询的黑盒威胁模型下,基于随机的防御方法往往有较好的效果。


我们在此工作中开发了RealSafe对抗攻防平台,已开源供大家使用。


结语

深度学习对抗攻防的研究目前仍处于起步阶段,有很多的研究问题没有被解决。然而鲁棒性与安全性问题已经受到了人工智能方向研究人员的广泛关注。对抗攻防的研究对于人工智能在例如金融、医疗、军事等与安全息息相关的领域的应用有着重要意义。未来的对抗攻防技术也会更加关注于评估实际应用中人工智能模型的鲁棒性以及如何改善模型鲁棒性。本文中介绍的方法是对此方向进行的一部分探索,为真正解决深度学习鲁棒性问题提供了一些基础与思路。


参考文献:

[1] Eykholt K, Evtimov I, Fernandes E, et al. Robust physical-world attacks on deep learning visual classification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 1625-1634.

[2] Kurakin A, Goodfellow I, Bengio S. Adversarial examples in the physical world[J]. arXiv preprint arXiv:1607.02533, 2016.



文稿|董胤蓬

编辑|于亿航 周圣钧 高松龄 邱雨浩

审核|赵 鑫 张可人


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存