查看原文
其他

给AI系统做“安全体检”,阿里安全提出自动化AI对抗平台CAA | AAAI 2021

出品 | AI科技大本营(ID:rgznai100)

安全人员曾为某车企自动驾驶系统做过一次安全测试,用物理对抗攻击欺骗Autopilot车道检测系统,导致汽车在Autopilot不发出警告的情况下驶入错误车道。假如这是一场真实的攻击,后果不堪设想。

事实上,AI系统如果没有足够的“免疫力”,甚至会被一张图片欺骗,如将停车标志识别为通行,在医疗应用中将有问题的医疗影像识别为正常图像等。

为帮助AI应用从源头构建安全性,阿里安全图灵实验室整理归纳了学界针对AI模型提出的32种攻击方法,以此为基础搭建了一个自动化AI对抗攻击平台CAA,帮助检测AI系统存在的安全漏洞。

经CAA“体检”后,AI安全专家可针对被检测AI的薄弱地带提出安全建议,助力AI鲁棒性(稳定性)检测,以此增强AI系统的安全性。

近日,该研究成果《Composite Adversarial Attacks》被人工智能顶会AAAI2021接收。AAAI2021从7911篇有效投稿中录取了1692篇论文,录取率约为21%。


自动化搜索技术合成多个攻击算法的组合


阿里安全图灵实验室整理归纳了学界针对AI模型提出的32种攻击方法,以此为基础搭建了一个自动化对抗攻击平台CAA。

横向对比业界的其他工具箱,图灵实验室的自动化对抗攻击平台首度实现对抗攻击的“工具化”。它让攻击者在没有任何专业领域知识的情况下,也可以进行AI模型的对抗攻击和鲁棒性测试。

除此之外,阿里对抗攻击平台通过自动化搜索技术来合成多个攻击算法的组合,该特性提升了现有模型攻击方法的性能和效率。

该论文通过实验表明,CAA超越了最新提出的攻击方法,是威胁当前AI系统安全的最强攻击。

对抗攻击是当下AI系统的新威胁,它使得很多在现实世界中应用的AI系统存在的安全漏洞极大地暴露了出来,例如特斯拉汽车自动驾驶Autopilot的车道检测系统被来国内安全研究人员通过物理对抗攻击所欺骗,导致汽车在Autopilot在不发出警告的情况下驶入错误车道。

除了自动驾驶,在每天信息爆炸增长的互联网上,一些暴力色情的信息也需要AI模型去自动过滤,但是经过对抗攻击处理的信息可以轻易的绕过识别模型,影响清朗的网络空间。

近年来,学界提出了多种实现对抗攻击的方法,他们都被集成在各大工具箱中。如图1所示,研究者通常利用这些工具箱实现的攻击算法,在原图上添加肉眼不可感知的对抗扰动,从而欺骗目标模型使得一张色情图片被错误判断为正常。

图1:通过对抗攻击绕过色情识别系统的简单图例

图2:左图为合成对抗攻击示意图,右图是CAA和现有方法的对比


算法自动选择最优攻击组合和参数


在不知道目标模型的防御细节的情况下,研究者很难根据经验选择到对当前模型最优的攻击算法。

例如,对抗训练的模型对PGD,FGSM等梯度优化攻击很鲁棒,但是对图片的Spatial transform很脆弱,反之经过图像平移旋转数据增强的模型对Spatial transform鲁棒,而PGD,FGSM则很容易攻击成功。

这个现象说明利用现有工具箱实现的攻击方法去盲目尝试和微调是低效的,因此,为了更精准的检查目标模型的漏洞,获得全面的鲁棒性报告,通常需要合成多个对抗攻击。

其次,在实际中,完成对抗攻击有很高的门槛,研究者需要从多个工具箱集成的多个攻击算法不断的尝试,调整参数,这一步要求攻击者具备一定的领域知识和经验,并且具备一定规模的计算资源。

以事前“攻击演练”检测AI系统的安全性,是当前提升安全AI的有效方法,也是阿里提出新一代安全架构,从源头构建安全的核心理念。

但如果不知道目标模型的防御细节,研究者通常很难根据经验选择到对当前模型最优的攻击算法,从而难以验证“体检”的真实效果。

为了解决这个问题,阿里安全图灵实验室的专家首次提出将自动化技术引入到对抗攻击中,使得所有攻击对抗细节和参数作为一个黑箱,而研究者只需要提供目标模型和数据,算法就会自动选择最优的攻击组合和参数。

基于以上分析,该论文提出了两点改进。

首先文章探究了如何更高效的合成多个对抗算法,如图2左所示,通过对比单攻击、多攻击并行合成、多攻击串行合成三种方式,文章发现多攻击串行进行攻击合成的形式更加通用且具备更强的攻击效果。

通过引入恒等变换操作,即不进行任何处理的IdentityAttack、单攻击、多攻击并行合成可以看作多攻击串行合成的特例,因此文章采用后者作为多攻击合成的方式。在图2左的例子中,相比前两者,CAA的攻击合成机制可以造成目标模型更大的分类错误率。

其次,阿里安全图灵实验室首次研究了在自动化技术辅助下的对抗攻击,CAA实现了32种常用的攻击算法作为攻击的候选池,并且使用搜索算法从候选池中选择最优的组合和每个算法的超参数,而目标函数则是最小化目标模型的分类准确率和计算复杂度(在攻击中量化为需要后向计算目标模型梯度的次数)。

文章对比分析了三种在自动机器学习中常用的技术:贝叶斯优化、强化学习、遗传算法。

在该问题下,基于全局优化的遗传算法取得了更好的效果和收敛速度,论文最终采用NSGA-II非支配排序遗传算法进行攻击算法和超参数的搜索。

在实验中,研究人员把攻击场景分为两种:扰动受限和扰动不受限,如图3左上所示,CAA在linf攻击设定下实现了7种攻击进行搜索,而在l2攻击和扰动不受限攻击设定下分别实现了7种和20种。图3展示了这两种场景下的对抗样本。

通过在3个数据集(Cifar10,ImageNet,Bird&Bicycle)和11种不同防御上的测试,实验表明CAA在扰动受限和扰动不受限两种攻击模式下均超越了现有模型,尤其是在扰动不受限攻击上,几乎使得现有防御模型的分类准确率降低至0%。

图3:左上为本文实现的32种基础攻击算法,

左下是不同攻击策略生成的对抗样本示例,右图为扰动不受限对抗样本示例

对于暴恐、色情识别等安全防控AI,模型可靠性和鲁棒性显得尤为重要,而阿里安全图灵实验室提出的自动化对抗攻击平台现已经在内部场景进行使用,对业务场景的识别模型进行更加可信的鲁棒性评估。

同时,算法开发人员可以根据鲁棒性评估结果检查模型的安全漏洞。以AI体检AI,以AI训练AI。

阿里安全图灵实验室算法专家萧疯认为,对识别黄、赌、毒等不良内容的安全检测AI而言,模型可靠性和鲁棒性显得尤为重要。

目前,在鉴黄算法上,图灵实验室正在借此技术方法提升曝光、模糊、低画质等极端分类场景下的模型识别能力,并且逐渐提升模型在极端场景下的鲁棒性,为业界提供更安全可靠的AI算法能力。

论文地址:

https://arxiv.org/pdf/2012.05434.pdf

更多精彩推荐

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存