查看原文
其他

2小时清华课实录 | 130页get人与算法的无间道,深度学习对抗攻防《追AI的人》第12期回放


🦋 人工智能的安全风险有哪些?

🦋 深度学习对抗攻击和鲁棒防御的最新研究进展如何?

🦋 什么是物理世界对抗攻击?

🦋 深度学习对抗安全平台ARES的算法安全基准是怎样的?


《追AI的人》第12期《深度学习对抗攻防:人与算法的无间道》邀请清华大学计算机系副研究员、国家“万人计划”青年拔尖人才苏航老师分享。

本文为直播文字回放,全文共计5542字,完整版130页PPT获取尽在文章底部。


▼ 直播简介:

深度学习对抗攻防:人与算法的无间道|《追AI的人》第12期来咯!



苏航

清华大学计算机系副研究员,入选国家“万人计划”青年拔尖人才,主要研究对抗机器学习和鲁棒视觉计算等相关领域,发表CCF推荐A类会议和期刊论文50余篇,谷歌学术论文引用2500次。现任中国图像图形学会青工委执委、VALSE执行AC委员会主席,担任NeurIPS21的领域主席(Area Chai)、AAAI22 Workshop Co-Chair,并在多次ICML等顶级国际会议上作为分论坛主席组织对抗学习专题研讨。获得ICME铂金最佳论文、MICCAI青年学者奖和AVSS最佳论文等多个学术奖项,曾率队在NeurIPS2017对抗攻防等多个国际学术比赛中获得冠军。



框架要点



  • 人工智能的对抗安全问题

  • 深度学习对抗攻击和鲁棒防御研究进展

  • 如何防御对抗攻击

  • 人脸识别和自动驾驶当中的安全风险实例

  • 物理环境中仿射不变的对抗样本生成

本次内容是对抗性学习,是指在机器学习的过程中有两方甚至多方参与,并且这些参与主体的学习目标具有一定的对抗或者博弈属性。对抗学习体现了学习主体的攻防特点,和人工智能安全具有非常紧密联系。



01

人工智能的对抗安全问题


◆ Deep Learning Reached Human-Level Performance 深度学习达到人类水平表现



在过去的几年当中,我们经常听一些报道,就是深度学习在某些方面超越了人类,比如在图像识别、自然语言处理领域,但是我们需要思考,现在人工智能真的超越了人类了吗?人工智能和和人相比有哪些优势和劣势呢?


◆ ML models are fooled by natural but unusual data ML模型被对抗样本误导



第一张图是Goodfellow他之前在报告的时候经常提到的一张图,我们大家一看就知道这是一个苹果,但是几乎所有的深度学习模型都会认为它是一个material(合成材料),也就是深度学习模型无法给出正确分分类结果。


第二张图是一辆school bus(校车)倒在了雪地上,它被现在的一些主流的深度地图误认为是一个扫雪机。但是很显然,人通常不会犯这样的一些离谱的错误。因此,深度学习模型和我们人相比仍然有明显的不足和缺陷。


深度学习模型在一些长尾数据或者是OOD数据上和我们人相比仍存在很大差距。对抗性学习这个问题是早在2012年的时候由Google brain(谷歌大脑) 研究员Christian发现的。


早在2012年的时候,他在研究中发现,在图片上添加微小的噪声,这个噪声通过人工方式特定生成,就可以高概率的误导目前的深度学习模型。发现这个现象后,当时Christian他写信给Bengio,并被转给Goodfellow,然后他们共同提出这个问题,也就是深度学习中的对抗样本问题。对抗样本说明深度学习模型非常容易被一些恶意生成的对抗性噪声所干扰和误导,从而造成深度学习系统失效,这就给模型大规模部署和应用带来安全隐患


◆ Deep learning models lack the robustness 深度学习模型缺乏鲁棒性




深度学习鲁棒性不足,这张图是我们团队的董胤蓬博士在2017年做的一张图,我们当时发现在给阿尔卑斯山加上对抗噪声之后,它99%那就是被认为是一只狗。并且,这些对抗攻击可以在黑盒场景下实现,也就是模型结构参数都未知情况下,仍然可以生成对抗样本,欺骗深度学习模型


就像机器学习的基础是样本,那么对抗机器学习的基础是对抗样本。但是,对抗样本和自然收集的样本不同,是经过加工的数据,也就是被对手在原始样本上添加恶意生成的对抗噪声,目的是使深度学习模型产生错误的分类,这样的样本我们叫对抗样本


◆ Adversarial examples exist in the real world 对抗样本也存在在真实世界里



对于对抗样本,它是在真实世界也是客观存在的。如图中是一个停止标志,但是通过对抗攻击之后会被深度学习模型误认为是限速标志,这就可能会给自动驾驶汽车带来严重的安全风险。右图是一个人脸识别的例子,这个人他带上了一个特定纹理的眼镜之后,会被误认为另外一个人。


◆ Not only in Computer Vison不仅在计算机视觉上



相关研究发现,对抗样本不止是在图像分类当中存在。在自然语言处理、图神经网络、强化学习以及激光雷达等应用中中普遍存在。


◆ Counter-intuitive 反直觉


👩‍🏫此处提个问题!


深度模型有非常高的概率判断正确,在极小的概率下出现错误。但是,我们为什么要关注这少量的长尾问题?1

可以有助于我们理解深度学习模型的机理。对抗样本说明,深度学习和我们人的机理不同。

2

我们可以发现现有模型存在一些安全风险,特别是在一些安全敏感领域进行大规模部署和应用的重要前提,我们可以把它当做是对模型压力测试的的手段。


◆ A Limitation of the ML Framework ML 框架的局限性



对抗样本,从本质上是模型泛化性的问题。现有几乎所有机器学习模型假设训练数据和测试数据服从相同的分布,但是实际情况下,真实数据和训练数据可能有很大区别,这也是对抗样本出现的根本原因。


◆ Definition of Adversarial Examples对抗样本定义


 

从定义上来说,对抗样本是对机器学习模型有目的或者恶意生成的,会使模型产生误差的样本。


◆ Adversarial Learning 对抗学习



传统的机器学习多数会有一个非常重要的假设,模型和数据是彼此独立的,噪声是一个随机的噪声。但对抗学习研究问题的是噪声和数据以及模型都是相关的。相比较而言,传统机器学习模型研究的是期望意义下的最小值问题。


但是对抗学习则更关注是最差的情况,其目标是保证模型在最差情况下性能也不会太差。从优化角度说,也就是极小极大值问题,从而保证模型下限不太低。但是,这个问题比传统机器学习模型复杂得多。



对抗学习从本质上来讲就是求解一个min-max的问题,通常是一个非凸优化的问题,可以通过内层到外层的分阶段求解来实现。



02

深度学习对抗攻击和鲁棒防御研究进展



◆ How to generate adversarial examples 如何生成对抗样本

我们假设黄色区域是属于第一类样本,橘色区是属于第二类样本,如果分类边界和真实边界有不一致,在真实边界和模型边界之间,就可能通过干扰生成对抗样本。因此,尽管对抗样本看起来是比较反直觉的,但实际上可以把它建模成一个优化问题。


FGSM算法



求解该问题的最早的方法是FGSM算法,即通过求解损失函数的最速梯度下降方向来生成对抗扰动,一直到现在为止,仍然是一种较为有效的对抗样本生成算法。


CW 函数



该问题也可以转化为一个无约束的优化问题,利用C&W的损失函数来求解,这是另外一种比较主流白盒攻击算法。

◆ Black-box Adversarial Attacks 黑盒攻击



除了白盒攻击之外,更为实际的一类方法是黑盒对抗样本生成,也就是在模型的结构和参数都未知的情况下,如何通过迁移攻击和查询攻击等方式,实现对深度学习模型的对抗攻击。



第一个工作是我们团队的一个在迁移攻击方向的工作。我们发现,算法的攻击能力和迁移性能存在某种trade-off, 传统的单步攻击方法具有较强的迁移性但是攻击效果不好;而多步迭代的方法则具有较强的攻击能力但是迁移性不佳。


针对该问题,我们团队的董胤蓬博士提出了融合动量的对抗攻击方法,也就是在进行更新梯度的时候也考虑历史信息。通过这样一个方法可以使得梯度更新更加稳定,在具有较强的攻击能力的同时也提升了对抗的迁移性。


◆ Performance of Transfer-based Attack 基于转移的攻击的表现



实验结果表明,我们的方法在白盒和黑盒场景都获得了很好的攻击性能,也就是在保证攻击能力的情况下也具有较好的迁移性。相关梯度估计思想也被很多后续的工作所认可。


◆ Translation-Invariant Attack [CVPR2019] 平移不变对抗攻击

 


进一步,我们团队发现不同模型的注意力区域具有一定的平移性,因此我们提出了平移不变的对抗攻击算法,我们发现原图像经过平移之后的梯度可以近似用梯度空间的核平滑来近似,通过这样的方法我们可以高效的实现对于平移图像的梯度高效估计,也就是用相对较低的代价极大的提升了模型对抗攻击的性能。


◆ Prior-Guided RGF Method 先验融合查询对抗攻击


 

查询攻击是另外一类非常典型的对抗攻击方法,但是传统方法的估计梯度的效率较低,从而基于类似梯度估计的黑盒攻击算法都需要花费较多的查询,其中的一个重要原因,是这些算法的过程中依赖随机的采样,没有利用到先验知识,我们针对该问题,提出了融合代理模型的梯度(迁移梯度)的查询的攻击算法中,得到了P-RGF(prior-guided RGF)算法。引入先验知识后,可以有效降低梯度估计的方差,实现更加高效的梯度估计,可以在保持高成功率的同时显著降低查询次数。



03

如何防御对抗攻击


◆ How to defense adversarial attacks 如何防御对抗攻击



对抗学习目标模型的可靠性,也就是如何防御潜在对抗攻击。相关学者已提出了多种防御措施,但大多数防御措施最终都因防御措施的局限性而遭到攻击。


在现有防御措施中,对抗训练(AT)是针对对抗攻击最有效的防御措施之一,并且在最近的对抗防御比赛的胜出者解决方案中占主导地位。对抗训练的核心策略用对抗攻击产生对抗样本,并以混合方式将其扩充为训练数据批量处理。在众多的AT框架中,最受欢迎的是PGD -AT,其将对抗训练程序表述为最小-最大优化问题。


TRADES框架通过在模型预测之间使用额外的正则化项进一步增强模型的鲁棒性,从而在NeurIPS2018的对抗竞赛中获得了最先进的性能。但是,目前多数的对抗训练方法通常存在计算代价较大、泛化能力不足等问题,不能满足目前算法鲁棒性防御的需要。


◆ Boosting AT with Hypersphere Embedding 利用超球嵌入来增强对抗训练



针对目前对抗防御算法复杂度过高的问题,本项目提供了一个轻量级但功能强大的模块,以解决现有对抗训练框架的学习动态中的若干缺陷,并促进经过对抗训练的网络学习更鲁棒的特征。


从方法上讲,通过集成超球面嵌入(HE)机制来增强对抗训练框架,该机制对倒数第二层的特征和softmax层的权重进行规一化。除了HE在学习角度判别表示法上的通用优势之外,本项目贡献了理论分析来表明编码的HE机制可以很自然地适应AT。具体的,在对抗训练产生对抗样本的过程中超球嵌入能够产生更有效的扰动


超球嵌入鼓励模型投入更多的精力来学习困难的对抗样本,这些对抗样本有助于提高在最难的对抗性攻击的性能,缓解了无目标或多目标攻击所造成的标签分配不平衡问题,其中对抗标签的产生取决于类之间的相似性;在角度度量下引入更大的类间距离,以进一步提高模型的鲁棒性。


◆ Adversarial Defense via Ensemble Models集成模型



集成模型是近年来出现的一类典型的防御方法。在集成防御中,我们往往使用多个模型的集成(ensemble)作为最终的分类系统。最常见的集成方法是简单地把各个子模型(member)的输出进行平均作为集成输出。然而,现有的绝大部分关于鲁棒性的研究都只聚焦于如何提高单个模型的鲁棒性。独立训练出来的各个单独模型之间会有较强的相似性,或者趋向于返回相关性较高的预测向量。


由于对抗样本在模型特别是相似模型之间迁移(transferability),如果一个集成模型由多个单独训练的网络组成的话,那么对抗样本很容易同时欺骗所有的子模型,从而减弱集成模型的鲁棒性。


针对这一问题,本团队提出自适应多样性增强训练方法(Adaptive Diversity Promoting Training,简称为ADP)。相比于上述的用相似子模型得到的集成模型,ADP方法在训练函数中额外引入了一个多样性正则项,鼓励每个子模型在正确类别上决策一致,而在其他类别上预测不一致。由于其他类别包括所有潜在的对抗样本的目标类别,所以这种不一致性可以使得各个子模型难以被同时欺骗,从而增强集成模型的鲁棒性。


◆ Adversarial Distributional Traning对抗分布训练



对抗训练(AT)是改善模型的最有效方法之一通过增加对抗性示例的训练数据来增强鲁棒性。但是,大多数现有的对抗训练方法采用特定的攻击手段来制作对抗示例,从而导致对其他看不见的攻击具有不可靠的鲁棒性。此外,一次攻击该算法可能不足以探索扰动的空间。


在项目中,我们提出了对抗式分布训练(ADT),这是一种学习健壮模型的新颖框架。ADT被公式化为最小-最大优化问题,其中内在最大化的目的是学习对抗分布以表征在熵调节器的作用下,围绕自然的潜在对抗性例子,外部最小化旨在通过最小化预期来训练健壮模型最坏情况下的对抗分布损失。



04

人脸识别和自动驾驶当中的安全风险实例


◆ Evolutionary Attack on Face Recognition 人脸识别的演化对抗攻击


人脸识别是对安全要求比较高的场景。可以在目标模型仅仅提供预测类别的黑盒攻击场景下,通过尽可能少的模型访问次数构造对抗样本。



为了提升攻击的效率,即减小添加噪声的规模和降低模型的访问次数,该方法通过利用高斯分布模拟搜索方向的局部几何信息,并通过降低搜索空间维度的方法,大幅度提升攻击效率


该方法被用于攻击现有的人脸识别模型和系统。由于人脸识别被应用到了很多与安全相关的领域(如人脸支付等),所以研究人脸识别对于攻击的鲁棒性至关重要。通过所提出的方法,证明了现有的人脸识别模型的脆弱性,即通过很小扰动就可以欺骗这些模型。



这种风险在实际的物理世界中同样存在。我们采用了3D生成器来合成3D人脸信息,进一步提出了一种基于纹理的对抗性攻击范式来生成3D对抗样本,它可以自然地将对抗补丁拼接到特定的面部位置上,使对抗性补丁更加通用且真实,获得不同物理变化下的2D 对抗人脸。因此,一旦获得了这样的模拟环境就能控制模拟环境来研究不同人脸识别模型的鲁棒性。



05

物理环境中仿射不变的对抗样本生成



经典的对抗攻击算法大多没有考虑对物理世界中的仿射变换,而这是现实世界中视点发生变化时的常见情况。因此,这些方法所得生成的对抗样本通常在仿射变换下容易失去对分类器的攻击效果,这使得他们很难在物理世界的系统中造成实际的风险。


因此,我们需要引入仿射不变的攻击方法,来使得生成的对抗样本在放仿射变换下也能保持对分类器的攻击性能。我们提出了一种仿射不变的攻击框架,该框架可以与传统的基于梯度的攻击方法结合,从而提升对于物理世界的对抗攻击的性能。



06

深度学习对抗安全平台与测评



◆ Benchmarking the Adversarial Robustness(对抗性鲁棒性的基准评估)


算法攻防评测对于对抗机器学习具有重要意义,即很多防御方法在提出时通常可以抵御当时的各种攻击方法,但是随后就会被新提出的攻击方法攻破。很多防御模型存在混淆梯度的问题,会被适应性的攻击方法攻破还有很多攻防模型没有进行全面的评估。


我们团队针对人工智能模型的对抗攻防问题,提出了AI攻防“动态平衡”机制,打造ARES人工智能安全平台


平台旨在为算法模型提供安全性测评和攻击防御加固方案,并且面向学术界开源。

(https://github.com/thu-ml/ares)。


目前该平台可以实现攻击算法的调度、利用对抗攻击算法进行模型安全性等上述核心模块。后续将在框架内实现多种对抗攻击算法。该平台支持了不同图像分类任务数据集,支持了不同威胁模型下的、不同距离度量下的、不同攻击目标下的典型对抗攻击算法,提供了易用的模型接口,提供了典型防御方法的预训练模型,旨在为评估对抗攻防方法和模型鲁棒性提供方便统一平台。


基于该平台,我们进行了大规模全面系统的实验以合理评估攻击算法的性能和防御模型的鲁棒性:我们选定模型准确率与攻击成功率随攻击强度变化的曲线、模型准确率与攻击成功率随扰动大小变化的曲线作为指标,评测多个典型防御模型在多种典型威胁模型的攻击算法下的对抗鲁棒性。




06

总结


安全性和可靠性是现在人工智能部署大规模部署的一个非常重要的前提。对抗攻击实际上是发现方法不足的一个很重要的手段;对抗学习是不满足传统机器学习中数据和模型的独立性的一个假设,给机器学习带来了全新的风险,因此需要来发展数据和知识融合的第三代人工智能理论和方法。


等一下!

知识礼包还没结束~



全网40000+人次观看学习的👇



《追AI的人》第13期~AAIG联手国家新闻出版署数字版权生态与标准点实验室和上海理工大学,助力因疫情隔离的学者学生,不停课、不停学、不停研💗为广大学者学子在现在这个特殊时期也能充上满满的学习能量💪🏻

AAIG邀请了IEEE亚太执委、人道主义科技活动委员会主席、中科院自动化所董晶老师分享人像伪造与鉴伪的AI博弈;收获了B站,微博,知乎,每日经济新闻,钉钉五大平台同步支持,全网40000+人次观看学习众多对AI爱好者积极提问,大家高涨的学习热情着实动人👏🏻

第13期的文字回放推文预计会在4月28日于本公众号推送!敬请期待💕

▼▼▼▼▼

13期直播详情回顾

扫码发送:PPT 130页苏航老师PPT原件一键下载!

追AI的人 往期推荐点击标题查看文章

AI模型版权保护的攻防战:基于测试的版权保护框架DeepJudge—《追AI的人》第11期回放



沙盒监管?隐私计算?聊聊多方协同的AI治理模式—《追AI的人》第10期回放



让AI更有益思!一文读懂人工智能训练师: 被国家认可的新职业—《追AI的人》第9期



硬核前沿!万字厘清因果推理融入机器学习:浙大况琨—《追AI的人》第8期直播回放



36万人关注的AI治理互交栏目—《追AI的人》年终总结~我们一起向阳成长


这个AI不太冷 往期推荐点击标题查看文章

“算法偏见”是概念炒作吗?「这个AI不太冷」第3期带你揭秘现实AI!



你会和虚拟人谈恋爱吗?「这个AI不太冷」第2期带你了解现实、应用中的虚拟人!



"人工智障",是算法翻车还是人翻车?跨界科普栏目「这个AI不太冷」第1季上线咯!


更多人工智能治理和可持续发展好文点击下方名片关注和星标
【阿里巴巴人工智能治理与可持续发展研究中心】👇AAIG课代表,获取最新动态就找她

 关注公众号发现更多干货

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存