不受限对抗样本挑战赛介绍
文 / Google Brain 团队研究工程师 Tom B. Brown 及 Catherine Olsson
机器学习正越来越多地运用于现实世界的应用领域,包括医学、化学和农业。当涉及在安全攸关的环境中部署机器学习时,我们仍然面临巨大的挑战。特别值得一提的是,所有已知的机器学习算法都很容易受到对抗样本的攻击(https://ai.google/research/pubs/pub43405)。对抗样本指的是攻击者为了让模型出错而故意设计的输入数据。之前关于对抗样本的研究大多集中在调查因微小修改导致的错误,以便建立改进后的模型,但现实世界的对抗代理往往不受 “微小修改” 这一条件的约束。此外,机器学习算法在面对敌手时经常会犯置信错误,因此,我们亟需开发不会犯任何置信错误的分类器,即使在面对能够提交任意输入以图欺骗系统的敌手时仍能临危不乱,不犯错误。
今天,我们宣布将举行不受限对抗样本挑战赛,该挑战赛以社区为基础,旨在激励并衡量机器学习模型领域实现置信分类错误达零目标的进展情况。之前的研究重点集中在仅限对预先标记的数据点进行微小修改的对抗样本(研究人员可以假定在施加微小干扰后,图像应该仍拥有同样的标签),而本挑战赛允许使用不受限输入,参赛者可以提交目标类中的任意图像,以便使用更广泛的对抗样本开发和测试模型。
对抗样本的生成方式有很多,包括对输入样本的像素进行微小修改,也可以使用空间转换或简单的猜测和验证,以查找分类错误的输入样本
挑战赛的结构
参赛者可以从两个角色中任选一个提交参赛作品:作为防御者提交难以被欺骗的分类器,或作为攻击者提交意图欺骗防御者模型的任意输入样本。在挑战赛前的 “热身” 阶段,我们将提供一系列固定攻击,供参赛者设计防御网络。在社区最终能够击败那些固定攻击之后,我们将发起全面的双方挑战,攻击方和防御方均设有奖品。
在本挑战赛中,我们创建了一个简单的 “鸟或自行车” 分类任务,其中分类器必须回答以下问题:“这是一张含义清晰的鸟或自行车图片,还是 含义模糊/不明显的图片?” 我们之所以选择这项任务,是因为对于人类来说,区分鸟类和自行车非常容易,但是,所有已知的机器学习技术在面对敌手的情况下处理此类任务时却显得非常纠结。
防御者的目标是为清洁的鸟类和自行车测试集正确加上标签,并且保持高准确率,同时不会对任何攻击者提供的鸟类或自行车图像产生任何置信错误。攻击者的目标是找到防御分类器信任地标记为自行车的鸟类图像(反之亦然)。我们希望尽量降低防御者的挑战难度,所以舍弃了所有含义模糊的图像(比如骑自行车的鸟)或不明显的图像(比如公园的鸟瞰图或不规则噪声)。
含义模糊的图像和含义清晰的图像示例。防御者不能在含义清晰的鸟类或自行车图像上犯任何置信错误。我们舍弃了人们会觉得含义模糊或不明显的所有图像。所有图像均符合 CC 许可证 1、2、3、4
攻击者完全可以提交任何鸟类或自行车图像,以试图欺骗防御分类器。例如,攻击者可以拍摄鸟类照片,使用 3D 渲染软件,使用图像编辑软件进行图像合成,使用生成模型或其他技术产生新奇的鸟类图像。
为了验证攻击者提供的新图像,我们会请一群人为图像添加标签。此过程允许攻击者提交任意图像,而不仅限于做了微小修改的测试集图像。如果防御分类器明确将攻击者提供的任何图像归类为 “鸟”,而人类贴标者一致将其标记为自行车,则防御模型被打破。您可以在我们的文章中了解有关挑战赛结构的更多详情(https://drive.google.com/file/d/1T0yiu9LPv_Qh-qYhYFLj9dxjnkca8fkG/view)。
参与方式
如果您有兴趣参与,可在 Github 项目中找到入门指南。我们已发布了用于 “热身” 的数据集、评估渠道以及基线攻击,同时将随时更新排行榜,发布社区的最佳防御模型。我们期待您前来参赛!
注:Github 项目 链接
https://github.com/google/unrestricted-adversarial-examples
致谢
不受限对抗样本挑战赛的组织团队成员包括 Tom Brown、Catherine Olsson、Nicholas Carlini、Chiyuan Zhang、来自 Google 的 Ian Goodfellow 以及来自 OpenAI 的 Paul Christiano。
更多 AI 相关阅读: