机器学习的稳健性和对抗性例子(读书笔记之二)
编者按
2021年,全球范围内对于人工智能的监管已经开始从理论探讨走向实际的立法和执法阶段,标志性的事件就是欧盟提出了《欧洲议会和理事会关于制定人工智能统一规则(《人工智能法》)和修正某些欧盟立法的条例》的提案,以及我国国家互联网信息办公室发布的《互联网信息服务算法推荐管理规定》。
关于人工智能安全和监管,本公号发布过以下文章:
今天和大家分享的是读书笔记系列之二。
假设一个经过训练的机器学习模型可以对黑白的猫和狗的图像进行分类,那么这个模型也很可能能够成功地对类似的彩色猫和狗的图像进行分类。
然而,即使是最复杂的机器学习系统,当给定的输入与它们被训练的输入存在实质性不同时,也可能会失败。例如,如果一个猫狗分类器在训练过程中从未遇到过鱼的图像,那么它就无法将鱼归为猫狗。
但人类并不总是能直觉到哪类输入会对特定的机器学习模型,产生有意义的不同。
目前人工智能安全领域最重大的挑战之一是创建对对抗性例子(Adversarial Examples)具有稳健性(或成为鲁棒性)的机器学习系统。
对抗性例子是一种特定的模型输入(例如,图像),其旨在欺骗机器学习系统做出不正确的预测。在一个旨在区分猫和狗的机器学习系统的案例中,一个对抗性例子可能是一个被修改过的猫的图像,而模型则将其预测为一只狗。与其他对抗性攻击不同,如"数据污染"(Data Poisioning)试图攻击用于训练机器学习模型的算法,对抗性例子则旨在攻击已经训练好的模型。
由于机器学习系统处理数据的方式与人类不同,猫的图像可以以人类无法察觉的方式被改变,但对机器学习系统来说,却存在实质性的不同。修改后的图像对人类来说可能仍然像一只猫,但对机器学习系统来说,它"看起来像"一只狗。
图1和图2为系统地生成的对抗性例子。具体来说,图1c中的对抗性例子对原始图像进行了难以察觉的少量数字修改,而图2b中的对抗性例子是通过在图像上添加旨在模仿物理世界中发现的不规则现象(如涂鸦或贴纸)的补丁而产生的。
这两个对抗性例子都是通过所谓的白盒攻击产生的,即假设攻击者知道训练有素的分类模型是如何工作的,并且可以利用这种知识来创造对抗性例子,欺骗模型做出错误的预测。
尽管现代机器学习系统通常对与训练所用数据相似的数据,有很好的概括性,但对模型输入的令人惊讶的简单修改也能创造出对抗性的例子。诸如模糊或裁剪图像,或改变图像中显示的物理世界物体的外观等变化,可以愚弄一个原本可靠的系统。
在图3b中,一个对抗性例子是通过降低原始图像的分辨率来构建的,从而将模型的预测从正确变为不正确。与图1和图2中的对抗性例子不同,图3中的对抗性例子是通过黑箱攻击创建的,也就是说,在没有访问训练好的分类模型的情况下创建的。它不像图1中的改变那样微妙,也不像图2中的改变那样有针对性。然而,它表明,可以通过很少的努力,且无需对预测模型有所了解,就可以愚弄现代机器学习系统。
图3为一个黑盒对抗性的例子。原始图像(a)以53%的概率被分类为"洗衣机"。通过降低图像的分辨率来创造一个对抗性例子(b),它以37%的概率被分类为"保险箱",以24%的概率被分类为"扩音器"。
对对抗性例子的稳健性
稳健的机器学习系统需要能够识别与训练数据有意义的不同的数据,并提供对对抗性例子的防御。有很多不同的研究领域试图在这个方向上取得进展。其中一个研究方向旨在将预测性的不确定性估计纳入机器学习系统。
这样一来,系统的任何预测都会有一个确定性的估计。如果机器学习系统表明其预测的正确性存在不确定性,可以提醒人类操作员。
为了理解预测不确定性的估计,以及它们如何使机器学习系统对对抗性例子更加稳健,请考虑图1和图3的描述中给出的分类"概率分数"。实际上,这些分数——名义上表达了输入属于某个类别(例如,"猫 "或 "狗"类)的概率,但具有误导性。虽然它们确实表达了一个概率,它们实际上并不表达机器学习模型对预测的正确性有多大把握的水平。
为了充分理解这一点,考虑一个机器学习系统,它被训练来区分两个类别:猫和狗。这样一个系统在设计上会有两个输出:一个是"猫"类,一个是"狗"类。如果模型输入是一张狗的图片,它将为每个类别输出0到1之间的数值,例如,"狗"和"猫"类别的数值分别为90%和10%,这样数值加起来就是100%。
然而,如果给它一张鱼的图像,该模型仍然会对它所训练的两个类别做出输出预测,但模型事实上不知道它被要求识别一个它没有被训练过的物体。
在最好的情况下,它将为每一类提供50%的输出,表明输入物同样可能是一只猫或一只狗。在最坏的情况下,它将对一个类别给出高概率分数,这就提供了一种虚假的确定性。但是,按照大多数机器学习系统的设计方式,它们不可能对"猫"和"狗"标签都给出低分。因此,这些输出不应该被理解为机器学习系统对其分类正确性的"信心"。
对预测不确定性的估计可以填补这一灰色地带。它们通过表达出机器学习模型对其预测正确性的不确定性,来补充常规模型的输出。如果一个机器学习系统有良好的预测不确定性估计,那么图3中的概率分数将伴随着高的不确定性分数,表明模型对预测的正确性有很大的不确定性。如图4所示,这样的不确定性估计可以帮助人类操作员避免在安全关键环境下的错误预测,确保系统的可靠性和安全性。
图4为智能汽车预测不确定性估计的一个例子。第一列显示了输入系统的图像,第二列显示了图像中物体的地面真实分类(建筑物、天空、街道、人行道等),第三列显示了模型的分类,而最右边一列显示了系统对其分类的不确定性。从右下角的图像可以看出,系统对人行道部分的分类是不确定的,可能会提醒人类操作员接管方向盘。
不幸的是,为现代机器学习系统获得可靠的预测性不确定性估计,仍然是一个未解决的问题。虽然现有的几种方法可以产生不确定性估计,但就这些不确定性估计是否实际上是准确的,并没有数学上的保证。
此外,虽然实证研究表明某些方法在某些环境下产生了良好的预测性不确定性估计,但这些结果不能被推广到任何环境。就像稳健性研究的其他领域一样,开发能够为现代机器学习系统产生可靠的、经过校准的不确定性估计的方法是一个积极的、持续的研究领域。
因此,目前任何考虑在对安全要求很高的环境中部署现代机器学习系统,都必须面对这样一个事实:在这样做的时候,这些系统正在引入我们还不知道如何有效缓解的安全风险。
美国电信行业涉及外国参与的安全审查(一):基本制度介绍
美国电信行业涉及外国参与的安全审查(二):国际性的第214节授权
美国电信行业涉及外国参与的安全审查(三):建立外国参与安全审查的行政令
美国电信行业涉及外国参与的安全审查(四):FCC对中国企业的陈述理由令
关于健康医疗数据方面的文章有:
关于数据的安全、个人信息保护、不正当竞争等方面的重大案例:
因隐私政策不合规,西班牙对Facebook开出巨额罚单 英法两国对 AdTech和广告类SDK的监管案例分析 Facebook事件多层次影响 及中美欧三地监管展望 FTC vs Facebook:50亿美元和解令的来龙去脉 FTC与Facebook“2019和解令”全文翻译 案件摘要:德国反垄断监管机构对Facebook数据收集融合行为裁决 德国联邦反垄断局审查Facebook数据收集融合行为的背景情况 德国联邦反垄断局对Facebook数据收集和融合行为提出严格限制 GDPR与相关数据保护法律处罚案例调研 他山之石:美国20年间33个儿童信息保护违法案例分析 重大案件 | 分析WhatsApp的2.25亿欧元罚款决定:合法利益事项 “脸书文件” | 爆料人的美国会听证会开场白、欧盟“数字服务法”推动人的表态 重大案件 | WhatsApp被罚2.25亿欧元一案核心事实与争点述评 重大案件 | CNIL对脸书、谷歌的Cookies实践的处罚:官方公告译文
供应链安全 | 白宫发布关于降低依赖外国对手的重要矿产的行政令 供应链安全 | 美国从科技供应链中剔除中国行动的内幕(外媒编译) 供应链安全 | 英国政府推进《电信(安全)法案》以确保供应链安全 《关于推进生物技术和生物制造创新以实现可持续、安全和可靠的美国生物经济的行政命令》(全文翻译)