机器学习中的规范问题(读书笔记之四)
编者按
2021年,全球范围内对于人工智能的监管已经开始从理论探讨走向实际的立法和执法阶段,标志性的事件就是欧盟提出了《欧洲议会和理事会关于制定人工智能统一规则(《人工智能法》)和修正某些欧盟立法的条例》的提案,以及我国国家互联网信息办公室发布的《互联网信息服务算法推荐管理规定》。
关于人工智能安全和监管,本公号发布过以下文章:
今天和大家分享的是读书笔记之四。
规范是向机器学习系统传达其设计者希望它做什么的任务。(the task of conveying to a machine learning system what exactly its designers wouldlike it to do)
对于某些任务来说,比如在验证码测试中选择哪些图像中包含交通灯,系统设计者可以比较直接地写出他们正在寻找的东西的精确描述。然而,对于许多其他的任务来说,要用精确的数学语言来捕捉其意图的细微差别很困难。
在某些方面,这种类型的挑战并非机器所独有。经济学中的委托-代理问题涉及以此类似的问题,即一项任务从一个人(委托人)委托给另一个人(代理人),但代理人的理解或动机可能与委托人不同。
机器学习系统中的规范问题是由于类似的动态变化而产生的:除了最简单的设置,传达和激励期望的行为是具有挑战性的,这反过来可能会导致意外的行为。
确保一个机器学习系统的特定规范产生特定的预期行为,并符合其设计者的意图,是机器学习的一个关键挑战。
为了防止失败,我们的目标是让机器学习系统对规范中的潜在错误或不准确具有鲁棒性。
随着机器学习系统被部署在更高风险和更复杂的环境中,正确处理这个问题将变得越来越关键。
1、基本概念
机器学习系统被设计用来从数据中学习模式和关联。通常情况下,机器学习系统由反映输入和输出之间关系的统计模型以及学习算法组成。
为了使机器学习方法能够学习模式和关联,人类操作员可以指定一个要优化的目标函数。目标函数是学习算法的核心部分,它规定了当模型收到更多关于它要表示的输入-输出关系的信息(以数据的形式)时应该如何变化。
目标函数可以被认为表达了一个模型在达到人类指定的目标方面有多好。换句话说,一个目标函数可以被认为是一个数学表达式,如果模型表现不好(对应于高错误率),它的数值就大;如果模型表现好(对应于低错误率),它的数值就小。
在一些机器学习环境中,目标函数被定义为通过执行一系列预测获得的"奖励"。在这种情况下,目标变成了最大化奖励而不是最小化错误率。
从概念上讲,"训练"的过程相当于逐步调整模型参数(即构成统计模型的一组数字),以最小化目标函数。目标函数返回的数值越低,该模型就越接近于实现人类指定的目标。
回到验证码的例子,一个试图找到能够预测新的验证码中图片是否包含给定对象的统计模型的学习算法,可能会试图找到一个在先前生成的验证码集合上具有高准确度的模型,也就是说,一个能够最小化错误识别图片是否包含有关对象的概率的模型。
对于一个给定的任务来说,目标函数的规范对于找到一个运行良好的机器学习模型至关重要。
规范博弈是规范中的一种特殊失败模式,在人类设计者指定了目标函数后可能会发生。它指的是一种现象,即机器学习算法"博弈"他们所得到的任何规范,找到方法来实现指定的目标,而这些技术与操作者想要的完全不相干。这种行为看起来像作弊或变通。
在研究环境中,规范博弈已经被反复观察到。这方面的例子包括:赛车视频游戏中的一艘船学会了赚取积分的最佳方式是在港口无休止地循环,反复地自焚而不是完成比赛;一个井字型机器人通过做出让对手的软件崩溃的动作来赢得游戏;模拟机器人学会了利用模拟中的错误,以物理上不可能的方式移动,比如在墙上"扭动 "或在箱子上"冲浪"。
这种现象并不是人工智能所特有的,在其他场合也可能出现。例如,密西西比州的一只圈养海豚在得知把垃圾带给饲养员会得到奖励后,被观察到将垃圾堆放在其栖息地的一个角落,并撕下小块的垃圾,以最大限度地增加它可以"赚取"的鱼的数量。
人工智能中的规范问题之所以如此具有挑战性,是因为机器学习算法的典型设计迫使系统设计者写下一个目标函数,而这个函数只是他们真正想要的东西的一个简化代理。
任务越复杂,就越难找到一个好的代理。如果没有一个好的代理,系统就有很大的可能无法按预期运行。在过去十年中,机器学习取得最大进展的许多任务都是比较容易找到足够好的代理的任务。
在图像分类中,目标函数表达了这样的意图,"找到一个模型,在给定的训练图像-标签集合中,误分类的图像数量最少",将此作为"找到一个能正确分类任何图像的模型 "的代理。
在自然语言处理中,过去几年表明,表达"找到一个能预测文本中下一个词的模型 "的目标函数可以成为"找到一个能对任何文本提示作出合理反应的模型"的强大代理,尽管这样的代理表达远非完美。
为了说明机器学习算法被错误规范意味着什么,考虑三个不同层次的规范:(1)机器学习系统的设计者希望系统执行什么任务;(2)系统设计者指定的代理目标,使系统能够学习执行任务;以及(3)系统实际做什么。
目标函数的理想规范是指对人工智能系统目标的假设性描述,它与人类设计者的愿望完全一致,例如,希望机器人在一定时间内将一个杯子从一个地方移到另一个地方,并且不打破杯子或任何其他物体。
目标函数的设计规范指的是实际纳入系统的规范,换句话说,系统设计者选择实现的代理。在杯子的例子中,这可能是一个数学表达式,鼓励机器人与其他物体保持一定的距离,同时对执行任务过慢或将杯子放在错误的位置进行惩罚。设计规范通常是理想规范的一个不完美的代表。
最后,显露出的规范是指在现实世界中部署机器学习系统时观察到的行为。如果显露的行为与期望的行为不一致,显露出的规范可能会使设计规范中的错误变得明显。关于这些不同类型的规范之间的关系的说明,请参见下图。
图1:三个层次的规范
不幸的是,显露的规格通常与设计和理想的规格都不同,而且通常很难找到一个能导致预期结果(也就是说显露的规格与理想的规格相匹配)的设计规格。这可能会导致意想不到的有害后果。有几个因素会使找到一个好的设计规范成为挑战。
首先,复杂的环境或目标可能难以用反映期望行为的简单数学方程式来描述。第二,如果这些目标需要时间或多个连续的决定才能达成,那么机器学习系统就很难学会达成甚至是简单的目标。第三,机器学习系统可能会遇到系统的人类设计者没有预见到的决定或情况,特别是在系统运行的规模超出人类经验的情况下,或者涉及在设计系统时难以预见的微妙但重要的下游后果。
为了设计可靠安全的机器学习系统,解决这些挑战是很重要的。
2、实践中的规范问题
机器学习系统中最简单形式的规范问题,通常会成为在系统被部署到现实世界之前就已经很明显了。捕捉和补救这些问题对工程师来说是一个挑战,但对高层决策者来说却不那么重要。
对于决策者和其他决定何时、何地以及如何在现实世界中使用机器学习的人来说,更令人担忧的规范问题类型是那些在测试环境中不为人所知的问题:更微妙的、有害的、缓慢移动的错误规范,这些问题可能只有在很长的时间尺度上或在系统大规模部署时才会显现。
当机器学习系统被部署在高风险环境中时,这种错误的规范可能特别有害。一个更慢、更有害的影响的例子是,错误的规范已经被牵扯到社交媒体平台造成的伤害中。
Facebook和YouTube等公司的商业模式使用机器学习系统来推荐内容,并使用户在其应用程序上保持参与。用户参与度——以在网站上花费的时间、点击链接的概率或类似指标来衡量,对于机器学习模型来说,似乎是一个足够无害的目标。
然而,在实践中,虚假信息或极端主义内容对某些用户群体来说往往具有很强的吸引力,这意味着平台的机器学习模型会学习提供这些内容,以保持客户的活跃度。这是理想规范——大概是在不使得部分用户群体极端化的情况下最大限度地提高用户参与度——与设计和揭示的规范之间存在分歧的一个例子。
亚马逊开发的一个简历筛选工具可以被视为另一个现实世界中的错误规范的例子。这个基于机器学习的工具给求职者的简历打了一星到五星的分数,它是根据亚马逊过去雇用的人的简历进行训练的,也就是说,它不是给优秀的候选人打高分,而是为了优化给与亚马逊已经雇用的人相似的候选人打高分。
几个月后,从事该项目的工程师发现,结果是该模型学会了模仿亚马逊招聘中的性别差异,对带有女性编码语言的简历给予较低的评级,如"女性棋艺俱乐部队长"中的 "妇女"。虽然不清楚该工具在实践中的使用程度,但这是一个例子,在设计系统时选择的代理目标("给与亚马逊雇用的候选人相似的简历以高评分")与实际目标("给与强有力的候选人高评分")有细微但有害的差异。
这种具有长期后果的微妙的错误规定也可能发生在由人类而不是机器来做决定的环境中。例如,在大型组织中,一个常见的现象是所谓的"开箱即用 "的培训,即高级领导层决定工人应该接受某个主题的培训,并要求所有团队都接受培训。如果唯一的要求是举办培训,或者是满足一些简单的标准,那么培训就很可能成为一种打勾的行为,而不是一种有意义的教育经历。换句话说,如果领导层对"提高员工对主题的理解"的理想要求被转化为 "要求员工每年参加一次培训 "的设计规范,那么所揭示的规范很可能是"员工坐在那里听课,但他们大多不理会"。在最好的情况下,这是在浪费时间;在最坏的情况下,不充分的培训会增加事故或其他伤害的风险。
值得注意的是,一个具有明确目标的系统仍然可以造成伤害。例如,系统的设计者可能有恶意的意图(或者可能只是对潜在的伤害漠不关心),或者系统可能以某种与规范无关的方式失败。实现系统的理想规范和显露出的规范之间的紧密结合,对于发展负责任的、可信赖的人工智能是必要的,但还不够。
3、避免错误的规范化
寻找向机器学习系统传达细微而复杂的目标的方法是一个活跃的研究领域。避免错误规范的不同方法解决了不同类型的规范挑战。下文描述了三种旨在创建包含更多细微差别和复杂性的规范的方法:从示范中学习,从人类反馈中学习,以及逆向奖励设计。
每种方法都有独特的优势和局限性,没有一种方法能够为规范的挑战提供完整的、易于使用的解决方案。
一个成熟的机器学习范式规避了规范问题,即从示范中学习。广义上讲,这种模式围绕着使机器学习系统能够从人类的行动中学习。例如,一个仿人机器人可以观看人类训练者完成一项家务劳动,以学习如何完成这项家务劳动,或者一个自主车辆可以使用关于人类如何驾驶的数据来模仿这种行为。
在可以直接让人演示所需行为的情况下,模仿方法可以发挥相当好的作用,例如在驾驶、为仿人机器人执行任务等方面。然而,这种方法在本质上受到了人类所能展示的东西的限制。在许多情况下,机器学习系统的目的是以人类无法做到的方式进行操作,无论是由于速度、复杂性、规模、安全还是其他因素。在这些情况下,机器学习系统的设计者需要一种不同的方式来表达他们希望系统做什么。
有几个研究方向旨在实现这一目标。两个突出的方法是从人类反馈中学习和逆向奖励设计。每种方法都为人类在训练期间如何与机器学习系统合作提供了一个框架,以便提供比常用的目标函数更细微的反馈,同时也不受人类可以直接展示的限制。
从人类反馈中学习使用来自人类标记者的直接反馈来学习奖励信号,因此人工智能系统试图学习预测标记者会喜欢什么,而不是过度固定在一个指定的目标函数上。例如,在一个从人类反馈中学习的实验中,一个模拟机器人在收到数百个来自人类的反馈的基础上,学会了做后空翻的动作。
人类标记者,他们会比较机器人的两个视频,并选择哪个看起来更像后空翻。其他早期的研究包括使用人类评分来教人工智能系统如何写出准确和有用的文本摘要,因为这项任务很难指定一个简单的评价函数。
另一种方法,称为逆向奖励设计,其结构有所不同。这种方法的关键是,可以设计机器学习系统,将其目标函数不作为目标的绝对正确的表达(这是标准的机器学习方法)而是将目标函数作为关于什么是"好"的一个证据。这种看似微小的结构变化已被证明会产生更多的规避风险和寻求修正的行为,因为系统对其真正应该做什么的内在不确定性使其无法在不熟悉的情况下自信地行动。
不幸的是,现有的解决潜在规范挑战的方法在两个重要方面存在缺陷。首先,迄今为止开发的方法要么很难在实践中实现,要么对于广泛的机器学习系统或应用环境来说成本太高。其次,即使是上述两种方法也不能保证不会出现规范问题,而且到目前为止,还没有广泛适用的评估协议或理论工具来确保一个系统所揭示的规范不会偏离其理想规范。
4、展望
目前,绝大多数正在使用的机器学习系统都在执行狭窄的、定义明确的任务,如向客户推荐产品或检测信用卡欺诈。机器学习模型也经常与明确定义的规则一起部署,以防止不受欢迎的行为。只要机器学习被用于简单的、限定的应用,规范问题就不太可能造成重大伤害。如果发生了问题,通常会很快被发现,如果没有被发现,损失可能是有限的。
随着机器学习系统变得越来越先进,它们可能会被部署在越来越复杂的环境中,执行越来越复杂的任务。这就是规范问题可能开始产生危害的地方。如果在传达意图的方法上没有重大进展,机器学习系统将继续完全按照给定的指令执行——服从其设计者给他们的规则的文字,而不是精神。
为了应对错误规范带来的挑战,更多的机器学习研究需要考虑到最坏的情况,并开发出更明确地包含人类监督的算法,或者为特定规范下的最坏情况的性能提供理论保证。
同时,努力应对人工智能影响的政策制定者最好将规范挑战放在心上。对于机器学习的任何潜在用途,可以问两个问题。该系统的目标是什么,以及通过优化该目标事实上会导致哪些不正当行为被激励?在如何传达细微复杂的目标并确保系统可靠地实现这些目标的研究取得重大进展之前,机器学习将只适用于狭窄、严格的规定环境。
美国电信行业涉及外国参与的安全审查(一):基本制度介绍
美国电信行业涉及外国参与的安全审查(二):国际性的第214节授权
美国电信行业涉及外国参与的安全审查(三):建立外国参与安全审查的行政令
美国电信行业涉及外国参与的安全审查(四):FCC对中国企业的陈述理由令
关于健康医疗数据方面的文章有:
关于数据的安全、个人信息保护、不正当竞争等方面的重大案例:
因隐私政策不合规,西班牙对Facebook开出巨额罚单 英法两国对 AdTech和广告类SDK的监管案例分析 Facebook事件多层次影响 及中美欧三地监管展望 FTC vs Facebook:50亿美元和解令的来龙去脉 FTC与Facebook“2019和解令”全文翻译 案件摘要:德国反垄断监管机构对Facebook数据收集融合行为裁决 德国联邦反垄断局审查Facebook数据收集融合行为的背景情况 德国联邦反垄断局对Facebook数据收集和融合行为提出严格限制 GDPR与相关数据保护法律处罚案例调研 他山之石:美国20年间33个儿童信息保护违法案例分析 重大案件 | 分析WhatsApp的2.25亿欧元罚款决定:合法利益事项 “脸书文件” | 爆料人的美国会听证会开场白、欧盟“数字服务法”推动人的表态 重大案件 | WhatsApp被罚2.25亿欧元一案核心事实与争点述评 重大案件 | CNIL对脸书、谷歌的Cookies实践的处罚:官方公告译文
供应链安全 | 白宫发布关于降低依赖外国对手的重要矿产的行政令 供应链安全 | 美国从科技供应链中剔除中国行动的内幕(外媒编译) 供应链安全 | 英国政府推进《电信(安全)法案》以确保供应链安全 《关于推进生物技术和生物制造创新以实现可持续、安全和可靠的美国生物经济的行政命令》(全文翻译)