智库跟踪 | 兰德:人工智能的偏差和错误风险
再不点蓝字关注,机会就要飞走了哦
前言
机器学习算法和人工智能系统正影响着人们生活的许多领域——浏览新闻、观看电影、获取信贷,甚至资本投资。出于对效率和速度的考虑,算法已经有权在这些领域作出决定并采取行动。当然,它也给人们带来了就业方面的担忧。兰德公司在报告中阐述了算法决策的一些缺点,包括算法错误和偏差问题,并研究了解决这些问题的一些方法。报告强调了在公共政策中使用算法决策所固有的风险和复杂性,指出技术与非技术方法的结合可能是最需要的补救措施。
机器学习算法和人工智能系统正影响着人们生活的许多领域——浏览新闻、观看电影、获取信贷,甚至资本投资。出于对效率和速度的考虑,算法已经有权在这些领域作出决定并采取行动。当然,它也给人们带来了就业方面的担忧。兰德公司在报告中阐述了算法决策的一些缺点,包括算法错误和偏差问题,并研究了解决这些问题的一些方法。
报告第一章介绍了随着人工智能的发展,算法偏差和错误风险不断增加。第二章定义并仔细审议了算法的概念,重点关注了复杂算法中的不正确或不公平行为,侧重于人工智能对社会和政策的影响。第三章关注的是算法底层的错误行为,而不是特例,提出了解决这些问题的可选方案,以及算法决策过程的问责措施,包括最近发展的有关公平、可测量和透明的机器学习。第四章给出了一些如何了解和加强应对算法偏差挑战的观察和建议。
一、算法的定义和评估
1、定义
经过几个世纪的发展,算法的定义也发生了很大的变化。最初,算法关注的是可靠的一步一步的程序计算;后来引入了可计算性和可计算功能,形成了算法思想;再后来引入了学习算法,在微观层面引入了机械的顺序计算程序,许多最初的算法试图模仿生物行为。人工智能最大的目标是使用先进的学习算法,建立自动人工智能的能力,使其超过人类的智能。
人工智能先驱的工作为机器学习算法奠定了基础,是今天使用的绝大部分自动系统的根基。这些自动化系统通常专注于学习解决“简单”的任务,如自动语音和图像识别。该系统的常见术语为狭义人工智能。举个例子,这些工作是最先进的深度学习技术(用于现代图像和语音识别)的基础。
正在进行的“大数据”革命也被看作促进学习算法广泛应用的有力催化剂。大数据提供了源源不断的多模数据,这对通过学习算法提取有价值的洞察力是必需的。使用强大的算法是唯一能够弄懂日常数量、种类庞杂的数据的可持续的方法。
算法的文化概念往往混杂了从盲目的计算程序(如静态计算)到高级的自动学习与推理程序(用于诸如IBM沃森的系统)的全谱算法。这种算法的文化概念就像草率的速记,鼓励公众将算法看作一个整体的、不透明的、近似神学的构造。许多影响公共生活的关键算法也被认为是专利或商业秘密。这种对于算法不透明、不知情的理解妨碍了公众在人工智能方面的话语权。
然而,学习算法是一个有些不同的存在。它同时具有实施的正确性功能(算法设计者倾向于关注的内容)和学习行为的正确性功能(用户关心的内容)。最近的一个例子就是微软的人工智能聊天机器人——Tay。Tay背后的算法使得其能在与推特用户的交流过程中使人信服。而其在受控环境中的广泛测试并没有引起轩然大波。Tay行为的一个重要特征是通过摄取用户数据来学习和响应用户的倾向。这个特征使得推特用户有可能操纵Tay的行为,使其发表一系列的攻击性言语。无论是其经验还是数据都没有考虑到新的上下文语境的新意。
这种类型的漏洞不是唯一的例子。学习算法往往容易受到训练数据的影响。这些算法的特点就是具有适应变化的输入数据的能力。但算法对于响应输入数据的适配同时也为恶意用户提供了一个攻击途径。在学习算法中,数据摄取漏洞是一个反复出现的问题。
2、算法的“不端行为”审议
随着人工智能体在决策过程中发挥的作用越来越大,更应关注它容易出现的错误及“不端行为”。
“行为不端”的算法,是对导致不正确、不公平或危险的后果的人工智能体的一种隐喻。最初,它是指使用计算机系统完成各种任务的偏差,包括工作日程管理、就业匹配、航线路径规划、移民法律援助自动化等。
算法系统在半自动商业预定系统(SABRE)和国家居民匹配项目(医疗方面)的使用中都出现了偏差和问题。互联网的发展和个人计算机的广泛使用,扩大了这些问题的范围。算法开始更多地介入我们与信息之间的互动。谷歌就是一个典型的案例。谷歌的搜索和广告投放算法消化了大量用户生成的数据来优化用户(包括普通用户和广告商)服务。这样的系统首先暴露了学习算法对广泛个人消费的分析结果。
研究显示,谷歌搜索和广告算法系统存在“算法诽谤”,会不正确地关联人或群体,这些不正确的关联影响了谷歌精准投放广告业务。例如,仅仅是搜索某种类型的名词就会导致推送刑事司法服务方面的广告。
在新兴的数据和算法新闻领域,许多错误的算法影响了人们线上/线下生活的方方面面。IBM著名的“危险”AI沃森,在其学习算法摄入一些不好的数据后也不得不人为纠正其说脏话的习惯。还有一些报告揭示了Waze交通路由算法在城市交通模式中的负面影响。
另外一些研究关注治理、公共政策和复杂的社会问题中算法的影响。在这些领域里,人工智能体不得不面对另一个层面的复杂性和危险——其不良表现将产生深远、大范围、波及世代的后果。
有报告说明了算法决策在法律领域的传播是如何剥夺公民正当权益的。最近的报告显示了全国量刑听证中广泛使用的刑事风险评估算法中出现了严重的系统偏差。
最近一篇有影响力的文章探讨了大数据是否会导致算法公平或中立行为这个最根本的问题,认为如果不改革大数据和相关算法的应用,答案是明确的否定。
有专家在论文中讨论了算法和大数据如何规避我们所能预料的法律隐私风险。标准的避免算法偏差影响的方法是从学习算法中隐藏敏感数据字段(如性别和种族)。
最近,算法设计者和研究人员已开始通过技术方法,认证和消除算法偏差的影响。
3、案例研究:刑事司法制度中的人工智能
美国刑事司法系统越来越多地诉诸算法工具。人工智能代理有助于减轻管理这样一个大系统的负担。但这些工具中任何系统算法偏差都会带来很高的错误及其累计风险。
人工智能算法已经用于全国各地的量刑假释听证系统。但是,这个系统将黑人罪犯的评级定为高于非黑人——即使非黑人犯有有更严重的罪行。这暗示了一个系统性的种族偏见。
警察部门也开始将工作诉诸预测警务和分配资源的算法工具。虽然该算法是合理有效的,但也不能避免导致不公平的结果。
二、 重点问题:影响因素和补救措施
上文分析了算法出现偏差的角度主要有三种:第一个也是最基本的角度是数据的摄取问题,关键是在学习中要考虑人类活动本身会存在偏差——学习包括好的和坏的两方面;第二个角度是,应用于政策或社会问题时,很难定义基本事实和确定强有力的指导原则,除了对性能指标进行优化,学习算法还需要将社会可接受性措施进行优化;第三个角度是,在社会行为空间中进行的判断往往是模糊的,不是非黑即白的两元标准。
有一个已经发展了数世纪的系统可以应对受制于模糊的社会规范和互相矛盾的报告或数据而产生的政策问题,那就是法律。有专家指出,虽然加密货币和算法(“智能”)协议可能优于执行二元产权,但其在现实世界中的产权是模糊的、有争议的。类似的情况也出现在我们认为合理的算法——算法行为有时被定义得并不准确。法律已经演变为对模糊复杂事务的审判。
美国法律也承认,表面上合理的程序可能会产生不利的、与预期完全不同的影响。对于产生这种与预期完全不同的影响的理解仅仅是在算法研究界慢慢传播。
1、 其它技术因素
(1)样本大小差异
机器学习算法是统计估计方法。这些方法估计误差的措施通常与数据样本大小成反比。这意味着对于低代表性的事件种类,这些方法通常会更容易出错。
(2)被欺骗的奖励功能
机器学习和人工智能理论中的奖励功能来自行为心理学习,是目前人工学习系统学习正确行为的主要手段。在人工智能学习过程中,奖励功能量化了我们对其行动和决定的奖惩。学习这些算法,然后适应人工智能体的参数和行为,就可以以最大限度地提高其总回报。因此,人工智能行为设计往往将设计减少到足够激励奖励功能的程度,而这种行为主义的学习方式可以被欺骗。
(3)文化差异
机器学习算法通过选择电讯或与各种行为相关联的数据中的显著特征(变量)来工作。文化调和的行为可能导致不公平行为发生。
(4)混杂的变量
算法设计者通常选择从其处理过的数据中删除敏感变量,试图使系统结果无偏差。系统设计师的一个常见的说法是,“系统不会有偏差,因为它没有考虑(一些敏感的变量)。”机器学习方法经常通过概率推断隐藏变量。而研究表明,传统的数据隐私和匿名方法不再可行,这是因为现代的机器学习算法能够“简单粗暴”地重新识别数据。
2、补救措施
(1) 统计方法和算法
目前有一个不断发展的领域,专注于公平、负责任、透明的机器学习,致力于采用技术途径保证算法公平及认证并纠正机器学习算法中偏差的影响。
有专家建议在使用主观数据时,使用修正度量或相似度计算。在比较数据集中的主观数据时,这些相似度计算意味着执行严格的公平性约束。一些专家提出了若干算法审计程序,将算法输出与期望的公平行为进行比较。
(2) 因果推理算法
在更广泛的、更长的时间范围内,一些专家正在探索将因果或反事实推理用于机器学习算法中。这是非常重要的,因为自动因果推理系统在判断算法决策过程的质量时,可呈现清晣的因果叙述。算法决策的精确因果推理是最可靠的审计跟踪算法。对偶然因素进行审计的算法,可为结论提供更清楚的解释或理由。这对判断系统的不当结果(统计学不相称结果)是至关重要的。
(3) 算法素养和透明度
在对抗算法偏差方面,使受过良好教育的公众理解算法可能会导致不公平的结果将是有益的。这与要求用户了解所有算法的内部工作原理(显然不可行)是不一样的。只需灌输一种健康的“知情怀疑论”,对减少自动化偏差带来的影响就可能已经足够。
将算法素养和透明度结合起来可能非常有效。在这里,透明度通常是指确保使用中的任何算法都容易被理解——这并不是一直可行的。将由人工智能体经手处理的决策和实施行动进一步公开应该是可行和有用的。
(4) 人事方法
对于机器学习和人工智能算法中偏差的技术研究仍处于初级阶段。算法中的偏差和系统错误问题,可能取决于算法设计者和数据科学家与众不同的思维方式。这些从业者通常是较少接触社会或公共政策问题的工程师和科学家。算法设计人员的构成往往缺乏多样性。这些算法设计者作出了大量的设计选择,其中一些可能会产生深远的影响。算法开发人员的多样性有助于提高对潜在的各类问题的敏感性。
虽然如此,弥补算法偏差的驱动力应该在健康的监管约束中得到锻炼。任何一种补救措施都需要算法更紧密地遵守社会定义的价值观,包括言论自由、审查制度、公平或其它可接受的道德标准等。
三、结论
本文说明了算法的各种不同影响带来的挑战,为什么我们希望扩展“算法依赖”,以及可能减轻未来风险的最佳选择是什么。只要人工智能体在我们生活中扮演着越来越重要的角色并且不受监管,算法和人工智能的错误与偏差风险将继续存在。
应对不受管制的人工智能体趋向三大类方法:完全避免算法、使底层算法透明、对算法输出进行审计。完全避免算法几乎是不可能的,没有其它方法可以处理当前的数据洪流。算法透明则需要让更多受过教育的公众能够理解算法。但深度联结学习的最新进展表明,即使我们可以解构一个算法的流程,对于获得有用的感知它可能仍然过于复杂。
有学者最近的研究认为,第三种选择——算法审计——可能是前进的方向。某些审计忽略了人工智能体内部的工作,并根据结果的公平性进行判断。这与我们经常对人类的判断类似:由其输出(决策和行动),而不是内容和代码库的独特性(思想)决定。这一选择对政策制定者最有帮助,而且为人工智能体建立了一个结果主义道德标准。在这一框架下,监管就会变得更加容易。
像这样的讨论有时会人格化人工智能体:机器是否开始像我们一样思考?我们如何判断和引导他们?人工智能体目前的进展可能会使算法人格化的观点更加普遍。这可能对培育公众不基于偏见,像理解人类一样理解人工智能体,产生意想不到的好处。
内容框架
第一章 介绍
第二章 算法:定义与评估
1、 算法定义
2、 “行为不端”的算法:一个简要的评议
3、 案例研究:刑事司法制度中的人工智能体
第三章 重点问题:影响因素和补救措施
1、 其它技术因素
2、 补救措施
第四章 结论
关键图表
图1 每级事件执行率:两个亚群,相同犯罪率、不同警戒级别
本内容仅供研究参考,严禁用于商业用途。
推荐阅读
好文章,快分享,一起涨姿势~