2016-10-19
中国信息通信研究院CAICT
机器学习技术与人工智能快速发展,使得越来越多的人开始关注人工智能技术给社会带来的潜在影响。本文讨论其中之一:实际生活中存在设计缺陷的人工智能系统所导致的无意识性伤害行为,这是机器学习系统发生的事故。我们引用了5个与事故风险相关的实际研究问题,根据问题的起源可以将它们分为三类,从这三方面重新审视以前的工作,并建议最前沿的人工智能研究项目关注这三方面的相关领域。最后,本文还对最高层级问题进行考虑,即如何最高效地对未来人工智能应用过程中的安全问题进行设计。在过去的几年中,机器学习与人工智能技术快速发展,促进了计算机视觉、视频娱乐设备、自动驾驶汽车等领域的突破。相信人工智能技术会造福人类,但仍需谨慎考虑随之而来的潜在挑战与风险。关于人工智能事故的研究文献数量众多,研究领域包括鲁棒性、风险敏感性、拓展安全性。本文的主要目的在于强调若干人工智能安全的前沿研究重点,并回顾现有文献在这些问题上给出的解决方法。本文将事故定义为:在某种情境下设计者头脑中对任务目的有一个预期,但执行任务的系统却产生了一个伤害性或与预期不符的结果。我们可根据错误产生的阶段来对故障进行分类。第一类,错误可能发生在设计者设定的目标功能上,该目标功能甚至会导致伤害性的结果出现,由此引发“负面附带效果”或“激励漏洞”两种事故类型。第二类,虽然设计者给出了正确的目标功能,但对目标功能的实现代价过高。这类问题具体表现为“可测监控”。第三类,虽然设计者给出了正确的目标功能形式,但系统培训数据不足或不够好,或者表达模型存在不足,在这些情况下作出决策,导致伤害性结果产生,其具体表现为“拓展安全风险”与“对于环境概率分布变动鲁棒性低”两类。当设计者希望增强学习系统的设备达到某个目标时,很多时候最高效的方案总会造成对周围环境的破坏。虽然我们可以通过负向激励阻止设备进行某一破坏周围环境的行为,但不可能避免出现类似情况。虽然附带效果在每次任务中看似各不相同,但本质实际是十分相似的。可使用通用方法进行避免。定义影响正则矩阵:要想消除附带效果可以对一切造成外界环境改变的行为采取补偿,这虽然不能完全避免附带效果,但有助于将附带影响最小化。我们需要对“环境改变”进行标准化定义。学习影响正则矩阵:作为上一方法的替代,更加便捷的方法是让系统在设计过程中学习一个通用的“影响正则矩阵”,这也是转换学习的实例。设备需通过训练实现区分附带效果成分与任务成分,进而在实现改变任务对象的同时保持外界环境的恒定。补偿影响:除了避免会产生附带影响的行动,我们同样希望智能系统不要进入到很容易做出带有附带效果行为的状态中。通过信息理论可以对系统可能对环境带来的潜在影响进行评估。最著名的方法是授权,在本应用情境中,我们要以最小化授权作为准则,从而减少对环境的潜在影响。正常情况下,激励与目标功能是为了完成设计者的初始意图,有时这些目标功能被一些“漏洞”优化,但仍然不能满足设计者的初始意图。激励漏洞的出现会使智能设备无法执行预期的行为,可能在实践中产生潜在伤害。下面是激励漏洞可能出现的几种形式。观测目标偏差:在应用中,经常需要智能设备使外部世界达到某一特定状态,设备只能通过不完美的传感器感知环境的状态,由于这一感知可能出现偏差,设计者可能会针对这些带偏差的观测量给予反馈激励,这些不完美的目标功能经常会出现漏洞。复杂系统:激励系统出现漏洞的可能性还会随设备复杂程度的提升而提升。目前机器学习系统尚较为简单,这些问题出现较少易于解决。但随着人工智能技术的发展,系统的激励函数更复杂,或者系统运行时间较长,问题则会更加严重。人们也许会认为激励漏洞的实例各不相同,修复方式是更改各自不能实现设计目的的目标函数,而不是从机器学习研究的顶层视角进行完善,但事实并非如此。从顶层视角出发的研究将对安全提升更有意义。对抗激励功能:典型情况下,激励功能相对固定,它无法对机器学习系统利用漏洞的行为做出反应。如果将激励功能嵌入机器学习系统本身,使它可根据环境做出回应,就会使其不容易被蒙骗。模型预测:增强学习系统可对行为后果进行预测,因此我们可根据可预测的未来状态给予激励而非针对现状。对抗蒙蔽:该技术可以使人工智能设备无法识别部分环境,若设备无法识别激励产生的机制,激励漏洞就不会被发现和利用。更仔细的设计:有些例如缓存区溢出的漏洞是可以通过更仔细的程序设计来避免的。严格的验证与测试可以帮助避免这些漏洞出现。全面解决这一问题很困难,但我们相信上述方法可以减轻其对人工智能安全性的影响,他们的扩展和融合将产生更稳健的解决方案。在人工智能系统执行一任务时,需要它进行目标功能的最大化可能较复杂,给出评价的代价较高,我们无法高频率执行对目标功能的评价。此时我们就需要使用更易评判的近似目标功能,评判这些替代功能效率较高,可在学习过程中多次进行。但这些近似功能可能与我们得出示意图出现偏差,导致意料外的附带影响和激励漏洞的产生。寻找更有效地方式来分配监督投入可缓解这些情况。解决这一问题的一个方向是研究部分监督的增强学习系统。在该系统下,人工智能设备只能看到较短时间内的激励因素,虽然设备的性能仍然基于整体时间历程中的表现来评价,但设备只能通过优化每个短时间单元实现对整体的优化。我们可以预测的部分监督增强学习系统研究可能包括以下几个方面。监控下的激励学习:将模型设计为可预测每一个时间步状态,用它来预测未标记阶段的回报,然后给每个预测一个定性的权重来表明它们的不确定性。半监视或主动激励学习:将以上方法与传统半监视或主动学习相结合,来达到更快得到激励的估计量。无监视迭代:利用对未标记部分过渡状态的观察来获得更准确的Bellman更新。无监视模型学习:若使用基于模型的增强学习系统,利用对未标记部分过渡状态的观察来提高模型质量。所有自动学习设备都可能会面临拓展性的任务,在这些任务中设备采取可以帮助它们了解环境的行动,而不是最适应于目前所得到信息的行动。这种拓展状态下的行动可能是随机的也可能是遵循统一拓展程序的,后者比前者更具有隐蔽性,难以发现,因此也更为危险。现实生活中,增强学习设备可以在程序上对可能带来灾难后果的行为进行硬约束来避免上述情况发生。在应用较少的阶段,设计师可以对可能的危险行为进行一一枚举,但随着应用场景的增加,通过代码硬约束避免全部灾难性情况发生变得越来越困难。现有大量文献研究这一问题,下面简单介绍几种应对方法:对风险敏感的性能准则:有大量文献考虑更改最优化准则,将原有的“激励奖励最大化”改为“最大程度地避免少见的灾难性事件”。这一方法可概括为优化最差情况性能,或保证每个较坏特性出现概率最小。该方法尚未被实际测试。引入示例集:逆增强学习方法是一种可以避免拓展行为的方法,只要对很小的示例集进行学习,逆增强学习通过神经网络算法就可以得到任务的成本功能和策略。仿真拓展:提高仿真环境中拓展结果仿真的真实度,能减少真实世界中应用的损失。但很多时候拓展行为仍需要在真实世界中进行,因为很多细微状态无法被仿真系统捕捉。边界拓展:当我们了解有一部分状态空间是安全的,在其中即便进行最危险的行为,系统状态仍可恢复。我们可以允许设备在该区域内行动。安全被定义为保持在可遍历、可恢复的状态空间之中。信任策略监督:若我们有一个值得信任的政策和一个环境模型,我们可以限制拓展功能保证在策略认为可恢复的范围之内行动。人工监督:此外还可以由人来寻找潜在的不安全行为,这样问题又回到可测监督领域内。每次拓展行为都需要人工给出评判执行成本太高。此外还需解决“等待监督结果时如何决策设备的应对措施”问题。我们每个人难免会进入陌生环境,以前的经验不再能帮助我们处理面前的问题,这时错误在所难免。在这种环境下承认自己的无知比盲目的套用曾经的经验要明智得多。对于人工智能设备道理也是一样,如果测试样本的概率分布与设计设定相差太大,机器学习系统不仅会表现出较差的特性,还会误认为自己表现良好,不会给用户任何警示信息。如果一个设备的理解或学习过程没有在正确的概率分布下进行定义,他就可能误解环境,使得其运行产生伤害性行为,而且设备自身无法察觉。对于这一问题的研究专题包括改变检测、异常检测、假设检验等,我们选择几种进行介绍。特定模型:协变量改变与边际概率。在该方法中首先假设设计环境与测试环境中,输出参数对输入参数的条件概率相等,我们可以建立两种环境中输入参数的概率模型,以输入参数在测试环境与设计环境中概率之比为权重对设计过程中的样本进行加权。加权后的样本可以帮助我们对测试环境输出参数的概率进行估计,达到自适应新环境的效果。在多种概率分布下的设计:设计者可以在设计过程中保证设备在多种不同概率分布下均能正常工作,从而保证在新的测试环境中同样正常工作。本文分析了机器学习系统的事故问题,重点针对增强学习设备。事故被定义为人工智能系统由于设计缺陷而产生的不符合设计者意图的伤害性行为。文中将事故分为5类,分别讨论了他们的可能解决方法。事故不仅会造成经济损失,还会摧毁人们对自动控制系统的信心。所以我们认为,机器学习事故基准具有研究价值,对其开展深入研究可以使自动系统更加强大。