学界 | Stuart Russell等人提交论文：机器人不应永远遵从人类指令 | 自由微信

学界 | Stuart Russell等人提交论文：机器人不应永远遵从人类指令

2017-05-31 机器之心

选自arXiv

机器之心编译

参与：李泽南

Stuart Russell 刚刚在 GMIS 2017 大会上的演讲中为我们分享了人工智能目前面临的一些挑战。为了实现这个目标，他提出了机器人在执行命令时的行为准则：「第一点，机器人的目标就是使得人类的意愿最大化的实现——机器应该使人类的意愿得到满足，而不是让机器给我们创造一种让人类感觉不舒适生活。第二点，机器人不知道什么是价值，我们不能给机器一个固定的价值系统。第三点，机器需要从人类的行为中获得参考。」

孩子在家感到饥饿的时候，冰箱里没有东西，机器人会选择家里的猫作为食材准备晚餐吗？

在 5 月 28 日的演讲过后，UC Berkeley 的 Russell 组发表了一篇论文，Smitha Milli、Dylan Hadfield-Menell、Anca Dragan 和 Stuart Russell 对机器人服从人类指令的规则进行了深入探究。研究人员认为，在人类并非总是理性的情形下，机器人需要辨别接收到的指令是否合理，这样才能更好地服务人类。

论文：Should Robots be Obedient?

链接：https://arxiv.org/abs/1705.09990

摘要

直观地服从人类发出的命令似乎是一个好机器人该有的特质。但是，人类并不完美，有些时候给出的命令不符合自己的喜好。我们的研究表明，当一个人并不是完全理性时，一个遵循人类潜在偏好的推断来行动的机器人总是能比仅仅遵循人类命令表面含义的机器人更好。所以，机器人的服从特质需要与从其所有者那里获得的信息中进行权衡。我们研究了这种权衡是如何影响机器人推测人类偏好的，发现一些方法更能体现出服从特质。随后，我们分析了机器人在遵从符合/不符合人类本意时的表现好坏。最后，我们探究了如何让机器人检测出错误的指令。我们的研究表明，可能存在一个需要机器人决定人类命令是否错误的中间区域，在此区间内不直接执行命令是更好的选择。

机器人是否需要服从命令？大多数人对这个问题的第一反应都是：YES。一个不听从指令的咖啡机肯定不是一台好的咖啡机。具有复杂功能的自动化系统如果无法遵从人类发出的指令，可能会具有很大的危险性，它们可能会破坏财产和生命，到引起灾难等。目前的很多研究都为人工智能系统至少加上了 100% 可以关闭系统的「红色按钮」。

然而，在长期看来，盲目遵从人类指令的系统也不是一个完美的选择。自动驾驶汽车应该在驾驶者试图在雪地高速行驶时拒绝命令，也不应该在儿童试图手动驾驶时交出控制权。

在 UC Berkeley 的论文中，研究者探索了不完全遵从人类指令的系统的可能性。具体而言，研究者探究了服从的性质与其达到的表现之间的关联性，系统受到发出命令者理性的影响，机器人学习人类喜好程度随时间的进展，以及机器人对人类建模的准确度。研究者认为这些属性可对机器人实现价值具有预测性影响。

在研究中，作者以人类指令者 H 和机器人 R 为核心建模，以此来数字化 R 的服从程度。H 和 R 是合作的，但 H 知道回报参数θ，R 则不知道。H 可以给 R 发出指令，但 R 可以选择遵从或不遵从。研究人员展示了 R 在接收到指令后试图通过模拟θ来影响真正的θ——这意味着当 H 发出的命令不合理时，R 比盲目遵从人类指令的机器人能够更好地完成任务。

在逆强化学习（inverse reinforcement learning，IRL，Andrew Ng，2000 & Abbeel and Ng，2004）任务中，研究人员对比了盲目遵从指令与不同的θ预测方法的表现。最终发现最大相似估计（MLE）的θ要比其他方式能更好地完成人类发出的命令。

最后，研究人员探究了在拥有错误模型时，R 系统的鲁棒性和θ表现。研究者发现 MLE 方式在错误模型时能够作出合理举动（和正确模型时动作一致），而最优策略（optimal policy）则无法做到。

图 1. 盲目遵从指令的机器人总是听从 H 的命令（左）；而 ARL-R 计算了 H 的潜在喜好，根据估算做出反应。

图 2. 自我驱动优先（Δ，左侧）和遵从指令（O，右侧）随着时间步增加的表现

图 3. 当 H 提出的指令趋向于无理，Δ趋向于高收敛，但速率较慢

图 4. 当θ错误时，Δ和 O 的表现

研究人员认为，实用化机器人必须在远期学会自主地决定何时遵从命令，何时不遵从。但在同时，更重要的是必须保证机器人在做出反应后具有足够的容错性，因为机器人使用的模型也可能出错。

更多有关GMIS 2017大会的内容，请点击「阅读原文」查看机器之心官网 GMIS 专题↓↓↓

反向激励，在加速这个社会的黑化

把抄袭说的如此冠冕堂皇，雷军让年轻人丢掉了耻辱感

2024【公共营养师】报名通道已开启，不限学历，23岁及以上可报!还能领2000补贴

Wealth | 中国成本轮金价涨势的前沿和中心

父亲出轨后，母亲对父亲实施了她的精确打击 | 二湘空间