哈佛神经科学博士：自动驾驶汽车不会「读心术」，但人会！| 厚势

原创 2017-09-08 拉里佩 厚势

厚势按：在先前推送的两篇文章《谷歌自动驾驶前 CTO：从 L2 逐步升级到 L4 + 是行不通的》与《自动驾驶的根本挑战：人类意图识别与人-车博弈难题》中，Chris Urmson 与 Rodney Brooks 都认为，实现全自动驾驶汽车的最大困难之一在于对「人类意图」的准确识别。

哈佛大学神经科学博士生 Sam Anthony 近日在 Quartz Media 上撰文，对这一主题从认知学与行为学的角度进行了讨论。厚势将此文进行了删选整理，译成中文，并在文末从图灵机只解决「可计算问题」的角度作出了点评，供读者参考。

引子

如果向机器人学家或计算机科学家提问，需要具备哪些功能才能让一辆汽车实现自动驾驶？

他们的回答都差不多，比如：

需要知道道路的边界在哪里；
需要能够从纵向和侧向操控汽车（即转向和加减速）；
需要知道某段道路的限速是多少；
能够识别并读懂路标代表什么含义；
能够检测交通信号灯是红色还是绿色；
能够快速对行驶路径中出现的意外物体作出反应；
能够实现高精度定位与导航。

上述功能确实是重要，且不可或缺，但却忽略了真实世界驾驶过程中一个重要组成部分：我们的直觉。我们是如此擅长且毫不费力地使用着直觉来确定周围人的动机，以致于自己都没察觉到这个过程，更不用说对其进行编程。

然而，目前自动驾驶汽车缺乏的正是这个能力——看一眼某个人（如行车过程中经常遇见的三类人：行人、驾驶员和骑自行车的人），就知道他们此刻在想什么。事实上，人类驾驶员在开车时的这些即时判断，对自身与他人的行车安全起着至关重要的作用。

来自哈佛大学的自动驾驶初创公司

图 1 脱胎于哈佛大学的自动驾驶软件初创公司 Perceptive Automata

山姆·安东尼（Sam Anthony）是哈佛大学认知学、脑科学与行为学在读博士（PhD Candidate in Cognition, Brain and Behavior），同时也是自动驾驶软件初创公司 Perceptive Automata 的 CTO 兼联合创始人。Perceptive Automata 的成员全部来自哈佛大学，成员的学术背景包括神经科学、计算机视觉与机器学习，致力于开发下一代人工智能技术。

为了弄清人们在开车时唤醒这些潜意识的频率，安东尼曾在自己工作过的哈佛大学实验室附近的一个安静的没有信号灯的十字路口安装了一台相机以记录路口的交通情况。

在想象中，这种较偏僻的十字路口不会像波士顿市中心、曼哈顿或者墨西哥城的那么拥挤或难以通过。但是在短短 30 秒的视频片段间隔中，仍能数出超过 45 个瞬间，是某一人在用直觉读懂另一人内心的想法。

这些非语言的瞬间产生的直觉认知可能是：

「那人不会让步」；
「那人没看到我在这里」；
「那人在遛狗，不会乱穿马路」；
「那两个人在谈话，不会过马路」，等等。

预知心理状态

图 2 经典心理学实验：萨莉-安妮测试（Sally-Anne Test）

有很多实验证据表明，人类非常善于凭直觉读懂他人的意图，即会「读心术」。萨莉-安妮测试（Sally-Anne Test）是一项经典的心理学实验，受试者（通常是孩子）通常会看着一个用娃娃演示剧情的研究人员，如图 2 所示，剧情如下：

有两个小姑娘，名叫 Sally 和 Anne。
Sally 有一个篮子， Anne 有一个箱子。
Sally 的篮子里有一颗弹珠，但是 Anne 的箱子里没有。
有一天早上，Sally 出门了。
Anne 偷偷打开了 Sally 的篮子，偷走了弹珠，放进了自己的箱子里。
Sally 晚上回到了家，她想找自己的珠子。
那么问题来了，她应该去哪里找呢？

实验结果表明，四岁以上的正常儿童都会脱口而出：「当然是去自己的篮子里找啊！」

但其实，「当然」二字隐藏着一个非常复杂的认知过程——受试儿童不仅需要知道 Sally 意识到了某些事情（珠子放在了篮子里），没有意识到某些事情（珠子被别人拿走了）；此外，还需要知道 Sally 的认知状态只有在尝试过某些事情（查看了自己的篮子）之后才会得到更新（珠子不见了），不然他的认知状态就是一贯的（离开时和回来时都会认为珠子在篮子里）。

萨莉-安妮测试在世界各地的实验室中已经重复了很多次，是研究人员用来测试人的社会直觉（social intuition）是否受损的标准工具包的一部分。如果被试者是自闭症光谱患者，他们会以为 Sally 会跟自己一样，以上帝视角行动，因此会认为 Sally 应该去 Anne 的箱子里找珠子。

试想一下，如果自动驾驶汽车也按照自闭症光谱患者的认知模式来行动，那会是一种什么样的场景呢？

计算机不会「读心术」

图 3 Heider-Simmel 实验中的场景

人类预知他人心理状态的能力是如此与生俱来，我们甚至把它应用到明显非人类的对象上—— Heider-Simmel 实验展示了我们是如何易于将感知到的意图赋予简单的几何形状的。在这个著名的研究中，有一部电影展示了围绕屏幕移动的两个三角形和一个圆圈，如图 3 所示。

毫无例外的是，大多数人构建了相同的发生在这三个几何形状之间的故事情节：深色大三角是恶棍，白色小三角是受害者，浅色圆圈是保护者，大三角在不停地追着小三角，而圆圈在保护小三角，情势十分危急，但最后圆圈成功拯救了小三角，虚惊一场。
所有这些心理状态和故事情节都只是在看着几何形状移动的过程中自发产生的，在心理学中，这被称为「刺激贫乏」（Poverty of the Stimulus，POTS），是语言天赋论的基础。

我们与公共道路的其他人之间的互动过程也是一个「刺激贫乏」的例子之一：

我们只需要花几百毫秒看一眼某个行人，就知道如何回应他；
当我们看到一辆车轻微地向旁边车道侧向移动了半秒钟，就知道要决定是否给它让路；
我们只需观察一个疾驰的骑自行车的人几秒钟，就能判断出他是否注意到了我们正在转弯。

类似上述的这种互动和默契会在行驶过程中经常出现，它们是安全与文明驾驶的核心。但是，截止到目前，计算机还无望如此操控车辆，对心理状态缺乏直觉认知的危险也已经得到了证实。

在自动驾驶汽车发生的第一次交通事故中，谷歌的车错误地认为公共汽车驾驶员会给它让路，误解了驾驶员努力绕过一辆停着的汽车的紧迫性以及方式的灵活性。在另一次交通事故中，优步在亚利桑那州测试的一辆自动驾驶汽车被一个试图转向变道的驾驶员给撞了，后者预计任何后面正在驶来的汽车会注意到自己车道的交通流量已经放缓，相邻车道上的汽车的变道意图会增加。但是，优步的自动驾驶系统并不懂这些。

克服「莫拉维克悖论」

为什么对于人类如此容易的「读心术」，对于计算机而言会这么困难呢？这种情形在人工智能系统的开发过程中经常出现，以致于有一个专有名词来描述它，即「莫拉维克悖论」（Moravec’s Paradox）——对人来说最简单的任务，对计算机来说通常是最难的任务。

那么问题来了，如果不能明确地表述某项任务需要做什么，你如何设计相应的算法来执行任务呢？

通常的解决方法是尽可能简单地定义任务，并使用可以从大量数据中学习的被称之为「深入学习」算法。例如，当给出足够数量的树的图片（以及不是树的其它东西的图片）时，计算机程序可以非常好地识别出树。如果你把一个问题归结为证实或反驳一个关于世界的明确的事实——那里有一棵树，或者没有一棵树——那算法确实可以做得很好。

但是，如果在某些问题中，关于世界的基本事实既不简单也不易得，该怎么办？人可以对其他人做出惊人准确的判断，因为我们有一套非常复杂的内部模型来理解其他人的行为方式。但是这些模型就像是隐藏在我们大脑中的黑匣子中，目前还无法破解。

解决上述问题的唯一办法是深入理解人的行为，不仅仅是通过逆向工程，而是通过行为科学的视角来认真、全面地表征它。人类拥有非常强大的理解能力，但其背后的内部机制尚不明了。安东尼认为，我们需要利用对人类行为研究所积累的知识，来构建计算机视觉模型。这些模型被训练成能够捕捉人类对世界的反应的细微差别与微妙之处，而不是试图猜测我们的内部模式对于外部世界的描述是什么样的。

首先，我们需要弄清楚人类是如何工作的，然后才是机器学习。只有拥有对人类能力中的怪癖和弱点丰富而深刻的特征描述，我们才能够充分了解正在努力破解的人类「直觉难题」，并构建相应的计算机模型。因为，自动驾驶汽车必须能够以符合人类预期的方式行驶，才真正能够地发挥其效用。

厚势评论

笔者认为，安东尼虽然提出了自动驾驶的一个非常重要的问题，但他似乎忽略了一点——计算机科学的奠基人艾伦·图灵设计图灵机的初衷是解决可计算问题，之后基于冯诺依曼架构设计的计算机都属于图灵机的范畴。

人工智能虽然发展的如火如荼，本质上都是将待解决的问题转化成可计算问题，然后交给计算机去处理。

那么问题来了，人类所拥有的、在解决问题时非常管用的、经过数百万年生物演化而来的「常识」、「直觉」等工具是属于可计算范畴吗？

如果不是，图灵机是无济于事的。那么解决上文中描述的自动驾驶汽车难题似乎就剩下如下两种办法了：

将人类驾驶员剔除出整个交通系统；
发明区别于图灵机的新型计算机。

好像还是第一种办法更简单易行一些。

参考资料

Sam Anthony. Self-Driving Cars Still Can’t Mimic the Most Natural Human Behavior. Quartz Media. 17.08.29
Rodney Brooks. The Big Problem With Self-Driving Cars Is People. IEEE Spectrum. 17.07.27
Chunka Mui. Chris Urmson Reflects on Challenges, No-Win Scenarios and Timing Of Driverless Cars. Forbes. 17.05.08

作者：厚势分析师拉里佩

转载请注明来自厚势和厚势公号：iHoushi

-END-

文章精选

企业家

马斯克和贾跃亭｜福特CEO下台｜正道汽车仰融

任正非裁员｜电池大牛凯尔提离开特斯拉

智能驾驶

BBC自动驾驶纪录片｜自动驾驶第一案，谷歌讼Uber

高精地图｜自动驾驶的灾难｜英特尔收购Mobileye

自动驾驶的根本挑战：人类意图识别与人-车博弈难题

兰德公司资深研究员：实现自动驾驶安全性的挑战