他的论文连同行都看不懂,却可能通向真正的人工智能
图片来源 KATE PETERS | wired.com
撰文 Shaun Raviv
来源 Wired
编译 贾晓璇
编辑 魏潇
每周一中午,卡尔·弗里斯顿(Karl Friston)都会来到皇后广场(Queen Square),去有夏洛特皇后雕像的花园里点起一根烟。这个稍稍有点驼背,有着一头银灰色头发的科学家是伦敦大学学院(University College London)著名的功能成像实验室(Functional Imaging Laboratory,FIL)的学术负责人。抽完烟后,弗里斯顿走进广场西侧一栋砖砌石灰石建筑,径直走到四楼会议室。
他跟等在那里的人们打了个招呼——这也许是他当天说的第一句话,因为在中午之前,弗里斯顿不喜欢和任何人讲话。他也很少和别人单独会面。相反,他喜欢举办这种公开会议,学生、博士后和其他希望得到他指导的公众(近几年这个比例出奇的高)坐在一起,听他讲专业知识。曾跟随弗里斯顿学习一年、现任麦吉尔大学(McGill University)精神病学住院医师戴维·本里莫(David Benrimoh)说:“卡尔认为,如果谁有了某个想法、遇到了问题或者在做项目,最好的解决办法就是整个团队都听听 TA 的汇报,让每个人都有提问、讨论的机会。这样一来,一个人的学习就变成了大家的共同学习。这种方式挺独特的,符合他的一贯风格。”
每周一开会的时候,大家先轮流描述自己的问题,弗里斯顿边听边踱步,他把眼镜架在鼻尖上,所以每每要看发言者的时候总会低下头去打量他们。接下来的几个小时他会依次回答这些问题。即使是最混乱不清的问题,他也会带着礼貌迅速给出回答。这种问答环节——我称其为“向卡尔提问”组会——是集耐力、记忆、知识广度和创造性思维于一体的卓越成就。
在学术生涯前半期,弗里斯顿设计了许多重要工具,极大推动了对人类大脑的研究,他因此一跃成为学术界的“英雄”。1990 年,他发明了统计参数映射(statistical parametric mapping),用一位神经科学家的话说,这种计算工具能够将大脑影像“压缩”成一致的形状,研究人员可以借此对颅内活动进行逐一比对。在统计参数映射的基础上,发展出了基于体素的形态学分析(voxel-based morphometry)。在一项著名研究中,应用上述成像技术,研究者发现伦敦出租车司机大脑海马体的后侧会随着“道路知识”的积累而变大。
2011 年 Science 上发表的一项研究,使用了弗里斯顿发明的第三代脑成像分析软件——动态因果模型(dynamic causal modeling)来判断严重脑损伤的患者是具有轻微意识,还是已经成了植物人。
弗里斯顿 2006 年入选英国皇家学会(the Royal Society of Fellows),学会评价其对脑科学具有 “革命性”的影响,并表示超过 90% 已发表的脑成像领域论文使用了他的方法。2016 年,弗里斯顿成为了世界上被引用次数最高的神经科学家,他的 h-index(衡量科学家论文影响力的参数)几乎是阿尔伯特·爱因斯坦的两倍。2017 年,在过去二十多年中成功预测了 46 位诺奖得主的科睿唯安(Clarivate Analytics),将弗里斯顿列为可能获得诺贝尔生理学或医学奖的三人之一。
然而值得一提的是,如今拜访弗里斯顿的“朝圣者”,很少再谈论脑成像问题。这些访客迫切想弄明白的事情,大多都和脑成像无关。
过去的十来年中,弗里斯顿花了大量的时间精力来研究自己称为“自由能量原理”(free energy principle)的想法(他把自己的神经成像研究叫做“工作”,就好比一个爵士音乐家说自己在图书馆值班,只是糊口的一种途径)。有了这一理论,弗里斯顿坚信自己确定了所有生命,甚至所有智慧体的组织原理。他解释说:“有哪些行为是一个活生生的人一定会表现出来的呢?”
但坏消息迎头而来:自由能量原理实在是太令人费解了。几乎所有谈到这个理论的人,包括在其基础上开展工作的科研人员,都说自己还没完全搞懂。
但这些人又会急匆匆地补充,自由能量原理的核心其实十分简单,它解决了一个再基础不过的难题。热力学第二定律告诉我们,宇宙会朝熵增的方向发展,走向消亡,但生物体却不会。弗里斯顿认为,从单细胞生物到拥有数十亿神经元的人类大脑,所有具备组织形式的生命都由同样的命令驱动,这种普遍存在的命令可以简化为数学函数。弗里斯顿认为,生命只要存在,就会不断减少个体期望与感官感受之间的差距。或者用他本人的话来说,就是让自由能量最小化。
想要了解上述原理的潜在意义,你只需看看周一上午会有哪些人堵在 FIL 门口就行了。有些人希望用自由能量原理统一心智理论,建立一个新的生物学基础,解释已知的生命现象;有些人希望借助自由能量原理,从大脑功能性研究的角度来夯实精神病学研究的基础;还有一些人希望通过此原理突破人工智能研究的重重阻碍。他们不约而同地出现在这里,是因为他们相信能深刻领会卡尔·弗里斯顿自由能量原理的人,也许只有他本人。
弗里斯顿办公室一角。图片来源:Wired;摄影:Kate Peters
弗里斯顿不仅在他自己的领域内极具影响力,在全学科范围内也是一位多产的学者。如今 59 岁的他,仍不分昼夜地工作,2000 年至今发表了 1000 余篇学术论文。仅 2017 年一年,他作为通讯作者或共同作者出版的成果就多达 85 篇,平均每四天就有一篇论文被发表。
弗里斯顿小心翼翼地维护着自己的内心世界,避免外界因素前来打扰,其中之一就是“担忧他人”。与私下聊天相比,他更喜欢上台演讲,和他人保持舒适的距离。他从不用手机、喜欢穿深蓝色的西装,店铺清仓时会一次买两套;他觉得自己每次去皇后广场的路上常常遇到“让人头大”的打搅,所以经常刻意远离人群,即使在国际会议上也是如此——他不喜欢大力鼓吹自己的想法。
与此同时,弗里斯顿却能敏锐、透彻地领悟到自己作为一名学者的驱动力。他认为认真思索花费数周才能破解的难题,能给自己带来一种难以言说的舒缓和释放,这和溜出去抽烟一样让人愉悦。他认为自己从童年起,就对寻找方法来整合、统一并简化这个充斥着“干扰噪音”的世界感到痴迷。
弗里斯顿回忆,自由能量原理的诞生要追溯到八岁一个炎热的夏天。有一天他在花园玩,翻过一根旧木头时,他发现了几只木虱,他认为这种小虫子在极力寻找新的黑暗处避难。但盯着它们看了半个小时后,他发现这些小虫子并没有像他想的那样在寻找暗处。
他意识到木虱的运动其实毫无目的,至少不像人类坐上车之后有个明确的目的地。这些木虱只是随意爬,太阳越大,爬得越快。
弗里斯顿把这次经历称为他的“第一次科学思考”,他说,那一刻“所有关于生存及其目的的人格化解释,瞬间从脑海中剥离。你必须全盘接受自己的观察结果,没有其它的解释。”
弗里斯顿的父亲是一名土木工程师,需要在英格兰全境内的桥梁上工作,因此一家人会随着他各地搬家。到十岁的时候,弗里斯顿已经换了六所学校。老师们无法因材施教,所以他常常独自破解各种问题。10 岁时他发明了一种能自动修正的机器人,可以通过自我校正系统携带一杯水通过不平坦的地面而不撒出来。但是学校却找了个心理学家询问他是如何设计出来的。一贯给予他鼓励的母亲安慰道:“你非常聪明,卡尔,不要理会别人对你的评头论足。”但他当时不相信。
到了十几岁,弗里斯顿又经历了一次“木虱时刻”。他看完电视回到卧室的时候,恰巧注意到窗外盛开的樱花树,一个令他一生难忘的想法在脑海中闪出:“肯定有一种从零开始理解万物的方法。如果我从一个点开始考虑,可以推导出整个宇宙吗?”他躺在床上想了很久,但第一次尝试“很明显以失败告终”。
中学快毕业时,弗里斯顿和同学参与了一项计算机职业咨询实验。他们要回答一系列问题,机器会就此预测出最适合他们的职业。弗里斯顿描述了自己对电子设计和在自然中独处的喜爱,机器却建议他当电视天线安装工。这显然不对劲,所以他还是去了学校的职业咨询处,说他想在数学和物理学的背景下研究大脑。顾问老师建议他当一名医生,这就意味着,弗里斯顿必须学习医学。
他先在剑桥大学学习物理学和心理学,随后接受了医学教育。完成学业后,弗里斯顿搬到牛津,在成立于维多利亚时代的利特摩尔医院(Littlemore Hospital)作了两年实习医生。分配给弗里斯顿的任务是照顾 32 名慢性精神分裂症患者。正是这些患者让他开始思考:大脑中的连接为何能被轻易破坏?弗里斯顿带着一丝眷恋回忆到,“那儿真是个理想的研究地点,有着浓厚的精神病理学氛围。”
他每周组织两次 90 分钟的治疗会,会上患者们会一起探讨他们的“小问题”,这和今天的“向卡尔提问”组会十分类似。30 多年过去了,这些形形色色的患者仍能激发卡尔的深思。比如患者 Hillary,看上去神似《唐顿庄园》中那个淳朴的厨娘,但现实中,她在被送来医院之前,用菜刀砍死了自己的邻居,因为她“确信邻居是一只邪恶的人形乌鸦”。
20 世纪 90 年代早期,弗里斯顿在离开利特摩尔医院之后,曾尝试用当时比较新颖的正电子放射断层扫描成像技术(PET)来研究精神分裂症患者大脑内部的病变。在此期间他发明了统计参数映射。发明之时他就坚持,该技术是自由共享的,不搞专利化和商业化,因此今天这项技才能被广泛使用。当时,弗里斯顿还会飞往世界各地,比如美国马里兰州(Maryland)贝塞斯达(Bethesda)国立卫生研究院(the National Institutes of Health),把软件交给科研人员。弗里斯顿描述:“我常常会带着一堆生物特征测量数据磁带坐上飞机,到了目的地再把内容下载下来,接着花上一天调试软件,教会别人如何操作,最后再飞回家休息。当时开源软件就是这么传播的。”
1994 年,弗里斯顿搬到皇后广场,FIL 给他安排的办公室让弗里斯顿和盖茨比计算神经科学组(Gatsby Computational Neuroscience Unit)做了很多年的邻居。当时盖茨比科学组由它的创始人、认知心理学家、计算机科学家杰弗里·辛顿(Geoffrey Hinton)负责,他们正在研究生命体系和机器系统中的认知学习理论。这时 FIL 在神经影像学领域正处于领先地位。盖茨比科学组为有志于将数学模型应用在神经系统中的学者们提供了训练的平台。
辛顿对那些艰深的统计模型有种“孩童般的热情”。和很多人一样,弗里斯顿很快就被辛顿所吸引,二人成了朋友。
在辛顿的影响下,弗里斯顿逐渐相信,研究大脑的最好方法,就是将它想象成一台贝叶斯概率机(Bayesian probability machine)。19世纪赫曼·冯·亥姆霍兹(Hermann von Helmholtz)在其工作中就曾提出过这一观点,认为大脑以概率的方式计算和感知世界,根据接收到的信息调整想法、进行预判。在最流行的现代贝叶斯模型中,大脑像个“推理引擎”,目的是最大限度减少“预测误差”。
2001 年辛顿离开伦敦,前往多伦多大学。在那里他逐渐成为人工智能领域举足轻重的科学家之一,为现今深度学习算法(deep learning)的研究奠定了坚实的基础。
辛顿离开之前,弗里斯顿最后一次拜访了这位盖茨比科学组的朋友。辛顿向他描述了自己设计的一种新技术,通过整合多个概率模型的输入,使计算机程序能更有效地模拟人类进行决策, 该技术目前在机器学习中被称为“专家乘积系统(product of experts)”。
这次见面让弗里斯顿深受启发,出于“智力互惠”的考虑,弗里斯顿将他的笔记拿给了辛顿。在这些笔记中他曾尝试将某些看似“不相关的大脑解剖学、生理学和心理物理结果”联系起来。2005 年,弗里斯顿将笔记整理成论文发表出来,这是他第一篇研究自由能量原理的论文,之后他又发表了数十篇。
即使是弗里斯顿本人,也很纠结自由能量原理该从何讲起。他经常让大家自行搜索维基百科。但对我来说,从弗里斯顿办公室的一张毯子讲起可能会容易一点。
弗里斯顿办公室一角。图片来源:Wired;摄影:Kate Peters
这张印有俄罗斯数学家安德烈·安德烈耶维奇·马尔科夫(Andrei Andreyevich Markov)的羊毛挂毯,是弗里斯顿的儿子送给他的恶作剧礼物,隐藏着一个有关自由能量原理核心理论的笑话。马尔科夫毯(Markov blanket)就是用这位数学家的名字来命名的。在机器学习中,马尔科夫毯能起到分离的作用,将分层系统中的某组变量与其他变量区分开来。心理学家克里斯多福·佛利斯(Christopher Frith,h-index 跟弗里斯顿一样高)曾将马尔科夫毯形容为“认知版本的‘细胞膜’,保护毯内状态不受外部影响。”
在弗里斯顿看来,宇宙是一个马尔科夫毯的嵌套结构。我们都有各自的马尔科夫毯,把我们和外界的影响分隔开。每个人身体内部也存在各式各样的马尔科夫毯,有分隔器官的、分隔细胞的,还有分隔细胞器的。在马尔科夫毯的保护下,生物体内的物质经历一段时间后,仍能保持其特性。没有了马尔科夫毯, 我们只能化作一团热气消失在苍穹下。
自由能量理论的概念本身来自物理学,这意味着如果不引入数学公式,就很难把它解释清楚。从某种意义上说,自由能量之所以强大,是因为它不仅仅是一个文字化的概念,更是一个可测量的量,从而能够被模型化,其过程与弗里斯顿引起世界轰动的脑成像建模十分相似。但如果将这个数学上的概念翻译成文字,得到的结果大概是这样的:自由能量是期望状态与测量状态之差。换句话说,当你把自由能量最小化,也就意味着意外最小化。
弗里斯顿认为,无论是原生动物还是职业篮球队,任何能够抵抗无序和分解趋势的生物系统,都遵循自由能量原理。
单细胞生物和大脑一样,都存在减小意外的特定机制。两者唯一的区别在于,随着自组织生物系统的发展,人拥有了非常复杂的脑结构,吸收了数十亿感受器传来的信息,并将这些信息有效地组织成精确的世界模型。弗里斯顿说:“从某种意义上讲,大脑十分奇特,它所形成的假设,能够解释从感受器传来的无穷无尽的世界模式。”在对接下来几波感受进行预测的过程中,大脑不断地根据感受器得到的信息做出推断,并努力将错误预测信号最小化。
你可能已经注意到,目前为止这听起来很像辛顿上世纪 90 年代讲给弗里斯顿的贝叶斯理论——大脑是一个“推理引擎”。事实上,弗里斯顿认为贝叶斯模型是自由能量原理的基础,“自由能量”大体等同于“预测误差”。弗里斯顿认为贝叶斯模型的局限性在于,它只解释了信念与感知之间的相互作用,但是它不能解释信念与身体或动作之间的关系。比如它并不能让你离开椅子。
这对于弗里斯顿来说还不够,他使用“主动推理”一词来描述有机体在世界中活动时最大限度地减少意外的方式。弗里斯顿认为,当大脑做出的预判不能很快被感受器证实时,大脑可以通过以下两种方式之一来使自由能量最小化:修改预判——接受意外,允许错误,更新世界模型;或者主动让预判成真。比如我的大脑预判我将会用左手食指触摸自己的鼻子,但是本体感受器反馈的信息是左臂还垂在身体一侧,那我就可以抬起手臂,把手指压在鼻子上,将大脑的错误预判信号最小化。
这也就是这个理论为何能解释我们所做的一切:感知、行动、计划、解决问题。坐车去办事,就是用行动将假设变为现实,从而最小化自由能量。
那如果预判不能自我实现又会怎样呢?一个系统被意外淹没后会是什么样呢?事实证明,自由能量原理不仅仅是统一行为,认知和计划的理论,也是一种精神疾病理论。假若大脑对感官涌入的证据不够重视或者太过重视时,就会出问题。例如,精神分裂症患者可能无法更新他们的世界模型来解释获得的视觉信息。原本看到的应该是友好的邻居,病人看到的没准是一只巨型的邪恶乌鸦。弗里斯顿解释:“你想想看,精神病,甚至大多数神经系统疾病,只不过是破碎的信念或者错误的推断,也就是幻觉和妄想。”
过去几年,弗里斯顿和其他一些科学家利用自由能量原理来解释焦虑、抑郁和精神病,以及自闭症、帕金森病等症状。多亏了弗里斯顿的神经成像方法,科学家们已经知道了不同的疾病中大脑哪些区域容易出现功能障碍,哪些信号会受到干扰。但仅此一点还不够。弗里斯顿说:“我们还不了解大脑中具体哪些连接(神经突触)出了问题,得有个涉及内心认知的微积分才行。”
也就是说:自由能量原理为大脑的运转和失灵提供了一个统一的解释,因此我们有理由相信,它可能引领我们走上一条从头开始理解心智的道路。
过去几年,以图像、人脸以及语音识别为典型代表的机器学习算法在计算机领域取得了飞速发展。但它需要大量的前期数据及人的监督,而且普适性很差。除了图像或语言识别,机器学习还存在一种叫做强化学习(reinforcement learning)的算法,在赢得围棋、国际象棋、打砖块(Atari’s Breakout)等各种游戏的过程中表现出色。强化学习不需要人类对海量训练数据进行标注,只需要指导神经网络寻求某种奖励——通常是游戏的胜利。神经网络在一遍又一遍玩游戏的过程中学习,不断优化动作直至打通最后一关,就好比狗狗为了得到奖励而学习执行特定任务。
问题在于,强化学习也有很大的局限性。现实情况中大多数目标都不是单一的、狭义的;而且大多数情形都不像游戏那样,由稳定的规则约束。人工智能背后宏伟的目标在于,让机器以人类的方式思考,但是目前强化学习做不到。
对于弗里斯顿和他的支持者来说,以上失败有因可循。毕竟自由能量原理认为,人类思考的根本动力不是寻求某种任意的外在奖励,而是最小化预测误差。显然,人工智能也该如此模仿。好消息是,自由能量原理背后那些很难翻译成文字的贝叶斯公式,已经用机器学习语言编写出来了。
2017 年末,伦敦国王学院(King’s College London)神经系统科学家、工程师罗莎琳·莫兰(Rosalyn Moran)领导的一个团队,让两名 AI 玩家在 3D 射击游戏《毁灭战士》(Doom)中对决,以比较自由能量(主动推理)驱动与奖励最大化驱动的差别。
由奖励最大化驱动的 AI,目标是在游戏中杀死一只怪兽;主动推理驱动 AI 的目标是意外最小化。后者开始时进程缓慢,但后来它表现得像是掌握了游戏的模式一样,比如它好像意识到,自己向左移,怪物就会向右移。
一段时间后人们发现,即使在游戏环境中,奖励最大化 AI 表现明显“没那么稳定”;主动推理 AI 则会更好地适应环境。莫兰描述:“因为有了探索,它比强化学习 AI 的表现要好。”在另一场模拟中,主动推理 AI 与真人玩家对决时它的表现与上面的情况相似:一开始也没急于求成,先积极探索环境,而后快速达到了真人玩家的水平。
莫兰告诉我,主流的深度学习理论正在逐渐接受自由能量原理。弗里斯顿有学生去了 DeepMind 和 Google Brain 工作,还有一名还创建了华为的人工智能理论实验室(Huawei’s Artificial Intelligence Theory lab)。但它还没像强化学习方法那样普遍,现在计算机专业的本科生都在钻研强化学习,“但他们还没接触过自由能量原理。”
我第一次问弗里斯顿自由能量原理和人工智能有什么联系的时候,他预测在 5~10 年内,大多数机器学习算法将会把自由能量原理整合进去。问到第二次,他告诉我:“想想它为什么叫主动推理(active inference),”边笑边等着我回味他的文字游戏,露出洁白的牙齿。“因为简称是AI呀。所以主动推理是新的 AI 吗?当然啦,简称一样啊。”
2010 年,哥伦比亚大学(Columbia University)的精神病学家彼得·弗利德(Peter Freed)找来 15 名研究大脑的同行,一起讨论弗里斯顿的一篇论文。弗利德后来在文章里回忆:“我们中懂数学的人还挺多:三名统计学家,两名物理学家,一名物理化学家,一名核物理学家,还有一大群神经影像学家,但还是没能理解那篇论文。后来我又找了一位普林斯顿大学的物理学家、一位斯坦福大学的神经生理学家一位,以及一位冷泉港的神经生物学家,还是没有结果。每次都一样:论文里有太多公式、假设、运动部件了,理论也很全局化,我们连问题都不知道从何问起,所以大家都放弃了。”
很多人被弗里斯顿晦涩难懂的理论弄得很恼火,但同时也有许多人认为他的理论如同达尔文的自然选择学说一般,开启了新世界的大门,每一部分都蕴含了深奥的道理。加拿大哲学家麦克斯韦·拉姆斯特德(Maxwell Ramstead)在 2014 年首次阅读弗里斯顿的论文之前,就已经在寻找方法,将不同层次的复杂生命系统关联起来——从细胞到大脑,从个体到社会。2016 年他见到了弗里斯顿,后者告诉他,适用于细胞分化的数学方法,也可以应用于文化动力学。拉姆斯特德说:“这是一次改变人生的谈话,我都激动得要流鼻血了。”
拉姆斯特德表示,在弗里斯顿提出自己的理论之前,“我们都在这个多学科空间里寻觅,却没有连通各领域的通用货币。自由能量原理的出现带来了这种货币。”
2017 年,拉姆斯特德、弗里斯顿与墨尔本大学(the University of Melbourne)的保罗·巴德科克(Paul Badcock)合作发表了一篇论文,文中用马尔科夫毯解释了所有生命形式。单个细胞是为了生存而将自由能量最小化的马尔科夫毯系统,部落、宗教和物种也是如此。
这样看来,自由能量原理似乎已经发展到了能够包含万物的程度(弗里斯顿告诉我,癌症和肿瘤可能就是细胞接收到错误的讯息时产生的错误推理)。但人们还有疑问:有什么是这个涵盖万物的理论解释不了的呢?
我与弗里斯顿聊起这个话题的时候,他本人的语气则更为谨慎,他只表示主动推理及其推论前景广阔,还几次承认自己的理论可能“毫无价值”。在 FIL 小组会议上,他告诉大家,这个理论不是要求生物为了生存而最小化自由能量,而仅仅是对生物自我组织的一种解释。
弗里斯顿认为,自己有两个主要工作目标。当然在自由能量原理的基础上,能发展出真正的人工智能再好不过,但这并不是他的首要目标。相反,他最大的愿望是推进精神分裂症研究,帮助修复千千万万精神疾病患者的大脑。他的第二个目标则“自私得多”——这需要回溯到他十几岁在卧室看樱花的那个晚上,“我能找到一种最简单的、解释万物的理论吗?”
他说:“这个目标有点任性。不是出于对临床患者的同情,而是一种私欲,只想尽可能对万物有个全面、严格、简单的理解罢了。我经常想起人们和我开玩笑说很难和我交流,这些玩笑有时出于恶意,有时出于打趣。但不管怎样我都会想,我的理论又不是写给你的,这是写给我自己的。”
本文来自微信公众号“科研圈”。如需转载,请在“科研圈”后台回复“转载”,或通过公众号菜单与我们取得联系。原始文章请点击“阅读原文”。
更多故事,尽在👉领研网科研生涯频道。
▽ 精彩回顾 ▽