世界是受控的幻觉:大脑根据贝叶斯概率预测来认识世界吗?
点击上方蓝字“返朴”关注我们,查看更多历史文章
要是你们能够洞察时间所播的种子,知道哪一颗会长成,哪一颗不会长成......
——《麦克白》,威廉·莎士比亚生活充斥着不确定性,没有人可以预知未来。正如布莱士·帕斯卡(Blaise Pasca)所说,
我们航行在辽阔无边的区域里,永远没有把握地漂流着,从一头被推到另一头。(we sail within a vast sphere, ever drifting inuncertainty, driven from end to end)
尽管不得不在人生的某个时刻里沉闷地接受这个教训,但我们依旧在这个由不确定性组成的世界里取得了了不起的成绩。我们买房,在银行账户攒钱,为了退休金和子女存钱。我们建立稳定的人际关系,纪念每一段感情。我们掌控着,也理应掌控着正在发生的事。
对于像我们这样从随机混乱且异想天开的进化中生存下来的生物来说,能做到这样已经很了不得了。那么在不确定的未来面前,我们是如何感知到“确定无疑”的呢?
贝叶斯脑假说(The Bayesian brain hypothesis)主张我们的行为背后隐藏着一种机制,其根源可以追溯到生命的本质。该假说认为,在某种意义上,除了预测未来和实现这个预测到的未来之外,大脑几乎没有做任何其他的事,此外,它还和生物系统一起,与大自然为它们准备的意外“惊喜”长期不懈地艰苦战斗着。
01稳态的必要性
安东尼奥·达马西奥(Antonio Damasio)在他的《事物的奇怪秩序》(The Strange Order of Things)一书中指出这一概念有所偏颇,稳态的内涵远远高于“静止不动”(standstill)。生命的特性是自我实现的(self-realizing),而不是仅仅满足于维持眼下所拥有的功能。
如果有两种存在竞争的有机体摆在你面前,一个满足于它目前所拥有的一切,另一个则为了未来而不断优化,你认为哪一个更有机会生存几百万甚至几十亿年?如今,我们发现生命其实一直在“默默地推动自己到达更遥远的未来”,因为它在过去进化出了更有利于在未来继续生存的特性。
像车轮一样滚动,保持呼吸,向前走。
但是从现代科学的角度来看,我们已经知道,在恍惚的状态下吸入毒性气体和打谜语不可能会让我们真正了解到世界的运作机制。为了减少对未来的不确定性,我们(和我们的大脑)需要采取更接地气的方法,以掌握的知识为基础预测未来。根据我今天对世界的观察,我能预计明天会发生些什么呢?为了获得最有利于生存的结果,我又该如何行动?
*译者注:据记载,传达德尔斐神谕的先是一位名叫皮提亚的女性,她在预言时周身被岩层裂隙中冒出的神秘气体环绕,进入一种疯癫的、疑似被上身的状态。目前有学者经过研究提出这种气体可能是乙烯类物质,对人产生了麻痹作用。
02贝叶斯定理
在下图中我们可以看到它的蓝色发光版本:
贝叶斯定理描述的是在 B 为前提条件的情况下, A 发生的概率等于以 A 为前提B的发生概率,乘以 A 发生的概率,再除以 B 的发生概率。
它给出了在我们已知其他相关条件发生的概率时,某特定事件的发生的可能性。
希望你已经猜到为什么这个公式会在预测未来时能派上用场。
作为“变幻无常”的代名词,天气是冷酷无情的大自然用来打击我们的最直接的方式,也是应用贝叶斯定理的绝佳案例。
这里要计算的概率就是P(Rain | Cloud),也就是当你看见云朵时,沙漠会下雨的概率。我们需要的其他条件有:
1.P(Cloud | Rain):雨天的早上是不是都会出现云呢?我们假设沙漠中80%的雨天早上都会出现云朵,这就意味着在早上看见云的话,这一天有很大几率会下雨。2.P(Cloud):沙漠中会出现云的概率非常小, 10% 左右。3.P(Rain):下雨的概率就更低了。沙漠中每百天才会下一次雨,所以概率是1%。
所以你在沙漠中看见云朵后,这一天会下雨的概率为:
P(Rain | Cloud) = P(Cloud | Rain)*P(Rain) / P(Cloud) = 0.8 * 0.01 / 0.10 = 0.08
可以说,看见云朵后差不多有百分之八的概率这一天会下雨。希望很小,但聊胜于无。
重要的是,在计算你需要的概率时,另外三个概率是必不可少的。丢弃任何一个都会明显改变你的结果。
03假阳性
*译者注:假阳性又称为误报、虚假肯定、伪正性。
假设只有 0.1% 的人口患有某种特定的癌症。你的医生告诉你有一种新型改良的癌症测试,在患癌的情况下,它检测的正确率为 90% 。缺点就是,当病人并没有患癌时,它也会有大概 9% 的概率将病人检测为癌症。
你是一个天生就对这个问题有些焦虑的人,你想通过做这个测试来缓解焦虑。最终你得到的结果是阳性。你害怕极了,毕竟你得癌症的概率是 90% 不是吗?
不,不是的。你可以快速地运用贝叶斯定理来推算你患癌的真正几率。请注意,在这种情况下,你需要区分真实肯定和虚假肯定的概率:
P(cancer | positive result)= P(positive result | cancer)* p(cancer)/(p(positive result)* p(cancer)+ p(false positive)* p(not having cancer))= 9.17% 所以你并不需要太担忧(出于焦虑所以进行测试,想必肯定很难做到不担忧),因为患癌的概率是很低的,检测结果假阳性的几率是检测阳性且真患癌的概率的 10 倍。
04用先验概率预测未来
在观察天空或者进行癌症测试时,为了判断一个事件(比如发现天上有云朵,或者癌症测试结果呈阳性)是否能帮助我们对另一个事件(比如下雨,或者真的患了癌症)进行预测,我们需要对下雨和患癌的整体概率进行描述。
我们的感官从外部世界收集到的信息会被大脑进行分类,在分类的同时,大脑会不停地计算概率。你可能在想为什么它运作的方式跟贝叶斯定理有关。
假设你看到一个四条腿的动物在地平线上飞奔的模糊轮廓,它的前额上有一个长而尖的东西。
你的大脑有没有自动得出这个动物是个独角兽(unicorn)的结论?
如果你精神还正常,你可能不会得出这个结论,因为在出现独角兽形状物体的情况下,真的看见一个独角兽的概率 P (unicorn | shape),是由独角兽真正存在的先验概率 P (unicorn)决定的,然而这个概率差不多是 0 。
05用贝叶斯推断建模世界
在接收到有关世界现状的新信息,比如新的样本后,大脑需要更新这个内部模型。假设你时常在每天上下班的路上看见一个独角兽,大概多久之后你会开始怀疑“世界上不存在独角兽”这个说法是否成立?或者假设有 50 个人癌症测试结果为阳性,其中有 20 个真的得了癌症,对于只有 9.17% 的人才会真的患癌这个估计,你还有多大的信心认为它是对的?
在新信息的基础上,以最优化统计的方式更新内部模型的概率分布被称为贝叶斯推断(Bayesian Inference)。
我们在行为实验中时常发现大脑会进行这种推断,或者在将感觉输入信息互相关联时:有研究表明,在巴甫洛夫有关的刺激实验中,不同刺激物之间的共有信息会优先被处理。
另一个例子来自于布里顿(Britten)等人于 1992 年做的视觉运动实验,他们观察到猴子在对视觉运动的一致性进行解码时,它们的大脑对刺激物的神经反应速率十分接近于贝叶斯最优解码速率。
事实证明,大脑会以我们已知的方式预测未来。
06贝叶斯脑假说
贝叶斯脑存在于外部世界,并被赋予了这个外部世界的内在表征。这两者被所谓的马尔科夫毯区分开来。
*译者注:Markov blanket,也称马尔科夫覆盖。马尔科夫毯是贝叶斯网络中的一个核心概念,可以理解为某个目标变量的最小特征集,所有与目标变量有关的信息都包含在它的马尔科夫毯中。马尔科夫毯中的信息集与之外的集合相互独立。
大脑会试着根据它自身生成的有关世界的模型,来推断知觉的成因。为了成功地对外部世界进行建模,在某种程度上,它必须能够模拟外部世界正在发生的事。用卡尔·弗里斯顿(Karl Friston)的话来说:
如果大脑要推断感知觉产生的原因,那么它必须有一个模型来描述引起感觉输入的(潜在的)客观情形之间的因果关系(联系)。进而神经组织会对参与产生感官信息的因果关系进行编码(建模)。
这是理解贝叶斯脑假说的第一个关键点,也是一个深刻的观点:大脑内部的世界模型证明,大脑的处理加工,是模拟外部世界运作的结果。为了成功地预测未来,大脑需要用自己的结构去模拟外在世界。这些过程需要遵循跟外部世界类似的因果关系,而且大脑自身还会对此进行观察监督。
第二个关键点回到贝叶斯推理上:从某种意义上说,大脑是遵循最优化原则的,正如我们发现大自然也是朝着最优化方向发展那样。
就像我之前提到过的,在对知觉内容进行分类,并在不确定的情境下做决策时,贝叶斯脑的工作状态近似于贝叶斯最优水平。这意味着在对未来(潜在的)状况进行预估时,它尽可能考虑到了所有可用信息和所有概率约束。
你可以给被优化的量取几个名字,但实际上对各种理论进行深挖、整合后发现,不同观点所指的被优化的量看似不同,其实内核都是一样的。有一种考察方式就是把它看作证据(evidence),在信息论中,证据等同于感官和内部世界模型共有信息的最大化。
07自由能量最小化
自由能(Free Energy)最小化是为了优化模型的信息或边际似然性,弗里斯顿将自由能的定义跟模型意外度(surprise of the model)的最小化联系在了一起(也就是尽量减少与你的内在世界模型不相符的体验)。
该理论进一步将它的元素与生物系统相结合,比如说大脑,因为它可以对外界施加作用。你不该只是在脑中臆想未来,你能对外界施加影响,追求并实现自己的愿望,主动地改变未来。
据弗里斯顿说,主动推理(Active Inference,AI)跟人工智能(Artificial Intelligence,AI)“撞缩写”并不是个巧合,他相信“在 5 到 10 年内,大多数的机器学习都将涵盖自由能最小化(Free energy minimization)原理”。
这又令我们想起了达马西奥对稳态的批判:
生命系统并不是静止不动的,为了使意外最小化并在充斥着不确定性的未来中生存,它始终在对外界产生着影响。
贝叶斯脑在将它所掌握的证据最大化时,实际上也正在隐晦地将它的熵最小化。换句话说,它在对抗着热力学第二定律,并在面对走向无序的自然界时,为生命系统的自组织(self-organization)提供了一个原则性的解释。
*译者注:熵是用来衡量系统混乱程度的量。根据热力学第二定律,宇宙的熵会不断增大到最大值,最后所有的一切都会变成无序、解体、无意义的状态。但根据生物进化论,生命体从简单形态自发进化到复杂形态,始终保持有序、有组织的状态,与热力学第二定律看似存在矛盾。有观点认为生物通过与外界进行能量交互来增序减熵,避免走向混乱无序。
因此贝叶斯脑假说是一个有关基本问题的理论。它将大脑活动与稳态概念结合在了一起,解释生命系统是如何在注定消亡的世界里挣扎求存。
08我们该如何考察贝叶斯脑?
其一是提出体系庞大的理论,其二是在大脑活动中寻找证据。如果大脑的确是按照贝叶斯脑假说的原理活动,那么我们需要进一步了解大脑是如何实现贝叶斯推理的。
学者认为贝叶斯推理发生在从运动控制到注意和工作记忆等多种认知层面上。每个认知模块都有各自的预期、内部模型和时间尺度。
有一个叫做预测编码(Predictive Coding)的理论被认为很有希望揭开这个秘密,它的核心观念跟贝叶斯脑是一致的:通过改变预测模型的参数,在相同事件发生时将(实际与预测的)差异最小化。有不少实验证据支持了该理论,例如在词汇预测实验中发现了 N400 效应。
认知科学界逐渐认识到,大脑并不仅仅是一个被动接收外界信息并作出反应的探测器。它不断地通过假设世界的真实模样和预测未来,以自上而下的方式生成内部世界模型(这意味着低阶的信息感知是在高阶思维的指导下进行的,就像独角兽那个例子一样)。
这使得研究者们将现实描述成“受控的幻觉”(controlled hallucination),以 2018 年 Journal of Neuroscience 发表的文章为例,被试在读过“kick”这个词后,把耳边播放的“pick”错听成了“kick”。
幻觉现实以一种可预测的方式带给我们决定性的进化优势,当我们在无序复杂的世界中渴求有序时所需要的优势。
目前学者们仍在激烈地争论该理论的有效性,以及大脑是如何在功能层面实现贝叶斯推理的问题。在定下任何明确的结论之前,还需要大量深入的研究。但我认为该理论以及现有证据的美妙之处在于,可以让我们意识到人类正走在越来越好的轨道上。
我们离这个宇宙最神秘之物的真相越来越近了,它使我们能够观察世界并遨游其中,它掌握着我们的生死,也引导我们走向美好的未来(读到这里你很有可能知道我会怎么结束这段话了):我们的贝叶斯脑。
本文经授权转载自微信公众号“炫酷脑”。
双十一将近,返朴读者可享当当图书购书优惠“满200减30”,优惠码:QH4FQW (截止至11月1日),欢迎大家。书单中的书籍均为返朴推荐过的书籍,具体介绍可见公众号下方菜单栏“精品专栏-更多专栏-展卷专栏目录”。
另外,本期开展抽奖赠书活动:自本文发布之时起至次日早晨8点,抽奖系统将随机抽取一名参与者,赠送返朴书单上的任意一本书,赠书由获奖者自行挑选。
特 别 提 示
1. 进入『返朴』微信公众号底部菜单“精品专栏“,可查阅不同主题系列科普文章。
2. 『返朴』提供按月检索文章功能。关注公众号,回复四位数组成的年份+月份,如“1903”,可获取2019年3月的文章索引,以此类推。
相关阅读
近期热门
1 97岁化学诺奖得主每周工作50小时,错过诺奖电话因为在领另一个大奖!
3 黄昆给杨振宁的一封信:物理研究大多时间是做日常工作——纪念黄昆先生100诞辰
5 贸易战没压垮中国,数学教育的下滑会导致灾难 ——失数学者失天下
↓↓↓长按下方图片关注「返朴」,查看更多历史文章