导语
大脑不仅是个因果科学家,更是一个善用多种方法的因果推理大师。本文着重关注认知神经科学与因果科学的交叉研究,梳理了人类心智的三种因果推理模型,并讨论了模型背后的神经机制。
集智俱乐部联合智源社区,以因果科学和Causal AI为主题举办系列读书会 ,精读基础教材、研读重要论文,探讨如何借助因果科学构建可解释的人工智能系统。详情见文末。
因果关系是人类最关注、最有用,同时也是争议最大的一类关系。找到一个好的因果关系不仅能用来解释过去,预测未来 ,还能通过干预当下 ,去创造 自己想实现的理想世界。因此古希腊哲学家德谟克利特说才说,“宁揭一因,胜为波斯王”。
人类的因果推理能力在婴幼儿期就开始了,而且具备了观察、干预、想象三种学习方式[1] [2]。但有趣的是,对婴儿如此简单自然的能力,对科学家们来说却是一项难度不小的挑战。相对于纯粹物理规律或逻辑数学这样的强联系,因果关系有一个跨越多层级的特点,这既是它分布广泛性的原因,也是诸多争议的来源。有哲学家曾将因果关系分成两大类共六种[3]:
Difference making:制造差异
Production processe:过程生成
processes:过程
mechanisms:机制
information:信息传递
但这些分类依然主要针对外部物理事件 而言,属于单一类型因果,对大脑复杂的因果关系往往还需要同时考虑心理过程和心理事件 。例如有一个无知的小孩点了一把火,不小心烧掉了整个森林,我们虽然可以认为是他导致了火灾,但很难对他归责;而如果放火主体退化为某个动物、乃至一道闪电,人们对大火的原因会倾向于一种偶然或自然现象;相反如果是一个有完全责任能力的成人,我们就会认为是他导致了森林火灾,他为此要负完全责任。 这个例子中,我们会看到心理动机——或目的因都可能是导致事件的原因,这就让因果问题变得更加复杂了。物理和心理事件之间的因果关系,一直是心灵哲学争论的焦点。韩国哲学家金在权曾经提出过因果排他性论证 ,认为心理过程只是物理事件的随附性现象(supervenience) ,即不存在心理到物理的下向因果 [4]。如果依据这种物理还原主义立场,任何主体都失去了自由意志,那么人做任何事都无需为自己负责了。虽然随后也有戴维森的殊型同一论 [5]对此进行反驳,但哲学层面的论争很难给出一个是非分明的答案。要解决这类多层次因果机制问题,就需要认知神经科学和复杂系统介入,例如有数学家对因果涌现研究发现宏观层级能够打败微观[6],从而在分析和实证层面支持了戴维森观点。 这里出现了一个有趣的关系:我们使用认知神经科学研究大脑的因果机制,研究过程中同样需要因果推理方法 而非止步于相关性研究,这就构成了一个递归闭环,使得认知神经科学相当于其他领域和系统中的因果研究,显得更为复杂和特殊。 相对于单一科学或哲学研究,认识神经科学特殊之处就在于,它在试图打开人类大脑这个承载“第二自然”精神世界的黑箱。为此需要同时结合神经科学和认知科学方法,由前者提供生物基础结构和实验技术,后者提供对各种心理活动过程及信息操作的概念和解释,二者联姻后使得认知神经科学可能对“有形大脑的功能如何产生无形的心智”提供最完美的描述。 而要打开“大脑-心智”这一多层次系统黑箱,认知神经科学需要心智功能、神经科学以及计算建模三个方面的研究示[7]: 对大脑数据进行采集、计算、建模和干预,主要依赖于一系列神经影像学技术和工具,如脑电图 (EEG) 和脑磁图 (MEG) 。除了围绕上述“三角形”外,认知神经科学同时还会关注生物体行为[8]。行为是大脑的输出和结果,二者之间同样具有因果关系。 为方便起见,可以将认知神经科学研究的系统层次按如下划分: 外部信号:物理层,外部世界感官和运动等信息输入,或实验中侵入式与非侵入式刺激; 大脑活动:生理-数据层 (fMRI,MEG…) ,大脑活动的测量数据,心智事件—数字信号; 认知功能:心智-概念层,心智活动对应的概念结构,如学习、记忆、决策; 行为结果:生物-社会层,可观察的生物有机体、以及有机体之间组织的行为和改变。 那么对如此复杂层次的“因果关系”,大脑究竟是怎么处理的?在研究大脑因果机制的过程中,认知神经科学家发现大脑不仅是个因果科学家,更是一个善用多种方法的因果推理大师。 目前研究大脑因果推理神经机制的主要模型有三类:心智模型 (Mental Models) 、 因果模型 (Causal Models) 和力构成模型 (Force Composition Theory) 或力动力学模型 (Force Dynamics) ,分别从基于 符号表征的演绎推理、概率表征的想象干预和知觉表征的力向量合成 描述了大脑因果过程,并得到诸多神经科学实验支持。
认知心智模型 大脑中的 因果 关系,是根据事件可能的共现结构,例如“促使”或“阻碍”等事态关系的抽象表征而构建的。 认知心智模型把大脑当做一台追求 确定性因果 的 演绎推理 机器,是 认知科学 理解下的因果关系,类似于人工智能研究中的 符号学派 ,认为人脑的因果推理就是对一 系列抽象表征进行的符号操作 。
认知心智模型认为大脑有对简单事态有三种因果表征[9]:导致 (cause) 、使能 (enable) 和阻止 (prevent) : 至于多事件的复杂关系都是简单关系在逻辑操作下的合并,例如对 cause 和 prevent 关系下三个事件操作过程如下: 如果 “a causes b” 且 “b prevents c”,那么则有 “a prevents c” 那么我们能否找到认知心智模型中大脑对抽象符号进行演绎的神经机制呢? 综合多项研究发现,演绎和归纳推理有不同的跨半球解离性[10],视觉空间的演绎推理 (如数学和几何) 以右侧额叶和颞叶为主[11],有关命题逻辑 (如直言三段论) 的演绎推理则主要在左侧半球正面和时间推理网络[12],归纳推理也主要左侧额颞网络[13]。总体而言,大脑右半球是复杂空间推理的主导者 [14],与包括枕叶初级视觉皮层 和顶叶皮层的高阶认知操作 区一起构成了推理网络的核心[15]。此外涉及情感、语言和记忆的直觉系统 也会参与因果过程中来,以支持概念一致性和因果在语言规则内的实现。 总体而言,信念激活 和证据评估 的双重加工框架 ,是描述演绎推理神经相关联的最准确方式[16]:当推理前提与先前经验一致时,大脑会主要使用来自直觉系统的启发式推理,而当涉及参与推理不熟悉、证据与信念之间冲突的前提时,则会由较慢的反思系统参与视觉空间的复杂推理操作 [15]。 认知心智模型认为大脑更自然倾向于表征真实 事态,而非想象其它可能,因对存在建模要比表征不存在要更容易,故大脑只会在必要时进行反事实推理 。 此外双重加工框架 中的反思系统还可以拓展到顶叶之外,包括外侧前额叶皮层 (lPFC) 参与的预测推理,通过储存“刺激-反应”规则的编码映射[17],将相关任务作为重要表征,维持注意力服务于目标导向的行为 ,从而支持实现信念推理 [18]。 综上所述,认知心智模型是一种符号演绎的视觉空间推理理论[19],认为心智表征仅保留了物理事件间的顺序和结构,不主张以感觉模态为基础的反事实推理和心理模拟。 然而从经验中我们知道,大脑归因往往是十分快速且直接的,并且擅长反事实推理,很难说经过了一个复杂演绎的推理过程。 概率因果模型认为大脑因果表征反映了某种概率关系 ,至于确定关系只是有隐变量对应的一种特例。概率因果模型基于概率心理表征 构建,将事件之间的联系看作一个概率网络即贝叶斯网,以此作为因果归纳和因果推理的标准方法。它可以用有向因果图 和结构方程 (SEM) 直观描绘出来[20]。 概率因果模型对大脑实现推理过程的工作记忆可用区块量有较少的要求 ,不像认知心智模型当处理现多个原因变量和因果关系时,可能会出现组合爆炸 情况。 此外概率因果模型还支持心智对不同变量概率值的计算和在因果连边方向的识别和传递,这就使得相对于认知心智模型的表征和演绎,概率因果模型方法核心是一种支持预测和解释推理的干预过程 ,网络中每个关系就能写出相对应的结构方程。 如下图所示[9],对 cause、prevent 和 enable,概率因果模型使用基于贝叶斯网络的因果图表示事件之间的关系。这是一个因果不对称的有向无环图,改变原因的状态会影响结果,但反之不然,因此它不适用于具有封闭或周期性的循环因果情况。 用因果图表示疫苗,病毒突变,流感爆发与流感感染以及疼痛,咳嗽的因果关系
在使用结构因果模型 (SCM) 表达时,概率因果模型将 “A cause B” 表示为“ B:=A”,“A prevent B”表达为“~B:=A”。至于“A enable B” 则将 A 视为非唯一影响 B 的因素,即存在 X 使得 “B:=A,X”。 对实证支持情况,概率因果模型灵活支持概率或确定性表征,只需将本质随机的概率关系用确定性节点替代即可,以此能继承认知心智模型对归纳和演绎的解释。但它还是需要解释二者神经关联之间的关系。 一些研究表明,存在一个涉及前额叶、顶叶和岛叶的不确定性监测网络 [21],其神经关联会根据所代表的概率类型而变化 :当基于先验概率 进行判断时,腹侧前额叶 (vPFC) 、岛叶、杏仁核和壳核被激活的程度会越来越高;而后枕叶皮层的激活则会随着条件概率 的不确定性增大而增强[22]。 概率因果模型支持不同于认知心智模型的因果建模干预 ,是通过选择性依赖背外侧前额叶 (dlPFC) ,对工作记忆中信息进行各种操作[23],使之具有与现实不同的值完成的。 这就要求大脑必须能反映替代或反事实状态的信息。内侧前额叶 (mPFC) 在想象可能性事态中起着关键作用[24],其中腹内侧前额叶 (vmPFC) 通常与价值分配和动机 表示 相关,支持高于或低于现实价值的反事实,而背内侧前额叶 (dmPFC) 则支持干预和不行动状态之间的区别 ,作为一种通用机制允许大脑建模操纵多个可能共存的替代事态,是预测期望与现实之间冲突和差距的中心[25]。 综上所述,概率因果模型以心智的概率表征和归纳推理 作为核心要素,是一种统计学范式 ,类似于人工智能中的连接主义和贝叶斯主义 。由于使用贝叶斯网完成推理功能,会涉及反事实推理、工作记忆操作、概率判断和解释推理等解决不确定性推理的神经相关因素,因为它主要是一个由左半球额颞网络 支持的因果推理网络。 在 力构成模型 中,因 果关系 之间的效应用相互作用的力来表示,以表明一个系统朝向或远离某个特定最终状态的运动[26]。 力构成模型强调心智以符号化关系结构保存了力的 知觉表征 ,因此能以 力向量 图示来描述单个力可能结合的方式,并从以前没有联系的关系中得出结论。 力构成模型是一种力动力学 ,其中机械因果效应,代表从某种因到果、类似力或能量的守恒量传递 。例如,一个高尔夫球手击球撞到一棵树后,球反弹入洞。人们会正确推断是树造成了一杆进洞,而非球手打得不好——但也没有人会认为树是球入洞全部原因[27]。 机械的力不能解释发生在长距离 (如引力) 、大时间间隔 (如癌症) ,或类似抽象因素下的因果关系,但 力构成模型 足够灵活,以心智模拟的 有形 世界特征为基础,通过知觉表征可以表达超过传统机械力的大小范围和方向。 例如对系统动态演化、情感动机或人际沟通的因果关系。 力构成模型的因果推理通过力向量进行的,与经典物理的受力分析图一样,沿着单一轴线的矢量加法就可以描述事件链中的一系列因果关系,然后心智通过改变矢量方向和大小来解释过去或预测未来。 如下所示[9],三种力向量结构分别代表了力构成模型对“导致” (CAUSE) 、“有助于” (HELP) 和 “阻止” (PREVENT) 关系的处理过程: A = the affector force:影响力,可能存在多个机制的影响力
P = the patient force:耐受力
R = the resultant force:合力,使用虚线表示
E = end-state vector:末状态向量 力构成图中的第一个向量是耐受力(P),代表被作用的、具有初始位置和方向的事物;影响力向量(A)代表施加在 P上的事物的力;末状态向量(E)则只是一个位置矢量,代表被导致或被阻止的最终事态。预测系统未来是通过合成向量(P)和(A)来实现的 :如果合力(R)的点在(P)的尾端方向,则说(A)导致了末状态(E),即 “A CAUSE E”。 可以看到,只需要简单地将各个关系中的向量相加,即可得出涉及多个耐受和影响力因果关系的推理。CAUSE关系 通常用(P)指向(E)、(A)指向(E)、或(A)-(P)指向(E)来表示;ENABLE关系 通常用(P)指向(E)、(A)指向与(P)相同方向表示,二者使结果指向(E);PREVENT关系 则是(P)指向方向(E),而(A)反方向的影响矢量强度要大到足以改变方向,即合力点(R)与末状态(E)方向相反。 在力构成模型中力表征的知觉编码 ,就像地铁的隧道图,保留了被表征的同构关系结构[28]。研究表明上顶叶 作为一个更大的工作记忆网络节点,支持视觉空间模型对知觉代码以受力分析图中的组织关系进行操作[29]。这种表征本质是视觉再造真实力作用过程一种的想象 ,由腹侧神经相关因素参与模拟,在心智之眼中 "观察",再预测想象中的因果系统行为[30]。具体而言,由枕叶和顶叶皮层支持视觉模拟的构建;前运动皮层、颞叶皮层和枕叶皮层支持动作和生物运动的表征 [31]。 生物运动对涉及主体行为的因果力表征构建特别重要 ,在初级视觉处理中大脑较新进化的部分与较原始部分的运动区分没有结构性差异,但铰合关节和表面运动特征的处理方式则不同于纯粹运动,它象征一种有机主体朝向某个目标或远离某个结果连贯而有生命力的活动 。这同样是一种能利用心理模拟非常基础的因果判断形式。这样力构成模型中主体代理和意图动机 相关的神经因素将在因果推理神经实验中占有突出的地位,主要是中颞区和内侧颞上区[32]。 总之,力构成相关神经因素主要涉及枕叶、顶叶和后颞叶皮层的感觉处理网络。相对于认知心智模型以演绎为主的认知范式、概率因果模型以归纳为主的统计范式 (信息范式) ,力构成模型以知觉表征的力矢量合成为核心要素, 是一种力学和动力学范式 ,接近于人工智能中的类推学派和行为主义 。 它采取一种兼容机械物理和抽象作用的力学观点,能很好表达大脑的情感、意图、复杂演化和社会推理相关内容并快速归因。 此外原则上力构成模型对处理双向封闭或循环反馈因果作用也没有困难。 可以看到,当前因果科学研究,主要是基于归纳的统计范式,并结合一定程度先验知识演绎构建模型,像大脑那样基于力向量和力动力学方面的因果研究还有待展开。 以上模型对因果推理表征和处理过程都提出了不同的主张,每一种都能找到神经生物实证支持。但它们在框架上依然具有相当一致性,例如都需要大脑顶叶的注意力机制 引导意识注意或操作信息,使得枕叶、颞叶和额叶的感知加工机制 在特定模式参与进来[33];都需要记忆系统的参与,包括从先前经验检索语义和情景记忆,支持多种信息的持续可用性模拟[34];都需要大脑执行控制系统如前顶叶 网络[36]对信息进行操作,并选择性激活和抑制相关注意力和记忆过程[35]。 总体而言,大脑主要以自下而上和自上而下、类似双重加工框架 处理因果过程:一方面注重表征真实世界和评估证据,如认知心智模型所强调;一方面关注替代事实和反事实推理,注重信念动机和模拟事态可能,如概率因果模型所注重的。 三种心智因果模型之间最大区别还在于表征方式,力构成模型最特殊的地方在于它突出了知觉表征 作为力向量的处理过程,不仅高效还适用于物理、主体意图和各种抽象过程,符合我们对事物归因的一般直觉。 最近由清华大学学者的一项研究[37]发现,大脑神经元群的集群动力学可以自发完成对事件因果关系的近同态的表征 ,以较高精度和效率完成对事件的因果编码,不仅能提供对因果关系更为稀疏的表征 (以较少基本信号线性组合表达大部分或者全部原始信号) ,而且几乎不依赖历史因果关系判定的信息数量。 这部分较基础、低阶的因果编码过程,主要涉及外部物理事件之间的关系,受到原始因果关系的显著影响,辅证了力构成模型中大脑通过对基础物理结构知觉表征进行因果构建的观点。 此外最近发表在Cognition 上的一篇论文[38],也概述了在事件中起作用的某一因素,是如何影响大脑是否将其视为事件的原因的。作者通过考虑人类因果推理的演化目标,认为大脑会突出那些最有助于预测结果 以及可以人为操纵影响结果 的因素,并给出了计算两个因素之间因果效应分数的公式: 如公式所示,因素C作为E的原因分数,等于在所有模拟世界中每一对C对E因果效应作用程度 (ΔE/ΔC) 的平均值乘以标准化因子。在各个世界,如果C改变越小,E改变越大,那么C→E 的原因分数就会越高。作者通过分析计算数据发现,这个模型与被测不同事件的因果关系方式高度吻合,并对数据的拟合程度要优于当时其它所有模型。 可以看到,这个数学模型相当于力构成模型中有关作用因素之间力向量强度计算的定量化。在基于逻辑演绎的认知心智模型和统计学范式的 概率因果模型 之后,力构成模型对心智因果过程基于知觉表征的力向量描述,有可能成为下一轮因果科学的新范式和新方向,就像大脑会巧妙采用多种因果推理方法一样,我们期待这一方面的研究进展。 因果推断与机器学习领域的结合已经吸引了越来越多来自学界业界的关注,为深入探讨、普及推广因果科学议题,智源社区携手集智俱乐部将举办第二季「 因果科学与CausalAI读书会 」。本期读书会着力于实操性、基础性,将带领大家精读因果科学方向两本非常受广泛认可的入门教材。 1. Pearl, Judea, Madelyn Glymour, and Nicholas P. Jewell. Causal inference in statistics: A primer. John Wiley & Sons, 2016. (本书中译版《统计因果推理入门(翻译版)》已由高等教育出版社出版) 2. Peters, Jonas, Dominik Janzing, and Bernhard Schölkopf. Elements of causal inference: foundations and learning algorithms. The MIT Press, 2017. 读书会每周将进行直播讨论,进行问题交流、重点概念分享、阅读概览和编程实践内容分析。非常适合有机器学习背景,希望深入学习因果科学基础知识和重要模型方法,寻求解决相关研究问题的朋友参加。 目前因果科学读书会系列,已经有接近400多位的海内外高校科研院所的一线科研工作者以及互联网一线从业人员参与,吸引了国内和国际上大部分的因果科学领域的专业科研人员,如果你也对这个主题感兴趣,想要深度地参与,就快加入我们吧!
点击“阅读原文”即可报名