本文详细介绍了近期发表在Neuron上的论文“Causal Inference in the Multisensory Brain”。
在人的跨感官信息整合过程中,个体需要将共因(common cause)的多感觉信息(multisensory information)结合在一起,同时避免因不相关的输入分心,体现了人脑感觉中灵活的因果推断(causal inference,CI)机制。
太长不看版:
作者设计了视觉-听觉整合实验,收集了任务态下的MEG数据,将多变量分析方法与行为的计算模型相结合,发现基于多感觉的推断流程如下:
1、约100ms-140ms,单感觉分离表达(segregation)阶段:由视听的单感觉脑区(视觉皮层、听觉皮层)进行分别表达;
2、约180ms到260ms,信息融合表达(fusion)阶段:在左侧颞上回到之后的楔前叶、顶叶、腹侧后扣带回和后颞上回进行;
3、约620ms,进入因果推断(CI)阶段:在背侧及腹外侧前额叶皮层,额皮质和岛叶皮质进行推断表达。
在多感觉整合问题上,有理论提出,人类和其他动物的大脑存在可靠性加权原则(reliability-weighting principle),即当信息以两种方式及不同的可靠性同时到达时,信息按照其相对可靠性进行加权计算,形成精确估计。然而,神经系统只应在感觉信息来自共同来源时融合。因而,大脑需要推断感觉信息共因的可能性。心理物理学的证据表明,我们的大脑确实执行了因果推理,以实现多感觉整合过程中的行为灵活性:在定位来自相近来源的听觉和视觉信息时,我们倾向于融合它们,当它们来自不同源时,则倾向于不融合。这表明融合的概率是由对感觉可能原因(probable cause(s) of sensation)的高级推断决定的。可靠性加权融合和因果推断具有互补的成本和效益。前者可以通过简单的计算实现快速推理;后者则允许自适应行为,但因需要对世界的潜在状态进行推断,可能更慢且计算成本更高。
图1 实验任务设计
被试将在单感觉或多感觉条件下经历短暂呈现的视觉和听觉脉冲的随机序列。在每个试次中,参与者被要求将听觉或视觉信号的频率作为与任务相关的信息。他们被要求尽可能准确和快速地做出报告(对应四种信号频率,如图A),并认为它们或来自不同的来源,或来自共同的来源。每个试次的实验刺激持续550毫秒,由视觉闪烁和听觉脉冲组成,两者具有一致或不一致的频率(9.1、12.7、16.4或20Hz,即 5、7、9或11个事件)。 听觉信号根据噪音幅度的不同,分为高、低可靠性(95%, 45%)。实验中4种视觉频率、4种听觉频率、2种听觉可靠性及2种任务相关性的设计,最终构成了64种多感觉条件(图B)。实验共16名被试,每名被试完成22轮实验任务。每一轮任务约5分钟,包含视觉任务、听觉任务两个模块, 包括64个多感觉和12个单感觉条件:听觉模块包括32个多感觉试次及8个单感觉试次(4种频率X 2种可靠性);视觉模块包含32个多感觉试次及4个单感觉试次(4种频率)。单感觉和多感觉条件在每个模块中交替进行。
文章提出了三种模型:
图2 实验模型
上图展示了作者猜测的三种模型得出的感觉信息的频率分布,其中灰线表示了任务相关的信息,实线虚线则分别表示了在高低可靠性下的听觉信号,三角形表示分布均值,彩线表示在各个模型的分布情况。图A为假设视觉听觉来源不同(c=2)情况下的感觉分布,因而在视觉任务中,听觉信号对视觉信号无影响,无跨模态偏差。图B为假设视觉听觉来源相同(c=1)情况下的感觉信息分布,两种模态的信息加权整合。图C中因果推断将两种假设(c=1或c=2)基于贝叶斯概率性地结合,由因果结构和输入信息间的整合趋势得出假设的先验,计算得到最终分布。图D中展示了候选模型预测的视听觉信号频率差与跨模态偏差(估计值与真实值之间的偏差)之间的关系。阴影部分与(A)至(C)对应,即视觉频率<听觉频率。单感觉模型不受其他通道信息的干扰,无跨模态偏差;加权融合模型中偏差与频率差呈线性关系;因果推断模型中偏差与频率差则表现出非线性关系。因果推断模型根据决策机制又分为模型平均(Model averaging, MA), 概率匹配(Probability matching, PM)和模型选择(Model selection, MS)三种(详细数学公式请见原文method部分)。图3比较了这三种CI模型、Fusion模型和Segregation模型(一共5种模型)的拟合结果,发现模型平均的CI模型拟合效果最好(BIC和AIC都最大)
图3 模型比较
图3C比较了五种模型的在BIC, AIC下的表现,根据期望后验概率(expected posterior probabilities p), 保护超越概率 (protected exceedance probabilities, PEPs,描述了在校正的机会水平下,一个模型比其他模型更好地描述数据的概率),MA模型表现最好。图3D比较了CI(MA)模型预测的频率与真实频率之间的关系,表现了很好的预测能力。图3E展示了在视觉听觉信号频率相同(congruent),有较小差异(small disparity, 3.64Hz)和差异较大(large disparity, >3.64Hz)情况下,以平均拟合优度(mean goodness-of-fit, GOF)作为CI的主导程度的衡量指标,体现了在差异增大时,因果推断占比提升。图3F显示了视听信号频率差异,听觉信号可靠性与跨模态偏差之间的关系。视觉任务中,听觉信号的高可靠性增大了偏差,且两信号间较大的差异并未降低偏差,仅是减缓了增大的趋势;听觉任务中,听觉信号的高可靠性降低了偏差。图3G中使用广义线性模型(general linear model, GLM)模型分析了任务因素的影响:任务相关性(T),听觉信号可靠性(AR)及信号频率差值(abs(Disparity)),体现出频率差值以线性,而不是非线性的方式影响模型结果。
图4 MEG与模型的表征相似性分析
基于实验的结果,作者拟合了四种模型的参数,得到在64种多感觉条件下的预测结果均值,得到模型相应的表征差异性矩阵(representational dissimilarity matrix,RDM)(图4A左上),图中小色块表示模型在不同条件下预测频率的差值。作者以刺激呈现(Stimulus onset)为标志取时间窗(-0.1s, 0.7s)作为stimulus-locked信号, 以反应按键(Response onset)为标志取时间窗(-0.7s, 0.1s)作为response-locked 信号。对于神经信号,作者取时空片段(spationtemporal searchlight),计算不同时间段下的MEG RDM。在模型RDM与MEG RDM之间做表征相似性分析(representational similarity analysis, RSA),最终得到四种模型下的MEG信号在各个时间段上的表达。图B显示了各个模型中具有RSA效应的ROI的解剖位置。1)刺激阶段早期的MEG活动反映了分离的单通道信号,如图所示,约100ms,140ms分别在双侧距状裂皮质(bilateral calcarine cortex)、听觉皮层(auditory cortex)得到相应的视听信号的表达。
2)之后的MEG活动开始有加权融合的表现,从约180ms到260ms,在左侧颞上回(left superior temporal gyrus)到之后的楔前叶(precuneus),顶叶(superior parietal lobule),腹侧后扣带回(ventral posterior cingulate)和后颞上回(posterior superior temporal gyrus)有明显信号。
3)约620ms,因果推理CI的MEG信号在背侧及腹外侧前额叶皮层(dorso- and ventrolateral prefrontal cortices),额皮质(frontopolar cortex)和岛叶皮质(insular cortex),以及中后扣带皮层(middle-posterior cingulate cortex)中有表现。
反应阶段的RSA分析表现了顶叶和额叶区域在FU和CI中的不同:反应前220ms至反应前140ms,FU在顶叶-颞叶区域有信号表达,CI则在额叶有所表征。在此阶段中,单一信号不再出现。
图5 ROI的功能与结构分析
图5A表现了广义线性模型中,模型相关脑区与任务相关音频可靠性(Task X Aud. reliability interaction )及非线性偏差(squared disparity)之间的关系。在所有顶叶和后颞部融合的(parietal and posterior-temporal fusion) ROI,初级听觉皮层(primary auditory cortex),一些表现出RSA效应的CI ROI中都出现了显著的与任务相关音频可靠性的相关性,额叶(frontal)、枕叶(occipital)等CI区域表现出显著的对于非线性偏差的负相关性。图5B展示了CI ROI的MNI坐标与非线性偏差的相关性变化,由posterior到anterior,系数逐渐减小。
图6 模型的表征几何分析
图6C中,作者使用MDS对模型的表征几何(representational geometries)进行了建模,图中选取了四种模型对应的ROI。SV中,视觉皮层(calcarine)几何表征主要随视觉速率而变化,与任务相关性和听觉可靠度无关。SA中,听觉区域(Heschl’s gyrus)几何表征由听觉可靠度和任务相关性调制,其中二维MDS反映了双模态的影响。FU相关ROI(intraparietal sulcus)中,几何表征中模态频率和差异被压缩到一个维度,但这一点在三维MDS随着可靠性的变化得到改变。在反映CI的ROI(inferior frontal gyrus)中,几何表征随着所有三个因素的变化,因而CI模型表现出最高的计算灵活性 。
图7 基于超越概率的模型比较
图7展示了群体水平下不同模型ROI的超越概率。图A展示了各个脑区中四种模型 ,反映了信号从单通道-->融合-->因果推断的趋势,在response-locked时间段内,顶叶与FU,额叶与CI密切相关。图B,C针对顶内沟(intraparietal sulcus,IPS)区域进行了更精细的分析。在图B左图Stimulus-locked分析中,总体水平上,视觉模型占据主导,右图排除了SV,SA两种模型,仅比较CI和FU两种模型,显示出由后到前的渐变趋势。图C的Response-locked分析中,在总体水平上及在排除SV,SA模型后,两种模型的超越概率都有明显的渐变趋势,显示了IPS脑区拓扑结构上的渐进表征。
图8 额叶在灵活的整合行为中的作用
图8A左图展示了群体水平上行为在64种情况下的RDM,右图为与MEG RDM做RSA分析后,得到与行为密切相关的脑区(lateral PFC, insula)。图B更进一步对比了模态频率差大小与脑区之间的关系,得出腹外侧前额叶(ventrolateral PFC)能在模态间冲突较大时较好地预测行为。利用多感官速度分类范式,作者将多变量分析方法与行为计算模型相结合,证明灵活的多感官行为可以用贝叶斯因果推理模型来描述。发现感觉融合和推理的神经表现在时间和跨脑区域上呈层级状展开。这包括从初级感觉皮层的早期单感觉编码到颞叶皮层的可靠性加权融合以及主要在额叶的CI级联。作者发现背内侧和腹侧前额叶皮层的神经表征可以直接预测分类选择,而前额叶皮层有助于在多模态环境中推断感觉原因以最小化感知偏差。 文章的结果通过显示不同的计算策略是按时间顺序和沿脑额叶层级状展开的,与之前的多感觉整合的计算模型相一致,同时提出前额叶皮层基于在感觉和联合皮层中建立的候选表征来引导灵活的整合行为,从而在广义环境中构建适应性的多感觉整合。
作者对Stimulus-locked和response-locked时间段的选择,使得信号的分析不局限于反应时间(Reaction time),针对相应的事件得到更为灵活的分析。
文中使用了多种数学分析方法,如表征相似度分析(representational similarity analysis,RSA),多维标度/相似度结构分析(multi- dimensional scaling,MDS)等。本文中RSA研究了行为,模型与大脑活动三种表征系统之间的关系。RSA也可以拓展至更多模态,探讨不同系统间的线性关系。MDS在文中表征了多个因素在空间中的关系,较为形象地比较了模型的优劣。
本实验采用了9.1Hz到20Hz的频率范围:当频率相差较小时,模态信息造成的偏差也较小,而当视听刺激频率相差较大时,另一模态的信息影响较小,理论上偏差应减小,而图2F中偏差并未减小,仅是增加趋势放缓。在此基础上设计实验,探讨增大频率差异是否能减小模态偏差。
在本文的基础上可以追加其他模态的实验,观察人的行为和CI计算方式的变化,得到脑区信号表征及跨模态偏差的变化,进一步验证脑区间联系的因果性。
文中仅设置了静态的实验情况,即单一试次中条件固定,我们可以在实验中增加共因(common cause)和来源不同(separate cause)两种情况,以动态的方式验证大脑多感觉整合的适应性。
猴子神经元水平上的实验表明,前庭和视觉信息进行了贝叶斯式的整合与决策;而人类大脑的认知计算机制在前额叶中是否是贝叶斯式的?相应脑区与贝叶斯又有怎样的对应关系。
本文作者:NCC lab 楼可心
如有勘误、投稿或转载请先发邮件咨询:刘泉影,liuqy@sustech.edu.cn
文献来源
Cao, Y., Summerfield, C., Park, H., Giordano, B. L., & Kayser, C. (2019). Causal inference in the multisensory brain. Neuron, 102(5).