我们大脑中的妈嘛马骂
记得小时候老师是这么教我们普通话声调的:“我们怎么读一二三四声呢?声就是平着过去的,二声就是往上跑,三声先往下掉然后再往上跑,四声是一直往下掉。”她一边说,一边手舞足蹈地比划着声调的轮廓(pitch contour)。我们的小脑袋那时候可能还不够成熟,但是在老师生动的比划下很快就学会了。
如今普通话已经成为了我们在国内甚至华人圈子里的交流绿卡,说出标准的四声调似乎是再司空见惯不过的了。但是,往往最寻常的事物,却有着最不寻常的本质。试想想,如果当年的语文老师对着计算机比划着“往上跑,往下跑”,计算机能像小学时代的我们那样很快学会那些声调吗?当然不行,我们恐怕需要事先给计算机编写大量的脚本,或者还要让它进行大量的机器学习,它才能辨别不同的声调,这可比小学的我们要“笨”太多了。
人脑学习和感知言语的高效让我们感到着迷。到底里面藏着什么样的秘密,让我们可以那么快地学到言语、让我们感知言语变得那么高速,以至于我们都觉得那是司空见惯的事情呢?
言语是由多种线索(音位、声调、韵律)动态组合成的音流,对线索的预期和感知是言语感知的基础。其中,声调在声调语言(如汉语、泰语)中起到跟音位(如元音辅音)一样决定意义的功能。在普通话中,四个声调就像“小波浪”,在韵律(如语调,表疑问的上扬等)的“大波浪”上浮动。声调是一种很独特的言语线索:它是一种决定意义的音位;但是,从发音上和声学上,它跟韵律(由喉部发音改变的较长的音高变化)是一致的。那么,这种既像音位又像韵律的言语线索,其感知脑机制有什么特点呢?
其实,前人对于声调感知的脑机制已经有了非常多的探索。他们使用行为测量、神经电信号记录和神经调控技术,从各个角度研究了声调感知。由于实验研究需要控制无关变量,研究者们往往使用单一的线索作为刺激:例如,指导被试听到一对音节后判断它们的声调的异同,并记录被试的神经活动。
那么,对于声调感知的脑机制,是不是可以从以往发表的文献中整理出一些规律来呢?
开始研究我们于是开始了文献的阅读——因为对感知声调的脑区更感兴趣,我们从PubMed(www.pubmed.com)上下载了声调感知相关的脑成像文献(功能磁共振fMRI & 正电子发射断层扫描PET)。这些研究从不同的切入点研究声调以及相关的感知脑机制:比如对比非声调母语者(如英语母语者)和声调母语者(如普通话母语者)声调感知脑机制的异同,让非声调母语者接受声调-语义匹配的训练并观察脑机制的变化等。
我们发现这些研究虽然切入点不同,但是都采用了相似的实验范式。科学中有“可重复性”这个概念,如果研究的多篇后续研究都得出了相似的结果,那么说明该研究可信度良好。换成脑成像的概念,如果在多个实验任务相似的研究中都能发现某个脑区的激活,那么这个脑区极有可能参与到实验任务诱发的某项认知活动中。因此,通过整理不同的声调感知的脑成像研究,寻找大脑中的稳定激活点,也可以对声调感知的脑机制进行研究。
这种方法被称为“元分析”(Meta-analysis)。具体而言,我们需要用激活似然估计(activation likelihood estimate, ALE)元分析技术。简而言之,就是给定一个与特定问题相关的实验范式,从网上搜索到相关脑成像文献后,从每篇文献中提取出符合要求的激活位点,对所有文献的激活位点进行似然估计,观察最稳定的激活点落在哪里。
脑成像元分析除了能得到比较稳定的任务相关激活位点外,还能对不同条件的激活位点进行比较。这也是我们想做元分析的原因之二: 观察大脑感知声调的激活方式跟感知音位和韵律有什么差别。因此,我们又从PubMed数据库上下载了音位感知和韵律感知的脑成像文献:
表1:PubMed文献搜索关键词
现在我们下载了三种言语线索感知的脑成像文献。为了确保数据符合我们的研究目的,我们对其进行了筛选:(1)被试为听力正常的健康成人;(2)研究报告了激活点的标准空间三维坐标;(3)实验设计中包含外显任务;(4)与基线相减的BOLD能体现实验目的。对于选出的55篇研究,我们对其中的每一个实验(一项研究可能包含多个实验)进行分析,按照实验材料和被试分为五个组:声调母语者的声调感知(tonal tone, n=12)、非声调母语者的声调感知(non-tonal tone, n=7)、音位感知(phoneme, n=14)、词长度的韵律感知(word prosody, n=16)和句子长度的韵律感知(sentence prosody,n=27)。在声调感知中区分母语,是因为已有研究表明语言经验能调节声调感知的脑机制(Gandour et al., 2003);将韵律感知分为词长度和句子长度,是因为听皮层的激活区域受言语线索长度影响(DeWitt & Rauschecker, 2012)。
研究结果我们将这五个组的实验激活脑区坐标点提取出来,统一转换成Talairach坐标后输入GingerALE软件(www.brainmap.org/ale)进行元分析的计算。计算结果采用两种方法校正: FDR校正(p < 0.05)& 最小体积 ≥ 100mm^3,未校正(p < 0.001)& 最小体积 ≥ 540mm^3。其中,未校正方法是用以避免因样本量较小而产生的对阳性结果的“错误拒绝”(Grosbras, Beaton, & Eickhoff, 2012)。元分析输出的结果为皮层激活似然估计值的点阵列。将这些值赋予不同颜色画在大脑模板的表面,就出现了如下的激活图:
图1:不同条件的ALE共激活图。(A)未校正的皮层激活投影;(B)未校正的3D激活图;(C)FDR校正后的皮层激活投影;(D)FDR校正后的3D激活图。(Liang & Du, 2018)
声调母语者感知声调激活了双侧颞上回(superior temporal gyrus, STG),左侧中央前回(precentral gyrus, preCG),左侧额内侧回(medial frontal gyrus, MeFG)和右侧小脑(right cerebellum, CB);非声调母语者感知声调激活了右侧颞上回;感知音位激活了双侧颞上回和左侧中央前回;感知词长度的韵律激活了右侧颞上回、右侧中央前回、左侧壳核(putamen, PT)和左侧杏仁核(amygdala, AMY);感知句子长度的韵律激活了双侧颞上回、右侧颞极(temporal pole)、左侧颞中回(middle temporal gyrus, MTG)、左侧中央前回、左侧额内回、右侧额中回(middle frontal gyrus, MFG)和双侧顶下小叶(inferior parietal lobule, IPL)。
回到理论现在我们回到研究问题: 我们希望探究声调感知的脑机制,进而对比声调感知与音位和韵律感知的脑机制的异同。那么,前人提出和发现了什么呢? 首先,为了解决言语感知的“不变性”问题(如/du/和/di/两者的/d/声学属性不同,但是我们依然将它感知为/d/),研究者提出了言语感知的运动理论:听者通过重构说话者的发音运动姿势来完成言语感知(Liberman, Cooper, Shankweiler, & Studdert-Kennedy, 1967)。现在,越来越多的研究发现,言语运动系统(如额下回IFG、中央前回preCG和顶下小叶IPL)以代偿调节的方式参与到了言语感知中(Du, Buchsbaum, Grady, & Alain, 2014, 2016; Du & Zatorre, 2017)。因此,言语感知可能包含了“听”和“说”的双通路:处于颞叶的腹侧通路对声音进行时频解码,处于额叶和顶叶的背侧通路对言语进行运动预期——双通路构成环路以动态调节言语感知(Hickok & Poeppel, 2007);因此,我们选取了言语感知的双通路模型作为解释结果的理论框架。
图2:言语感知的双通路模型 (Hickok & Poeppel, 2007)
其次,我们选取了两个研究者比较关心的指标对结果进行解释和推断: 一是脑激活的偏侧化: 时频分析模型(Spectrotemporal Resolution Model, Zatorre, Belin, & Penhune, 2002)和不对称采样模型(Asymmetric Sampling in Time, Poeppel, 2003)都预言,时程较短的言语线索(如音位)在听皮层的激活区域偏左,而时程较长的(如韵律)偏右,且受到大量研究支持(Belyk & Brown, 2013; Witteman, Van Heuven, & Schiller, 2012),而言语运动网络在感知中的参与同样存在着音位–韵律的左右偏侧化现象(Du et al., 2014; Sammler, Grosbras, Anwander, Bestelmeyer, & Belin, 2015);二是脑区内不同条件激活点的空间关系: 已有研究表明,听皮层对不同频段和长度的声音/言语线索呈现出梯度表征(Hullett, Hamilton, Mesgarani, Schreiner, & Chang, 2016; Striem-Amit, Hertz, & Amedi, 2011)。因此,基于言语感知的双通路模型,我们分别从偏侧化和区域梯度表征两个角度对声调感知的腹侧和背侧通路进行分析和讨论。其中,我们采用标准单侧化指数(Standard Lateralization Index, SLI)来计算各条件的皮层偏侧化(Dietz et al., 2016)。
解释结果我们研究发现,在腹侧通路(双侧颞上回和颞中回)中,音位激活区域左偏侧化,而声调和韵律一致,激活区域右偏侧化;并且,声调条件中,只有声调母语者的声调感知激活了左侧听皮层。而在听皮层的区域梯度表征中,左侧听皮层呈现出声调/音位–句子长度韵律共激活区的前后梯度表征,其中声调和音位激活区重合,右侧听皮层呈现出与线索长度(音位–声调–词长度韵律–句子长度韵律)对应的外前–内后的梯度表征。经过FDR校正后结果基本一致。结果表明,声调感知在听皮层偏侧化上与韵律相似,但是声调语言经验可能使其具有音位的性质。另一方面,在受语言功能影响更大的左侧听皮层中,声调与音位均参与到听觉–词汇形式的识别过程;在右侧听皮层中,声调共激活区域处于音位和韵律之间,与其线索长度关系吻合,体现出更多声学的时频属性。
在背侧通路的中央前回(preCG)中,音位和声调共激活区域呈左单侧化,句子长度的韵律呈双侧化。左侧preCG出现了有趣的激活分布:音位激活区域相对在上方,声调和韵律激活区域高度重叠且在音位下方。首先,这种重叠和分离的模式与三种言语线索的发音方式异同相对应——喉部控制声调和韵律,唇齿舌控制音位;其次,这种双分离体现出的上下关系与运动皮层中的“运动带(motor strip)”相对应。结果表明,在背侧通路中,声调感知的脑机制在偏侧化上与音位一致,体现出其语言功能,但是在preCG的梯度表征中与韵律一致,体现出其发音运动的方式。
结论与展望现在,基于以往的文献,我们对声调感知的脑机制进行了一次梳理。总而言之,声调感知是感觉-运动系统协同参与的过程,加工偏侧化和在区域梯度表征的参与体现出特定加工阶段的信息处理方式。基于结果和讨论,我们为声调和音位、韵律感知的脑机制建立了模型。具体而言,听皮层接收到声学信息后进行时频分析和词汇信息的提取,声调的加工区域在左侧听皮层与音位重合,在右侧听皮层处于音位和韵律之间; 听觉信息上传至顶下小叶——感觉运动界面,与存在发音姿势相关的梯度表征的言语运动区域下达的运动指令相匹配,构成声调感知的感觉运动整合过程。
图3:声调感知的脑网络模型(Liang & Du, 2018)
但是,我们的研究也存在一些局限性。首先,声调感知是动态的过程,而fMRI和PET的时间分辨率低,无法真正区分不同的加工阶段,而本次元分析讨论的阶段均基于理论的预期;其次,元分析中每组的样本量较小,一些实际上参与了感知过程的脑区可能因为激活点少而未被发现;再次,元分析所产生的激活似然估计峰值的空间意义尚存在争论,因此,声调、音位和韵律感知的脑激活似然峰值的空间差异需要进一步的脑成像实验来检验。总而言之,我们还期待更多的研究,通过整合电生理、脑成像和神经调控技术,从时间、空间的维度来更深入地探讨声调感知的脑机制。
本文是对杜忆老师和我的最近一项研究的详细介绍。研究已在线发表于Frontiers in Neuroscience。如果对该研究感兴趣,可以直接下载原文:
https://www.frontiersin.org/articles/10.3389/fnins.2018.00495/full
Liang, B., & Du, Y. (2018). The functional neuroanatomy of lexical tone perception: An activation likelihood estimation meta-analysis. Frontiers in Neuroscience, 12, 495.
若对此文及相关领域有疑问或点子,欢迎来邮给我:liangbs@psych.ac.cn
感谢杜忆老师和同学们的修改意见。
参考文献
Belyk, M., & Brown, S. (2013).Perception of affective and linguistic prosody: an ALE meta-analysis ofneuroimaging studies. Social Cognitive and Affective Neuroscience, 9(9),1395–1403. https://doi.org/10.1093/scan/nst124
DeWitt, I., & Rauschecker, J. P.(2012). Phoneme and word recognition in the auditory ventral stream. Proceedingsof the National Academy of Sciences, 109(8), E505–E514.https://doi.org/10.1073/pnas.1113427109
Dietz, A., Vannest, J., Maloney, T.,Altaye, M., Szaflarski, J. P., & Holland, S. K. (2016). The Calculation ofLanguage Lateralization Indices in Post-stroke Aphasia: A Comparison of aStandard and a Lesion-Adjusted Formula. Frontiers in Human Neuroscience,10, 493. https://doi.org/10.3389/fnhum.2016.00493
Du, Y., Buchsbaum, B. R., Grady, C. L.,& Alain, C. (2014). Noise differentially impacts phoneme representations inthe auditory and speech motor systems. Proceedings of the National Academyof Sciences, 111(19), 7126–7131. https://doi.org/10.1073/pnas.1318738111
Du, Y., Buchsbaum, B. R., Grady, C. L.,& Alain, C. (2016). Increased activity in frontal motor cortex compensatesimpaired speech perception in older adults. Nature Communications, 7,12241. https://doi.org/10.1038/ncomms12241
Du, Y., & Zatorre, R. J. (2017).Musical training sharpens and bonds ears and tongue to hear speech better. Proceedingsof the National Academy of Sciences, 114(51), 201712223.https://doi.org/10.1073/pnas.1712223114
Gandour, J., Dzemidzic, M., Wong, D.,Lowe, M., Tong, Y., Hsieh, L., … Lurito, J. (2003). Temporal integration ofspeech prosody is shaped by language experience: An fMRI study. Brain andLanguage, 84(3), 318–336.https://doi.org/10.1016/S0093-934X(02)00505-9
Grosbras, M. H., Beaton, S., &Eickhoff, S. B. (2012). Brain regions involved in human movement perception: aquantitative voxel-based meta-analysis. Human Brain Mapping, 33(2),431–454. https://doi.org/10.1002/hbm.21222
Hickok, G., & Poeppel, D. (2007).The cortical organization of speech processing. Nature Reviews Neuroscience,8(5), 393–402. https://doi.org/10.1038/nrn2113
Hullett, P. W., Hamilton, L. S.,Mesgarani, N., Schreiner, C. E., & Chang, E. F. (2016). Human superiortemporal gyrus organization of spectrotemporal modulation tuning derived fromspeech stimuli. Journal of Neuroscience, 36(6), 2014–2026.https://doi.org/10.1523/JNEUROSCI.1779-15.2016
Liang, B., & Du, Y. (2018). Thefunctional neuroanatomy of lexical tone perception: An activation likelihoodestimation meta-analysis. Frontiers in Neuroscience, 12, 495.https://doi.org/https://doi.org/10.3389/fnins.2018.00495
Liberman, A. M., Cooper, F. S.,Shankweiler, D. P., & Studdert-Kennedy, M. (1967). Perception of the speechcode. Psychological Review, 74(6), 431–461.https://doi.org/10.1037/h0020279
Poeppel, D. (2003). The analysis ofspeech in different temporal integration windows: cerebral lateralization as “asymmetricsampling in time.” Speech Communication, 41(1), 245–255.https://doi.org/10.1016/S0167-6393(02)00107-3
Sammler, D., Grosbras, M. H., Anwander,A., Bestelmeyer, P. E. G., & Belin, P. (2015). Dorsal and ventral pathwaysfor prosody. Current Biology, 25(23), 3079–3085.https://doi.org/10.1016/j.cub.2015.10.009
Striem-Amit, E., Hertz, U., & Amedi,A. (2011). Extensive cochleotopic mapping of human auditory cortical fieldsobtained with phase-encoding fMRI. PLoS ONE, 6(3), e17832.https://doi.org/10.1371/journal.pone.0017832
Witteman, J., Van Heuven, V. J. P.,& Schiller, N. O. (2012). Hearing feelings: a quantitative meta-analysis onthe neuroimaging literature of emotional prosody perception. Neuropsychologia,50(12), 2752–2763.https://doi.org/10.1016/j.neuropsychologia.2012.07.026
Zatorre, R. J., Belin, P., &Penhune, V. B. (2002). Structure and function of auditory cortex: music andspeech. Trends in Cognitive Sciences, 6(1), 37–46.https://doi.org/10.1016/S1364-6613(00)01816-7