查看原文
其他

Cereb Cortex︱张语轩课题组揭示任务调制的语音加工神经生理学证据

柴晓珂 逻辑神经科学 2023-03-10


撰文柴晓珂

责编︱王思珍

辑︱杨彬伟


语音感知依赖于自下而上和自上而下的信息沿着一个分层组织的皮层网络的动态相互作用[1,2]。到目前为止,自上而下影响的研究主要集中在上下文效应[3],使用上下文线索的预测编码模型形成对即将到来的刺激的预测[4,5]。另一种自上而下的影响形式是注意力,实验上定义为有人参与和无人参与条件之间的差异。然而,有人参与的语音神经处理会随着他们的行为偶然性而变化,这是否由听者的特定任务或目标决定仍然是未知的。该领域缺乏神经电生理证据,而经典言语感知理论假设语音信息的提取完全相同,很少考虑其行为偶然性[6-9]为此研究者设计三个平行的脑电实验,检查了有人参与的语音神经处理是否受到目标导向调制。分析了早期(N1P2)和晚期(N3P3)事件相关电位以描绘任务调制的时间分布,还分析了神经振荡变化以检测任务调制是否涉及语音节奏的皮层跟踪。


2022816日,北京师范大学认知神经科学与学习国家重点实验室张语轩课题组在Cerebral Cortex上发表题为“Neurophysiological evidence for goal-oriented modulation of speech perception”的文章,首次对人脑采用情境无关的辨别范式,研究被注意语音的神经处理是否受任务需求动态调节。事件相关电位P2成分表征了任务调制相关的语音处理,可能影响记忆中保留的语音信息。对于顺序词的语音比较,任务调制发生在N3-P3,反映了任务特定认知过程的参与。Delta-theta神经振荡的变化结果与ERP相一致,表明其参与了语音包络的皮层跟踪。该研究为目标调制语音加工提供了神经生理学证据。拓展阅读:张语轩课题组最新进展,详见“逻辑神经科学”报道(点击阅读):Cereb Cortex︱刘玉和/张语轩团队揭示左右侧人工耳蜗植入的发展差异



研究者首次在人脑中,使用无上下文区分范式测试了有人参与语音的神经处理是否由任务需求动态调节。60位受试者分别参与了三组平行的脑电实验,三组不同的试验任务范式如(图1),要求受试者辨别的语音特征分别是单词(Word)、元音(Vowel)和音调(Tone)是否存在差异。


图1 任务导向的语音加工实验设计

(图源:Chai, et al.Cereb Cortex, 2022)


一、神经行为学结果

语音判别任务的错误率为word任务最小,vowel任务次之, tone任务的错误率最高,重复测量检验显示三组任务中四种不同的条件下(元音相同音调相同:sVsT, 元音相同音调不同:sVdT, 元音不同音调相同:dVsT, 元音不同音调不同: dVdT)反应时间也有显著差异(图2)


图2 不同判别任务的错误率和反应时间

(图源:Chai, et al.Cereb Cortex, 2022)


二、目标导向的语音加工

任务导向的语音加工过程中,P2反映了语音处理,事件相关电位(图3)显示刺激开始后约200ms语音处理与任务调制相关,特别是元音处理显著受任务需求调制。N1-P2可能用于构建感觉记忆[10]P2结果表明,语音信息的记忆维持是一个任务依赖的选择性过程。N3结果表明,在早期的感觉加工/记忆中没有表现出来的词汇音调,而是与音节信息结合起来形成词汇记忆。


图3 目标导向的不同任务下的语音加工ERP

(图源:Chai, et al.Cereb Cortex, 2022)


三、目标导向的语音判别

虽然语音处理的任务调节发生在P2,可能反映了记忆形成的目标依赖性选择,但语音判断的任务调节则发生在大约300 ms后(N3P3(图4)N3和P3振幅揭示了语音关系的任务特异性表征,通常在任务相关特征中,除了声调辨别之外,在神经生理学上表征的是元音关系和元音声调一致性,而不是声调关系。


图4 目标导向的不同任务下的语音判别ERP

(图源:Chai, et al.Cereb Cortex, 2022)


四、目标导向的语音加工和语音判别的神经振荡过程

针对任务导向的语音加工(图5)和语音判别(图6)神经振荡过程主要分析了ERSPITC,不同任务各条件均与基线进行对比,采用cluster-based permutation tests得到感兴趣的时间和频带范围,进一步的统计检验得出δ-θ神经振荡的变化与ERP结果一致,跨越N1P2N375-325毫秒)的时间窗口中的低频ITC增强表现出任务特定模式。ERSP的分析在类似的时间窗口中观察到的δ-θ振荡的功率增强主要随元音变化,而与任务需求无关。越来越多证据表明,δ-θ振荡与语音振幅包络的皮层跟踪有关,由于语音包络主要对应于音节信息,而音节信息对应于当前范式中的元音任务调制,该过程的相位同步受到明显的目标调制,反映了不同时间尺度下的信息集成[11]


图5 不同任务下的语音加工神经振荡

(图源:Chai, et al.Cereb Cortex, 2022)


虽然语音处理的任务调节反映了感官记忆的选择性形成,但语音判断的任务调节表明了随时间整合的目标依赖策略,具有非本质特征,如在需要驱动的基础上从本质特征衍生的词汇音调关系,并具有额外的认知成本[12]为了支持额外的认知成本,用于声调辨别的额头中心δ-θ振荡图6)在持续时间窗口内通过元音和声调关系之间的不一致性而增强,直到刺激开始后600 ms。


图6 不同任务下的语音判别的神经振荡过程

(图源:Chai, et al.Cereb Cortex, 2022)


图7 工作总结图:语音加工过程的神经生理学的示意图

(图源:Chai, et al.Cereb Cortex, 2022)


文章结论与讨论,启发与展望
研究者为探究语音感知的目标调制机制,首次在人脑中使用无上下文区分范式,要求参与者对2个顺序呈现的普通话口语单词的不同语音特征进行辨别,结果证实了语音口语词的语音处理和顺序词之间的语音比较都受到听者任务需求的动态调节。结果总结如(图7):ERP结果显示刺激开始后约200 ms出现语音加工的任务调制,而对于顺序词的语音比较,任务调制发生在大约300 ms后,反映了任务特定认知过程的参与。δ-θ神经振荡的变化与ERP结果一致,并有可能涉及语音包络的皮层跟踪。总之,目前的研究结果提供了语音感知受目标调制的神经生理学证据,揭示了听话过程中以目标为导向的动态优化,然而语音辨别任务与注意资源的分配和记忆存储相关,从本质上讲,目标调制可以反映语音感知过程中内在注意的精细化操作,从而可能在有限的神经计算资源下实现动态的性能优化,因此研究者下一步将呼吁建立包含有限记忆容量和目标导向优化机制的语音感知模型。


原文链接https://doi.org/10.1093/cercor/bhac315


第一作者柴晓珂 (右一),第一作者刘敏(左二),通讯张语轩(左四)

(照片提供自:张语轩实验室)


往期文章精选

【1】Trends Cogn Sci︱邱江团队撰写知识丰富领域创造性问题解决观点文章

【2】Front Aging Neurosci︱余红梅团队基于影像学特征和临床信息构建AD分层多分类诊断框架

【3】J Neurosci︱金明月/广常真治团队揭示大脑发育过程中α-Syn和tau发挥重要的协同性生理功能

【4】Cell Death Differ︱夏晓波团队首次揭示“铁死亡”与青光眼发病机制之间的相互关系

【5】Sci Adv︱曾克武/屠鹏飞团队揭示中药野马追活性成分调控神经炎症新靶点

【6】JNE︱高分辨率时频分析估计脑电图大脑功能性连接,助力阿兹海默症的诊断

【7】Brain Behav Immun︱丁绪揭示术后疼痛敏化的新治疗机制

【8】BMC Med︱周诚/黄瀚/张东航团队发现新生儿脓毒症导致远期认知障碍的新机制

【9】Research︱陈忠团队揭示外侧下丘脑CaMKIIα+神经元调控捕食行为的环路机制

【10】Cell Death Dis︱唐铁山/郭彩霞团队揭示TMCO1缺失影响胼胝体发育的机制


优质科研培训课程推荐

【1】培训课程︱R语言临床预测生物医学统计专题培训

【2】宏基因组与代谢组学R语言分析及可视化实操研讨会(8月27日 腾讯会议)

论坛/研讨会预告

【1】论坛预告︱脑·机智能融合——让大脑连接未来,脑科学主题论坛首次登陆!

欢迎加入“逻辑神经科学”【1】人才招聘︱“ 逻辑神经科学 ”诚聘文章解读/撰写岗位 ( 网络兼职, 在线办公)



参考文献(上下滑动阅读) 


[1]Poeppel, D. and M.F. Assaneo, Speech rhythms and their neural foundations. Nat Rev Neurosci, 2020. 21(6): p. 322-334.

[2]Getz, L.M. and J.C. Toscano, The time-course of speech perception revealed by temporally-sensitive neural measures. Wiley Interdiscip Rev Cogn Sci, 2021. 12(2): p. e1541.

[3]Hitczenko, K., et al., When context is and isn't helpful: A corpus study of naturalistic speech. Psychon Bull Rev, 2020. 27(4): p. 640-676.

[4]Brodbeck, C., L.E. Hong, and J.Z. Simon, Rapid Transformation from Auditory to Linguistic Representations of Continuous Speech. Curr Biol, 2018. 28(24): p. 3976-3983 e5.

[5]Broderick, M.P., A.J. Anderson, and E.C. Lalor, Semantic Context Enhances the Early Auditory Encoding of Natural Speech. J Neurosci, 2019. 39(38): p. 7564-7575. 15. McClelland, J.L. and J.L. Elman, The TRACE model of speech perception. Cogn Psychol, 1986. 18(1): p. 1-86.

[6]McClelland, J.L. and J.L. Elman, The TRACE model of speech perception. Cogn Psychol, 1986. 18(1): p. 1-86.

[7]Marslen-Wilson, W.D., Functional parallelism in spoken word-recognition. Cognition, 1987. 25(1-2): p. 71-102.

[8]Norris, D. and J.M. McQueen, Shortlist B: a Bayesian model of continuous speech recognition. Psychol Rev, 2008. 115(2): p. 357-95.

[9]Norris, D., Shortlist - a Connectionist Model of Continuous Speech Recognition. Cognition, 1994. 52(3): p. 189-234.

[10]Naatanen, R., The perception of speech sounds by the human brain as reflected by the mismatch negativity (MMN) and its magnetic equivalent (MMNm). Psychophysiology, 2001. 38(1): p. 1-21.

[11]Brennan, J.R. and A.E. Martin, Phase synchronization varies systematically with linguistic structure composition. Philos Trans R Soc Lond B Biol Sci, 2020. 375(1791): p. 20190305.

[12]Gao, X., et al., What Makes Lexical Tone Special: A Reverse Accessing Model for Tonal Speech Perception. Front Psychol, 2019. 10: p. 2830



本文完

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存