科技前沿|让大脑开口“说话”
研 究 背 景
一名因脑中风导致瘫痪失语的男性患者(认知功能完好)。
01
高密度皮质电极阵列(high-density electrocorticography electrode array):植入患者大脑左半球的感觉运动皮层,用于获取患者脑部信号,该电极能够从多个与语音处理有关的皮质区域进行采样。
02
经皮连接器(percutaneous connector):用于将皮层信号传导至计算机。
该团队设置了一个包含50个单词的词汇表,该词汇表由一些常见单词构成,并可以用来创建基本的简单语句。在词汇任务中,被试需要尽可能读出屏幕上呈现的单词(词汇表中的单词),最终收集到22小时的实验数据;在句子任务中,被试需要尽可能快的读出屏幕上呈现的句子(该句子由实验材料中的50个单词构成),最终收集到250次句子任务的实验数据。
该模型用于处理分析皮质信号并将皮质信号转换为语音信号,具体流程如图1所示:
训练了一个双向LSTM模型,用于从连续的神经信号中获取声学运动特征信息(如:嘴部、舌头以及下巴的运动轨迹)。
阶段二(图1-c&d)训练了一个双向LSTM模型,用于从第一阶段的声学运动特征中提取声学特征(如:音高、MFCC、声门震动强度)。并将声学特征转换为声学信号。
图2展示了患者大脑的神经信号是如何传输并实现实时语言解码的过程。
图2. 实验流程图
A:屏幕上呈现句子,被试需要用指定的50个单词做出回答。
B:电极阵列获得用户做出反应时大脑的皮质信号。
C:皮质信号预处理(根据先前的研究,在70-150赫兹(高伽马)频率范围内的神经活动与语音处理相关)。
D:语音检测模型处理分析皮质信号并将皮质信号转换为语音信号。(具体的信号转换方法参见该团队2019年发表的Speech synthesis from neural decoding of spoken sentences一文)
E:单词分类模型用于计算语音信号中单词出现的概率。
F & G:利用单独训练好的语言模型计算词序,并生成最可能出现的句子。
在实时句子解码过程中,单词识别错误率分别为60.5%(不使用语言模型条件下)和25.6%(使用语言模型条件下),如图3所示。
图3. 单词识别错误率
在所有150次试验中,该系统每分钟解码的单词数量的中位数为15.2,其中正确解码的单词中位数为12.5,如图4所示。
图4. 每分钟解码单词数
该研究表明,高密度电极阵列所采样到的患者的皮质数据能够用于实时解码完整的单词和句子。
该研究发现,解码的性能在很大程度上是由腹侧感觉运动皮层的神经活动模式驱动的,这一发现与之前的研究结果一致,表明这一区域与语音产生有关。这一发现可能为今后研究中电极放置提供依据。
END
原文
(1) Neuroprosthesis for Decoding Speech in a Paralyzed Person with Anarthria
(2) Speech synthesis from neural decoding of spoken sentences作者
(1) David A. Moses, Sean L. Metzger, Jessie R. Liu, et al.
(2) Gopala K. Anumanchipalli, Josh Chartier & Edward F. Chang期刊
(1) The New England Journal of Medicine/
(2) Nature发表时间
(1) 2021.07
(2) 2019.04
DOI
(1) 10.1056/NEJMoa2027540
(2) 10.1038/s41586-019-1119-1
Contributors
■ 翻译版权 丨 西外多脑核
■ 编译 丨 姚雨晴
■ 审校 丨 童玲
■ 排版 丨 王启帆
往期推荐01新闻 · 公告|喜报!智语实验室再次获批中国博士后基金项目
02科技前沿|情绪对母语和外语加工的影响一致吗?
03科技前沿|语言控制好帮手,小脑作用真不小
04科技前沿|保持开心可以预防老年痴呆?
05科技前沿|看手机真的会使阅读理解能力下降吗?
欢迎关注
Follow Us
微信公众号 | 新浪微博
邮箱 | aicnl@xisu.edu.cn
网址 | https://aicnl.xisu.edu.cn
<部分图片、字体来源于网络,如有侵权,协商删除>