工程师将大脑信号直接转化为语音
哥伦比亚大学的神经工程师创造了一个系统,可以将思想转换成可理解、可识别的语言。
通过监测一个人的大脑活动,这项技术可以以前所未有的清晰度重建一个人听到的单词。这一突破利用了语音合成器和人工智能的力量,可能会带来计算机直接与大脑交流的新方法。它还能帮助无法说话的人(例如患有肌萎缩侧索硬化症 (ALS) 或中风康复的人)重新获得与外界交流的能力。
这些发现发表《Scientific Reports》上。
哥伦比亚大学的研究人员Nima Mesgarani 博士说:“我们的声音有助于将我们与朋友、家人和周围的世界联系起来,这就是为什么由于受伤或疾病而失去声音的力量如此具有破坏性,通过这项研究,我们有可能恢复这种力量。我们已经证明,只要有合适的技术,任何听者都可以破译和理解这些人的想法。”
数十年的研究表明,当人们说话时——甚至想象说话时——大脑中会出现明显的活动模式。当我们听某人说话或想象聆听时,也会出现不同(但可识别)的信号模式。试图记录和解码这些模式的专家们认为,在未来,思想不需要隐藏在大脑中,而是可以随意翻译成言语。
事实证明,要实现这一壮举具有非常大的挑战性。Mesgarani 博士和其他人对大脑信号进行解码的早期努力主要集中在分析频谱图的简单计算机模型上,频谱图是声音频率的视觉表示。
但由于这种方法无法产生任何类似可理解语音的东西,Mesgarani 博士的团队转而使用声码器,这是一种计算机算法,可以在对人们说话的录音进行训练后合成语音。
语音重建方法的示意图
上图(A) 受试者听自然语音的句子。然后使用听者听觉皮层中的诱发神经活动群来重建语音刺激。示例对象中的响应电极以红色显示。从神经数据中提取高频带和低频带。使用了两种类型的回归模型和两种语音表征,产生了四种组合:线性回归到听觉频谱图(浅蓝色)、线性回归到声码器(深蓝色)、DNN 到听觉频谱图和 DNN 到声码器(深红色)。
(B)所有模型的输入是一个包含低频 (LF) 和高伽马包络 (HG) 的 300 ms 滑动窗口。DNN 架构由两个模块组成:特征提取和特征求和网络。用于听觉频谱图重建的特征提取是全连接神经网络(FCN)。对于声码器重建,特征提取网络由一个FCN和一个局部连接网络(LCN)连接而成。特征求和网络是一种双层全连接神经网络(FCN)。
(C) 声码器参数包括频谱包络、基频 (f0)、发声和非周期性(共 516 个参数)。使用具有瓶颈层的自动编码器将 516 个声码器参数减少到 256 个。然后将bottleneck特征用作重建算法的目标。声码器参数是使用自动编码器网络的解码器部分从重建的bottleneck特征中计算出来的。
Mesgarani 博士表示,“这与 Amazon Echo 和 Apple Siri 回答我们的问题的技术相同。”
为了教声码器解读大脑活动,Mesgarani博士与医学博士Ashesh Dinesh Mehta合作,他是Northwell Health Physician Partners Neuroscience Institute 的神经外科医生、,也是该论文的合著者。Mehta医生治疗癫痫患者。
“与 Mehta 博士合作,我们要求已经接受脑部手术的癫痫患者听不同人所说的句子,同时我们测量了大脑活动的模式,”Mesgarani 博士说。“这些神经模式训练了声码器。”
接下来,研究人员让这些患者听0到9之间的数字的发声,同时记录大脑信号,然后通过声码器播放这些信号。声码器对这些信号产生的声音由神经网络分析和清理,神经网络是一种模仿生物大脑神经元结构的人工智能。
最终的结果是一个听起来像机器人的声音背诵了一系列数字。为了测试录音的准确性,Mesgarani 博士和他的团队要求每个人听录音并报告他们听到的内容。
深度神经网络架构 (A)图顶部为语音样本的原始听觉频谱图。四种模型的重建听觉频谱图如下所示。(B)原始(上)和四种重建模型在清音(t =1.4秒)和浊音(t = 1.15秒)时的频带幅值功率(在A中虚线显示)。
Mesgarani博士说:“我们发现人们在75%的时间里能够听懂并重复这些声音,这远远超过了之前的任何尝试。”当将新录音与早期基于谱图的尝试进行比较时,清晰度的提高尤其明显。“灵敏的声码器和强大的神经网络以惊人的准确性代表了患者最初听到的声音。”
Mesgarani 博士和他的团队计划接下来测试更复杂的单词和句子,他们希望对一个人说话或想象说话时发出的大脑信号进行相同的测试。最终,他们希望他们的系统可以成为植入物的一部分,类似于一些癫痫患者佩戴的植入物,将佩戴者的想法直接转化为文字。
客观、易懂的不同模型的评分。(A)基于四种模型的所有受试者的平均ESTOI分数。(B)电极的覆盖范围和位置,以及五名受试者的ESTOI评分。在所有受试者中,DNN声码器的ESTOI得分高于其他模型。
Mesgarani博士说:“在这种情况下,如果佩戴者认为‘我需要一杯水’,我们的系统就可以接收到这种想法产生的大脑信号,并将其转换成合成的言语。”“这将改变游戏规则。它将给任何因受伤或疾病而失去说话能力的人重新获得与周围世界联系的机会。”
参考
Hassan Akbari, Bahar Khalighinejad, Jose L. Herrero, Ashesh D. Mehta, Nima Mesgarani. Towards reconstructing intelligible speech from the human auditory cortex. Scientific Reports, 2019; 9 (1) DOI: 10.1038/s41598-018-37359-z
https://www.sciencedaily.com/releases/2019/01/190129081919.htm
https://zuckermaninstitute.columbia.edu/columbia-engineers-translate-brain-signals-directly-speech
仅用于学术交流,不用于商业行为,若有侵权及疑问,请后台留言,管理员即时删侵!
更多阅读
研究人员探索gaze fixation对基于运动想象的脑机接口性能的影响
Nature子刊:Neuropixels 探针单神经元分辨率的大规模神经记录
卷起来了!DeepMind发布媲美普通程序员的AlphaCode,
点个在看祝你开心一整天!