通过脑植入技术,科学家们有望在未来将思想转化为言语
作者 | Sharon Begley
翻译 | 唐安洁
审校 | 酷炫脑
编辑 | Mandy
Inria
在美国长岛 Feinstein 医学研究所,一位神经外科医生 Ashesh Mehta 博士在为其患者手术时,作了一项大胆的实验。在得到患者的同意后,这项手术的目的不再仅仅是为了确认患者癫痫发作的缘由,而是试图将其大脑中的思想转化为语言。
手术时,Mehta 博士先是像往常一样在患者的头皮上做一个小切口,然后将切口分开露出头骨。随后博士在患者的头骨上钻了一个 3 英寸的小洞,一直深入到硬脑膜,大脑里一层厚厚的坚硬覆盖物。在切透了硬脑膜之后,更深一层的就是我们裸露的大脑了。在大脑左侧一块负责倾听和语言表达的区域,Mehta 小心翼翼地放置了一排扁平状的微电极,用来“窃听”这位患者的思想。
当人们思考,即用“心灵的耳朵”聆听我们内心所表达的词句时(这个过程往往很快,几乎是无意识的),我们大脑的灰质区域会产生电脉冲。而 Mehta 博士放置的这块微电极,可以“窃听”并记录这些电脉冲,然后将这些信号无线传输到电脑上进行解码。这块微电极以及整个传输解码系统,第一次有望真正实现超越单纯运动和感知功能的“人脑-电脑”联结。如果一切顺利,它将征服这个领域的珠穆朗玛峰:创造出能帮助那些患有脊椎损伤、闭锁综合征、肌萎缩性脊髓侧索硬化症(ALS)或其他瘫痪病症的患者再次交流的人脑-计算机连接设备。
虽然这项技术并不能为这些患者提供超群的表达能力,但得益于于我们现代社会神经科学、工程学和机械学习领域的进步,越来越多的科学家认为,至少有一种能帮助人们传达饥饿或痛苦感觉的技术已经在我们的可实现范围内了。加利福尼亚大学伯克利分校的 Brian Pasley 教授说:“我们对大脑的信息解码如今已经有了足够多的了解,这意味着我们已经有能力实现一些技术来帮助我们的患者。即使是非常微小的技术创新,对我们的患者来说也是非常具有意义的。”也许在未来,人们不再需要打字或依赖 Siri、Facebook 之类的软件就能提供将思想转化为短信和电子邮件的技术服务。
Facebook 的 BCI 发布会 | Techcrunch
人类现有的第一台脑机连接仪能够解读大脑运动皮层的电子信号,并通过软件识别出大脑想要移动的信号,从而发送指令操作电脑光标或机械臂。2016 年匹兹堡大学的一群科学家在这个技术上更进一步,他们在人脑控制的机械臂上加上了神经传感器使其产生触觉。
虽然脑机连接仪器一度被媒体热情地报道宣传,然而在第一台原型机问世后,脑机连接仪并没能成为一项被广泛和常规使用的技术。许多项目在起初的热情过后就陷入了瓶颈。
匹兹堡大学参与开发触觉机械臂的科学家 Jennifer Collinger 和她的同事最近获得了美国国立卫生研究院(National Institutes of Health)提供的800万美元赠款,用于改进设备以及为更多在匹兹堡的患者提供帮助。Jennifer Collinger 说道,大多数脑机连接仪器都需要笨重的电缆和硕大的盒子来装这些信号分析器以及其他的电子设备,且由于脑电极技术仅仅问世了几年,还需要不断的脑部手术和脑机(Brain- Computer Interface,BCI)系统来进行实验研究。然而这些往往只能在实验室中操作,在现实生活中仍然存在着很大的局限。
语言脑机接口本身也面临着许多的障碍和挑战。如果要完全解码大脑中表达语言的意图,我们需要识别更多的大脑信号,然而事实上我们对大脑中会参与到语言表达的区域尚不完全了解。日内瓦大学的 Stephanie Martin 说,这其中最主要的挑战是,大脑中参与语言编码的区域非常广泛,而我们现有的技术无法以足够广的时间和空间上的分辨率来监控整个大脑。我们的大脑非常嘈杂,这些编码的电子活动往往会被淹没在无数的大脑信号之中,这也进一步加大了我们试图精确提取这些信息的难度。
Martin 还提到,我们现有的辅助技术,对那些患有瘫痪、肌萎缩侧索硬化症或其他疾病的患者来说既不直接也不自然。当患者们浏览屏幕上出现的字母时,贴在头皮上的电极通过感应到患者眼球的移动和位置,将患者选中的字母通过语音合成器读出来。例如我们患有肌萎缩侧索硬化症的已故宇宙学家斯蒂芬霍金所使用的就是这种并不十分便捷的语言辅助系统。但许多科学家认为可以利用神经和语言的关系设计出更好的辅助仪器。
霍金 | 图源网络
波士顿大学的计算神经科学家 Frank Guenther 在 2007 年研发了第一台脑机语言设备。他在一位患有闭锁综合征的男性患者的大脑中植入了一块电极来窃听患者大脑皮层发出的语言信号,这些电极会收集记录那些试图移动舌头、嘴唇、喉咙、下颚以及脸颊的信号(这项研究仅仅进展到元音的发音)。
这项研究在 Guenther 的合作者神经学家 Phil Kennedy 与联邦卫生监管机构发生冲突后被勒令停止,监管机构甚至禁止再将任何电极设备植入患者的体内。
因为对这个领域的缓慢进展感到非常沮丧,Kennedy 决定在自己的大脑中进行试验。在 2004 年,Kennedy 让一位神经外科医生在自己的大脑里植入了一块电极、电源线圈和无线电收发器,然而这项实验除了 Kennedy 自己的大脑受到了损伤之外没有任何收获。
所幸其他的神经科学家并没有被这样的故事吓到,他们和电子工程师合作研发了一个可以解读患者表达意图,解码大脑信号并转化为语音的设备系统,包含解码仪、植入器和语音合成器。Guenther 说,语言脑机接口设备的硬件比机械臂要便宜得多,一个机械臂往往要花费几十万美元,所以价格低廉这一优势可能让脑机接口有一天能被广泛运用。从今天的标准来看 Guenther 2007 的系统可能看起来有些古老,但是我不认为这些阻碍脑机语言接口发展的问题无法在未来得到解决。
一位哥伦比亚大学的电气工程师 Nima Mesgarani 也持有同样的观点。他组织开展了一个项目,通过类似于像 Mehta 博士植入的那些电极采集的信号重建语音。
BCI 实验室 | Fondazione Santa Lucia
语言读取技术之所以有实现的可能,是因为人类的大脑在幻想和现实之间其实没有明确的界限。大脑在我们想象和真正做事情的时候,神经元的活动模式和位置极其相似。比如当我们去想象一个南瓜和我们真正看见一个南瓜时,大脑视觉皮质的活动非常相像。想象会引起神经元的活动,就好像我们真的在执行一件事情那样。Mesgarani 说,这就像我们大脑里无声又隐形的话语,通过引发和说话时一样的脑内神经元活动,在想象中预演我们即将要表达的语句,但在这个过程中不会真的移动我们的舌头或嘴唇。
在精神上聆听我们内心静默的话语也是一样的道理。伯克利的 Pasley 说:“我们可以把这当成心灵的耳朵。例如先是说出长颈鹿这个词,然后再在心里默念这个词就可以发现,在我们的大脑里,我们也会重读第一个字和最后一个字,而这些元素构成了这个词语的声谱图。”
这其中最关键的一点是因为,我们大脑的听觉皮层在同时地聆听来自内心和外界的声音。Pasley 和他的同事们在一份报告中提到,当我们同时聆听内心和外界的声音时,大脑内的活动重叠区域是巨大的。
这就使得“窃听”大脑来帮助重现我们内心静默的话语成为一种可能,虽然也许效果远未达到完美。在伯克利的一项研究中,Martin 和 Pasley 让一群大脑内植入电极的受试者想象在脑海里大声念出一系列词语,像牛仔、游泳、蟒蛇和电话。不幸的是,当参与者在脑海里读像勺子和战役这些词语时,这些软件在解读大脑信号的精确度上比抛硬币好不了多少。不过,相比那些从说出口的话里区分究竟是元音还是辅音上都得分不高于 40% 的早期系统来说,这项研究已经是一个很大的进展了。
研究的结果虽然不多,但足以证明一些概念。Mesgarani 说到,重建内心语言的过程并没有我们想象的那么容易,我们仍在努力跨越这些障碍。最好的办法就是利用计算机学习能力或使用软件来解读这些与内心的话语相对应的大脑活动,让它们自己从错误中学习然后进化。
为了验证他的猜想,Mesgarani 与 Mehta 合作,招募了五名癫痫病人进行研究。在对他们进行手术时,在患者颞横回的和颞上回两个听觉皮层区域的表面上放置了一块电极网格(也被称为皮质电描记法)。在颞上回的部分包含维尼克区域,负责选择恰当的词语来表达。两块脑回都负责处理语言的特征,比如像音量、语调、频率和最重要的音位——口语中像“ sh ”这种最小的声音单位。
颞横回(gyrus de Heschl)、颞上回 (superior temporal gyrus) | Wikimedia Commons
然后这些参与实验的志愿者将会听到其他人念 30 分钟的故事和数字(“1,2,3......”),同时一台声音处理软件会提取参与者在听到这些内容后,大脑神经活动所产生的一系列复杂的电子信号。随后 Mesgarani 和他的团队开发的“深部神经网络”会推断出那些和听到的声音相符合的神经活动,并分析这些活动。这些推断会被转化为电子信号,然后被发送到一台声音合成器。这台合成器可以根据采集到的电子信号所具有的像频率之类的的声音元素生成语音。
整个实验就像是把一本法拉利操作手册从意大利语翻译成英语,再从英语翻译成日语然后再翻回到意大利语一样,最终的版本会和一开始完全不同。实验得出的结果也和以前那些脑机连接研究得到的一样,是一串几乎无法理解的声音。“在这之前,甚至没有办法可以很好地重现电子数据的语音,” Mesgarani 说。
在这之后,一项对这个实验的测试研究了这台脑机连接仪得出的这些微弱声音和参与者听到的内容是否相似。在 bioRxiv preprint 网站上,研究人员发表的一篇论文中报告说,测试显示这些声音的可理解性达到了 75% ,相比之下以前实验的结果只有 50% 多。这篇文章虽然没有经过同行审批,但已经被提交给了期刊。
平均每个人对重复多次的语音内容的神经反应可以提高生成语音的准确度,就像从更多的电极中读取 128 一样。
Mesgarani 下一步的实验是测试想象说话时激发的深部神经网络脑信号。Mesgarani 说,以往的研究表明检测并对内心的话语进行编码是可实现的,但是这其中的瓶颈在于声学处理环节和语言合成器。通过改进潜在语言脑机接口的后端部分,我们可以有一个良好的算法框架,来根据大脑的活动生成精确易懂的重现语音。Mesgarani 把这称之为“向下一代人机交互系统迈出的一步,可服务于患有瘫痪和闭锁综合征的患者”。
而这些可以服务于残疾人的技术在未来也同样可以造福全人类,或者反之。在 2007 年麻省理工学院举行的神经科技会议上,Facebook 的 Mark Chevillet 提出来一个问题,“如果人们可以直接通过大脑打字的话会怎么样?”,这正是 Facebook 公司目前研究的“会打字的思想” 脑机接口技术。
酷炫脑主创评论
快速读取大脑的言语在技术上是可行的,不过一个需要考虑的问题是:
人类说话的过程本身也是思考和创造的过程,人在变说话的同时,边在创造随后要说的话。而思考的速度取决于大脑整体的内部运作效率,对每个特定的个体来说都是相对稳定和有限的。所以即使我们拥有了即时从大脑读取语言的技术,在快速读取完一句话之后,人们仍旧需要和自然状态下同样的时间来创造下一句话;而另一方面,加速表达一句话,缩短的时间是否会影响思考的深度和流畅程度,是一个必须要考虑的问题。
-END-
原文链接:
https://www.scientificamerican.com/article/with-brain-implants-scientists-aim-to-translate-thoughts-into-speech/
本文系网易新闻·网易号“各有态度”特色内容
想要了解更多的脑科学知识吗?
扫描二维码
○ “别把自己太当回事”比“我很好我很棒”更健康
○ 上世纪的致幻视觉效果怎么解释意识?