查看原文
其他

CRPS︱厦门大学郭文熹/吴荣辉课题组为听障人士开发的自供电语音识别系统

赵继忠 逻辑神经科学 2023-03-10


来源︱赵继忠
责编︱王思珍,方以一
编辑︱王思珍

全世界有超过七千万人正在承受严重听力问题带来的苦恼,然而听障群体的需求通常没有引起消费电子产业的足够重视。随着人工智能的蓬勃发展,在本来的人际沟通需求之外,人机交互的需求也日益增强[1],这对适用于听障群体的辅助交流系统提出了更高的要求。但是,一方面,现有的基于图像识别[2]或传感手套[3]的手语翻译系统因各种技术限制而缺乏实际应用的条件,且自然手语本身也因独特的语法规则[4],不利于听障群体使用基于手语的翻译系统进行人机互动。另一方面,与手语不同,通过从喉咙振动中获取信息来进行语音识别更直接、更方便,并且不需要任何专业培训,柔性可穿戴喉振传感器研究也不断取得新进展[5]因此,开发非手语翻译的语音识别辅助交流系统,可能成为改善听障用户生活、便于人机互动的关键。

2022年11月28日,厦门大学物理科学与技术学院郭文熹/吴荣辉课题组及合作者在Cell子刊Cell Reports Physical ScienceCRPS)杂志在线发表了题为Self-powered speech recognition system for deaf users的研究,报告了一种主要针对听障用户开发的抗干扰语音识别系统。该系统由自供电摩擦电式振动传感器(STVS)采集信号,以柔软的编织结构的纳米纤维纤维素薄膜(NFCF)作为振动敏感层,使STVS在宽振动频率下具有高灵敏度。基于语境的识别模型(CRM)可以较准确地识别多种常用表达,并具有语音身份识别功能。这一语音识别系统可以为听障群体、听觉群体(非听障群体)和物联网提供便捷、高效的沟通渠道。


郭文熹/吴荣辉课题组始终致力于柔性可穿戴传感器的开发。研究首先从许多听障人士只有听力损失、发声能力完好无损的事实出发[6],基于“只使用有限的词汇可以很好地涵盖特定情景的交流所需”的假设,最终建立了依赖于STVS和CRM的语音识别系统(图1)。STVS附着在声带附近的皮肤表面,利用摩擦纳米发电机(TENG)原理[7]实现声-电能量转换。随后,这些电信号被发送到CRM进行个性化训练和识别。最后,通过调用经过训练的模型,来实时识别听障用户的语音信号,并将其转换为语音或文本命令,用于控制智能家居。

图1 语音识别系统的概念图
(图源:Zhao et al., CRPS, 2022)

NFCF柔软、舒适、安全[8]STVS灵敏、准确、高效从图2C可以看出,SVTS有着宽频响应,在228—291 Hz范围内显示出共振特征,非常接近人声的基频。在人声较低(227 Hz)、中等(521 Hz)和较高(829 Hz)频率上的单频响应,仅观察到不超过0.5%的漂移(图2D)。这表明STVS能够准确地记录振动信息,且失真很小,还可以区分多个不同频率的振动分量。此外,STVS显示出高信噪比(图2E)和超过一百万次循环的耐用性(图2G)因此,可以合理地认为STVS在主要可听声音范围内有着出色的传感性能

图2 STVS的振动采集和电信号输出性能
(图源:Zhao et al.CRPS, 2022)

听障用户需要个性化培训模型。多数听障用户难以区分嘈杂和安静的环境因此提高语音识别系统干扰能力是必要的如图3A所示,STVS在超过90 dB的噪声中仍然能够以出色的准确性记录人声。研究人员邀请了四名因药物反应而遭受听力损失的听障志愿者进行语音识别测试。对一个词语,志愿者有自己独特但可重复的发声方式,因而他们的声音振动和词语之间可以建立一一对应关系,这就是听障用户语音识别系统建立的基础,现有的语音识别系统很难满足听障用户的使用需求。研究者们邀请四名听障志愿者分别对17个词语进行每个词语80次的重复来建立数据集,然后使用单隐层长短期记忆(LSTM)算法进行建模。当人们用语音控制智能家居系统时,往往有相似的语言顺序,例如“打开卧室里的空调”。因此,根据志愿者的语言习惯,可以将上述短句分组(图3H),志愿者们对某一类别词语的识别准确率平均提高了3.0%,达到92.3%。

图3 STVS对听障用户的语音识别
(图源:Zhao et al.CRPS, 2022)

识别系统工作有安全保障。为了提高智能家居系统的安全性,研究人员从志愿者的发声中捕获“声纹”,并据此设置了智能语音控制安全系统。对于任何访问安全系统的用户,其语音频谱将被细致分析,与注册密码进行比对以判断是否是授权用户进而决定是否解锁。这一过程可以有效保护智能家居系统不被滥用。

文章结论与讨论,启发与展望

所有作者一致认为,帮助听障用户减轻交流困难的关键在于让他们能够以与听障人士相同的方式进行交流,即用声音说话。这样一方面可以使听障群体和非听障群体之间的沟通更方便,另一方面也使听障用户更容易与物联网互动。所以,本工作的作者在材料方面引入天然棉絮纤维素,在结构方面使用简单编织结构,在识别模型方面引入语序划分,从而建立了有良好使用效果的语音识别系统。听障用户的命令可以从喉咙振动实时转换为文本或语音,用于人机交互。沿着这一道路,在提高频率响应上限、以音素作为识别最小单元、增大识别准确率和嗓音干扰信号排除方面仍有改进的空间。


原文链接:https://www.cell.com/action/showPdf?pii=S2666-3864%2822%2900479-9


厦门大学物理科学与技术学院赵继忠为该工作的第一作者,郭文熹教授为最后通讯作者。郭文熹教授主要从事软物质与柔性电子皮肤的研究,已在Adv. Mater、JACS、Nano Lett.等杂志发表SCI文章80余篇,H因子40。


第一作者:赵继忠(左);通讯作者:郭文(右)
(照片提供自:郭文熹课题组)



欢迎扫码加入逻辑神经科学 文献学习2

群备注格式:姓名-单位-研究领域-学位/职称/称号/职位

往期文章精选【1】J Neurosc︱首次!围产期丘脑形态学、微结构和连通性的时空发育模式【2】Cell Rep︱李斐/李伟广/张孝勇/梅兵团队合作提出基于突触细胞生物学特征的自闭症社交障碍分型标准
【3】专家点评 iScience︱李岩团队揭示家族性癫痫分子机制【4】Cell Death Discov︱康九红团队发现NRG1有望成为宫内生长受限导致的精神分裂症的治疗新靶点【5】Nature︱张世成等解析基于蕈毒碱型乙酰胆碱受体的化学遗传工具DREADD的设计原理【6】eLife︱陈舒怡团队首次揭示神经祖细胞与神经胶质细胞状态转换的m6A表观转录调控机制【7】Nature︱时松海课题组揭示调控大脑新皮层神经元空间精细结构排布和环路组装的新机制【8】Mol Psychiatry︱张捷课题组揭示皮层和皮层下区域的形态学分化与儿童认知功能及精神疾病的关联【9】NeuroImage︱严超赣团队开发Think-Aloud fMRI研究范式并刻画静息态自发思维的大脑表征模式【10】Mol Psychiatry︱陈昱等跨疾病研究精神障碍与神经退行性疾病患者脑中免疫相关基因的变化NeuroAI 读书会【1】NeuroAI 读书会启动︱探索神经科学与人工智能的前沿交叉领域
优质科研培训课程推荐【1】膜片钳与光遗传及钙成像技术研讨会(2023年1月7-8日 腾讯会议)【2】第十届近红外训练营(线上:2022.11.30~12.20)【3】第九届脑电数据分析启航班(训练营:2022.11.23—12.24)欢迎加入“逻辑神经科学”【1】“ 逻辑神经科学 ”诚聘编辑/运营岗位 ( 在线办公)【2】“ 逻辑神经科学 ”诚聘副主编/编辑/运营岗位 ( 在线办公)【3】人才招聘︱“ 逻辑神经科学 ”诚聘文章解读/撰写岗位 ( 网络兼职, 在线办公)
参考文献(上下滑动阅读)

[1] Guo, H., Pu, X., Chen, J., Meng, Y., Yeh, M.H., Liu, G., Tang, Q., Chen, B., Liu, D., Qi, S., et al. (2018). A highly sensitive, self-powered triboelectric auditory sensor for social robotics and hearing aids. Sci Robot 3, eaat2516. 10.1126/scirobotics.aat2516.[2] Rajam, P.S., and Balakrishnan, G. (2012). Recognition of Tamil Sign Language Alphabet using Image Processing to aid Deaf-Dumb People. Procedia Engineering 30, 861-868. 10.1016/j.proeng.2012.01.938.[3] Zhou, Z., Chen, K., Li, X., Zhang, S., Wu, Y., Zhou, Y., Meng, K., Sun, C., He, Q., Fan, W., et al. (2020). Sign-to-speech translation using machine-learning-assisted stretchable sensor arrays. Nature Electronics 3, 571-578. 10.1038/s41928-020-0428-6.[4] Hofer, T. (2017). Is Lhasa Tibetan Sign Language emerging, endangered, or both? Int J Soc Lang 2017, 113-145. 10.1515/ijsl-2017-0005.[5] Dinh Le, T.S., An, J., Huang, Y., Vo, Q., Boonruangkan, J., Tran, T., Kim, S.W., Sun, G., and Kim, Y.J. (2019). Ultrasensitive Anti-Interference Voice Recognition by Bio-Inspired Skin-Attachable Self-Cleaning Acoustic Sensors. ACS Nano 13, 13293-13303. 10.1021/acsnano.9b06354.[6] Fu, S., Chen, G., Dong, J., and Zhang, L. (2010). Prevalence and etiology of hearing loss in primary and middle school students in the Hubei Province of China. Audiol Neurootol 15, 394-398. 10.1159/000307346.[7] Fan, F.-R., Tian, Z.-Q., and Lin Wang, Z. (2012). Flexible triboelectric generator. Nano Energy 1, 328-334. 10.1016/j.nanoen.2012.01.004.[8] Lin, C., Wang, Q., Deng, Q., Huang, H., Huang, F., Huang, L., Ni, Y., Chen, L., Cao, S., and Ma, X. (2019). Preparation of highly hazy transparent cellulose film from dissolving pulp. Cellulose 26, 4061-4069. 10.1007/s10570-019-02367-3.

本文完

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存