Parrotron: 提升语言障碍人士口头交际能力的新研究
Parrotron 介绍
Parrotron 语音转换模型
首先,我们针对标准流畅的语音构建通用的语音到语音转换模型,然后按照目标说话者的方言语音模式调整模型参数进入个人化阶段。采集监督式训练所需的平行训练数据是配置过程面临的主要挑战。该训练数据包括多个说话者的话语,且此类话语还需单独映射至与对应说话者输出语音内容。构建高质量模型需要大量训练数据,但让单个人进行长时间录制并不现实,因此 Parrotron 自动使用了 TTS 系统生成的平行数据。这样,我们就能使用已有的匿名转录语音识别语料库来实现训练目标。
Parrotron 模型架构概览,将一个输入语音声谱图传入编码器和解码器神经网络,从而以新的声音生成输出声谱图
案例研究
Dimitri 说:“How far is the Moon from the Earth?”(月球距地球多远?)
Parrotron(男性声音)说:“How far are the Moon from the Earth?”(月球距地球多远?)
Aubrie 说:“Is morning glory a perennial plant?”(牵牛花是不是多年生植物?)
Parrotron(女性声音)说:“Is morning glory a perennial plant?”(牵牛花是不是多年生植物?)
Aubrie 说:“Schedule a meeting with John on Friday.”(安排星期五与 John 开会。)
Parrotron(女性声音)说:“Schedule a meeting with John on Friday.”(安排星期五与 John 开会。)
我们还测试了 Parrotron 处理 ALS 患者语音的性能,具体方法为:将多个拥有相似语音特征的说话者归为一组,并根据该组说话者说话者调整预训练模型。我们还进行了初步听力研究并发现,对于绝大多数测试的参与者而言,相比于原始 ALS 语音,Parroton 模型对应生成的语音会更易被理解。
递进式方法
Euphonia 项目已经构建个性化语音到文字模型,可将失聪说话者的单词错误率从 89% 降至 25%,而目前正在进行的研究更有可能进一步改进这一结果。通过使用此类语音到文字模型,仅将其输出传入 TTS 系统,再根据结果合成语音,即可实现类似于 Parrotron 的目标。然而,在此类方法中,识别器可能会选择错误词语(此案例中的单词错误率约为 25%)。换言之,这可能产生偏离原意的词语或句子,导致这些词语合成的音频将会与说话者的本意相去甚远。考虑到 Parrotron 使用的的端到端语音到语音训练目标函数,即便出现错误,模型生成的输出语音听起来可能也会与输入语音很相近,因此说话者的本意不大可能遭到严重偏离,而且仍有可能获得听者的理解:
Dimitri 说:“What is definition of rhythm?”(节奏的定义是什么?)
Parrotron(男性声音)说:“What is definition of rhythm?”(节奏的定义是什么?)
Dimitri 说:“How many ounces in one liter?”(一升有几盎司?)
Parrotron(男性声音)说:“Hey Google, How many unces [sic] in one liter?”(嗨 Google,一升有几 unce [原文如此]?)
Google 助理说:“One liter is equal to thirty-three point eight one four US fluid ounces.”(一升等于 33.814 美式液量盎司。)
Aubrie 说:“Is it wheelchair accessible?”(轮椅方便进入吗?)
Parrotron(女性声音)说:“Is it wheelchair accecable [sic]?”(轮椅方便进 [原文如此] 吗?)
此外,由于 Parrotron 并不十分倾向于按照预先定义的词汇集生成词语,因此模型输入可能包括新造词语、外文词语和名称,甚至还会包含无意义词汇。我们观察到,在将阿拉伯语和西班牙语话语输入给到美式英语 Parrotron 模型时,模型生成的目标语音输出往往会以美式口音呼应原语音内容。相比于仅运行 ASR 而后搭配使用 TTS 方法获得相应内容,此行为有本质区别。最后,通过将多个独立调整的神经网络整合为单一神经网络,我们还相信模型潜藏着巨大的改进和简化空间。
结论
凭借其端到端语音转换方法,Parrotron 能够更准确地重现用户想要表达的语音内容,从而帮助方言语音用户更轻松地表达自己,同时更便于他人和语音界面获得理解。我们的论文中探讨了 Parrotron 更多炫酷的应用场景,您还可在我们的 GitHub 代码库中找到其他音频样本。如果您想加入我们的研究队列,请填写这份简易表单并自发录制一组简短话语。我们期待与您合作!
致谢
此项目为 Speech 和 Google Brain 团队的合作成果。
贡献者包括 Fadi Biadsy、Ron Weiss、Pedro Moreno、Dimitri Kanevsky、Ye Jia、Suzan Schwartz、Landis Baker、Zelin Wu、Johan Schalkwyk、Yonghui Wu、Zhifeng Chen、Patrick Nguyen、Aubrie Lee、Andrew Rosenberg、Bhuvana Ramabhadran、Jason Pelecanos、Julie Cattiau、Michael Brenner、Dotan Emanuel、Joel Shor、Sean Lee 和 Benjamin Schroeder。
另要感谢 ALS-TDI 与我们热诚合作,助推我们大幅加速数据收集工作。