其他

谷歌发布升级版Tacotron 2,打造从文本到人声的完美转换

2017-12-22 DeepTech深科技

年度订阅用户可加入科技英语学习社区,每周科技英语直播讲堂,详情请查看“阅读原文”


将文本转换为自然语音(TTS)的技术已经研究了十几年。过去几年,TTS 已经取得了巨大进展,一个完整 TTS 的各个单独子系统也都有很大改善。而谷歌通过结合 Tacotron 和 WaveNet 等过去研究工作的思路,其发布的新产品 Tacotron 2 有了进一步提升。谷歌没有使用复杂的语言和声学功能作为输入。相反,谷歌的产品用神经网络生成人声,它仅仅是由语音示例和相应的文本训练得到的。



在《Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions》这篇论文中,谷歌对新系统有全面的介绍。简而言之,它的工作原理是这样的:谷歌用序列到序列(sequence-to-sequence)模型优化的 TTS,将字母序列映射为音频编码序列的功能。在一段 12.5 毫秒一帧的音频频谱图中,系统不仅能捕捉单词发音,还能获取音量、语速、语调等很多细节。最终,这些特性将经由一个类似 WaveNet 的架构转化为一段 24KHz 的波形。


论文地址:https://arxiv.org/abs/1712.05884



图丨 Tacotron 2 模型架构详解图,图片下半部分展示了序列对序列模型如何将字母序列映射成音频谱,更多技术细节请参考论文。


用户可以听一下 Tacotron 2 的音频样本,这些样本是谷歌最新 TTS 系统的成果。在一次评估中,谷歌邀请听众对生成语音的自然度进行评级,谷歌获得了能够与专业录音媲美的评分。


虽然谷歌的样本听起来还不错,但仍有一些棘手问题需要解决。比如,系统在复杂单词(比如“decorum”与“merlot”)的发音上有困难。极端情况下,它甚至会随机产生奇怪的噪音。另外,系统还不能实时生成音频。而且,谷歌还不能对生成的语音进行控制,比如让它听起来开心或忧伤。每个问题都是一个有趣的研究课题。


-End-


编辑:孙小彪  校审:郝锕铀

参考:

https://research.googleblog.com/2017/12/tacotron-2-generating-human-like-speech.html


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存