百度发布升级版 Deep Voice 2，神经网络实时生成，完美模仿数百种声音（论文下载）

2017-05-26 新智元

新智元报道

来源：research.baidu.com

编译：刘小芹

【新智元导读】百度研究院今年初发布的完全深度神经网络构建的 Deep Voice 文本到语音转化系统，声称在转化速度上比 WaveNet 快400倍。但当时的系统只能转化20小时语音，而且只有一种声音。不到三个月的时间，这个系统得到大幅升级，能够生成数百个小时的语音，拥有数百种声音。

百度在官方博客介绍了升级版 Deep Voice 2：

今年2月，百度硅谷 AI Lab 发布了 Deep Voice 1，这是一个完全使用深度神经网络生成人类语音的系统。与其他使用神经网络的文本到语音（text-to-speech，TTS）系统不同的是，Deep Voice 1是实时运行的，能在需要播放语音时非常快速地合成音频，因此适用于媒体或对话界面之类的交互应用。通过训练能够从大量数据和简单特征学习的深度神经网络，我们创建了一个非常灵活而且高质量的实时语音合成系统。

今天，我们很高兴地宣布推出 Deep Voice 2，这是 Deep Voice 系统的第二代版本。短短三个月时间，我们已经将第一代系统只能生成20小时语音，只有一种声音，扩大到数百小时语音，并且可以拥有数百种声音。Deep Voice 2能够从数百种声音学习，并且能够完美地模仿这些声音。与传统的这类系统不同，传统的系统需要使用同一个说话人的数十小时的语音来训练，但 Deep Voice 2只需每个说话人不到半小时的语音数据，就可以学会数百种独特的声音，同时拥有高音质。

Deep Voice 2 通过寻找不同声音之间的共同特征来学习语音。具体来说，每个声音对应一个单个的向量，即总结了如何模仿目标声音来生成语音的约50个数字。与以前的 TTS 系统都不同，Deep Voice 2 是从头开始学习这些特征，不需要任何关于这些声音的区别的指导。

音频片段试听地址：http://research.baidu.com/deep-voice-2-multi-speaker-neural-text-speech/

论文：Deep Voice 2: Multi-Speaker Neural Text-to-Speech

有关 Deep Voice 2 的更多信息，请阅读我们的论文。

论文下载地址：http://research.baidu.com/wp-content/uploads/2017/05/Deep-Voice-2-Complete-Arxiv.pdf

反向激励，在加速这个社会的黑化

官媒发声：反对调休的声音不能装聋作哑！这不是放假，是“假放”（五一假期）

豪放女乘客扯掉裤子当场“硬要”，的哥乖乖“束手就擒”……

瘦皇被指“爱C女主播”！破防诅咒“小SS父母”：煤气厂爆炸！鱼皇下场开喷！

斗鱼老板已经“Q保H审”？多家知名媒体爆料！律师预计进去五到七年！