微软 Azure 智能语音合成全面升级到 48kHz 高保真模型
微软 Azure 神经网络文本转语音服务[1] (又称“Neural TTS”,“智能语音合成”) 能帮助用户将文本转换为逼真的人工智能声音,它适用于多种应用场景,包括智能语音助手、客服对话机器人、有声内容朗读、游戏角色语音等。在过去的几个月中,微软 Azure 智能语音合成技术在语音自然度(详见博客[2] ) 、声音丰富度(详见博客[3] )和多语言支持(详见博客[4] )等方面取得了快速进展。
今天我们将给大家带来最新的神经网络语音合成声码器 HiFiNet2 的相关介绍。
声码器是 TTS 中的关键组件之一,它基于输入的文本或声学特征来合成音频样本。目前,通过 HiFiNet2 声码器技术,我们已经将微软 Azure 智能语音合成产品全面升级到 48kHz 声音模型,进一步为用户带来更高保真、高效率和可扩展的 AI 语音音质体验。这项更新包括 400 多个音色,覆盖全球超过 140 个国家和地区的语言。
48kHz 语音模型
HiFiNet2:新一代神经网络 TTS 声码器
声码器是语音合成或文本到语音转换的主要组件。它将音频的中间形式(又名声学特征)转换为可听波形。神经网络声码器是智能语音合成的关键模块,它采用了对抗深度学习神经网络。
在之前的博客[6] 中,我们介绍了第一代 HiFiNet (HiFiNet1),这是一个基于 GAN 的模型,它拥有优秀的音频质量和合理的推理速度,并且普遍支持 24kHz 采样率。同时,通过模型优化,HiFiNet1 虽然可用于支持 48kHz 采样率,但由于合成速度比较慢,合成成本比较高,无法推广到所有平台声音上,所以基于 HiFiNet1 我们只发布了个别 48kHz 声音模型的有限预览。
HiFiNet1 由一个全频段生成器(“生成波”)和一个鉴别器组成。生成器是用来合成可听波形(“真实波”)。鉴别器用于从其训练数据中识别合成音频和录制音频的差距。HiFiNet1 采用 Mel 频谱图作为输入特征。声码器的主要结构由 pre-Net 和上采样层组成。所有全带宽 Mel 频谱图信息将由一个共同的神经声码器处理。HiFiNet1 的输出音频采样率为 24kHz。
HiFiNet2 仍然把 Mel 频谱图作为输入特征。在生成器网络中,我们根据不同的频段设计不同的网络结构,再通过合成滤波器来合成多频段的生成信号。HiFiNet2 可以同时支持 24kHz 和 48kHz 采样率输出。
HiFiNet2 延用了对抗神经网络,这里主要的创新是:不同于所有频段共享一个网络结构的 HiFiNet1,HiFiNet2 在不同的频段上采用不同的模型结构。针对于高低频段的先验知识设计独立的生成器网络,使模型的计算和推理成本都更具针对性和更高效。
在低频段,使用复杂的模型结构可以保证更鲁棒的语音质量。然而,对于高频段信号,使用轻量级模型可以节省训练成本并有利于推理速度。因此,基于不同频段信息,独立的模型结构设计,不但有助于提高训练和推理效率,还可以同时保证生成与原始录音效果相当的高质量合成声音。
此外,分离频段设计不仅可以应用更有针对性的网络设计,还可以用来满足多种多样的应用场景。得益于 HiFiNet2 框架设计,不同的网络模型的输出信号可以在输出层再进行合成。例如,可以在输出层将通用语音和单个说话人不同频段的语音信号进行合成,并合成最终语音。
HiFiNet2 的优势
HiFiNet2 为 Azure 智能语音合成带来了更高音质,并且可以更加高效和灵活调节地合成AI声音。
音质更高
与 HifiNet1 相比,HiFiNet2 拥有更好的音质。HiFiNet2 的声音显示更少的 DSAT(例如,毛刺,抖动,机械声音等),更高的保真度(支持 48khz 采样率)和更高的声音相似性。就更好的相似性而言,这意味着与 24kHz 语音相比,48kHz 音频听起来更接近录音人的音色。语音质量的提高有利于给客户带去更好的应用场景和音质体验,尤其有利于有声读物、视频配音、游戏和唱歌等场景。
为了衡量 HiFiNet2 的带来的优势,我们针对不同的语言地区和性别分别做了测试,并验证了正向的结果。我们的测试表明,与 HiFiNet1 相比,HiFiNet2 声码器明显提升了语音质量,特别是在保真度方面。这些改进是通过 CMOS1[7] 和 SMOS2[8] 来衡量的。针对于 48kHz 功能,我们抓取了 Azure 平台日活前 10 的声音作为抽样测试样本,平均 CMOS 增益为 +0.1,SMOS 增益为 +0.105。
通用性好
HiFiNet2 声码器具有普遍适用性,这意味着声码器不受录音人的限制。一个通用的声码器可以用来生成不同人的声音,无需进一步的训练或微调,这既节省时间又节省资源。
此功能对于某些场景至关重要。例如,在录音数量有限或者录音质量不够专业的情况下,建构好的声码器是富有挑战的。传统上,从头开始训练神经网络声码器通常需要大量专业的音频数据和很长的训练时间。因此,如果我们能够构建一个通用声码器,可以直接合成任何说话者的声音,并且合成的音质是优秀和鲁棒的,那么它将完美解决上述的局限性。
基于 HiFiNet2 的通用功能,Azure 智能声音合成平台还可以支持神经语音声音定制的精简版项目(CNV Lite)。通过 CNV Lite[9] ,客户可以只需要在线录制 20-50 个句子作为训练数据,就可创建一个优质的定制声音。
速度更快
得益于有针对性的多频段网络设计,HiFiNet2 可以更好地分配计算成本。其多频段模型可以并行训练和推理,从而充分利用计算力。
对于 24kHz 采样率,HiFiNet2 与 HiFiNet1 相比,可以进一步降低 20% 的推理成本;而针对 48kHz 采样率,与目前已发布的 24kHz 语音相比,HiFiNet2 只需要额外增加仅 10% 的推理成本, 而且没有增加任何延迟损失。
一个框架适用于所有方案
传统的声码器通常是根据不同的应用需求进行设计和训练的,例如平台声音场景、通用声音场景、客户定制声音场景 、唱歌场景等。随着不同的应用场景正在快速拓展,维护多个不同的声码器模型并不是一个理想的长期解决方案。因此,找到一种快速并可靠管理和维护不同场景的声码器模型是一项必须要解决的问题。HiFiNet2 是一个统一化的声码器框架,它灵活可扩展,并且可以处理不同的任务,如 24kHz 语音,48kHz 语音,带宽扩展,AI 唱歌等。下面我们将简单描述两种场景:带宽扩展和 AI 唱歌。
带宽扩展
带宽扩展技术可以帮助快速构建和升级现有语音,使其音质具有更高的保真度,并大大缩短语音升级的上市时间。这对于使用低保真语音构建高保真语音的客户非常有用。
带宽扩展方法的另一个典型用例是音频超分任务,这可以将低采样率音频提升到高采样率。
通过下面的带宽扩展(BWE)样例,你可以了解到使用 BWE 从 24kHz 录音生成的 48kHz 音频与 48kHz 录音有多接近。
AI 歌唱
使用 48kHz 声码器创建定制语音
HiFiNet2 声码器可以应用于 Custom Neural Voice[10]声音定制功能,使客户能够针对其独特的场景创建多种语言的独特品牌声音,采样率高达 48kHz。详细了解自定义神经语音入门的过程[11] 。
开始使用
微软 Azure 深度神经网络语音合成服务支持全球超过 140 个国家和地区的语言,提供超过 400 个声音供用户选择[12] 。此外,你还可以通过 Custom Neural Voice[13] 声音定制服务来创建自己的品牌声音。
了解更多信息:
•阅读我们的文档[14]
•查看我们的快速入门[15]
•查看将神经 TTS 集成到应用中的行为准则[16]
•查看我们的交互式演示[17]
向上滑动阅览注释
[1] :https://azure.microsoft.com/services/cognitive-services/text-to-speech/
[2] :https://techcommunity.microsoft.com/t5/ai-cognitive-services-blog/new-technical-research-is-advancing-azure-s-neural-text-to/ba-p/3499414