科研快讯 | THUHCSI实验室10篇论文被语音领域旗舰国际会议INTERSPEECH录用
INTERSPEECH
2022
近日,2022年ISCA国际语音通讯学会年会(2022 Annual Conference of the International Speech Communication Association, INTERSPEECH)发布录用通知,清华大学人机语音交互实验室(THUHCSI)有10篇论文被录用。
这些论文涉及语音合成、语音转换、歌声合成、语音增强、说话人识别、自然语言理解等多个研究领域,合作伙伴包括:腾讯(AI Lab、TEG AI、Ethereal Audio Lab、互娱)、虎牙、元象、平安科技、香港中文大学、台湾大学等。
01
Paper
Towards Multi-Scale Speaking Style Modelling with Hierarchical Context Information for Mandarin Speech Synthesis
作者:Shun Lei*, Yixuan Zhou*, Liyang Chen, Jiankun Hu, Zhiyong Wu, Shiyin Kang, Helen Meng
合作单位:广州虎牙信息科技有限公司、元象 XVerse、香港中文大学
论文主要创新点:本文针对表现力语音合成提出了一种基于上下文层级信息的多尺度说话风格建模方法,从全局层面、句子层面和字层面对韵律的变化进行建模,以捕捉和预测自然语音中多尺度的说话风格。该方法在FastSpeech 2的基础上增加了一个多尺度风格提取器和一个多尺度风格预测器(上图)。多尺度风格提取器被用于从全局、句子和每个字对应的语音片段中提取三个不同层级的说话风格向量(中图)。在提取器的基础上,多尺度风格预测器从上下文中提取不同层级的信息,然后以残差连接的方式依次预测全局层面、句子层面和字层面的说话风格(下图)。特别地,为了减少不同层级说话风格之间的冗余信息,本文以残差的方式建模不同层次的风格变化。实验表明,由于更好地建模了不同层级的说话风格特征,本文提出的方法可以大大改善合成语音的自然度和表现力。
模型骨干结构
多尺度风格提取器
多尺度风格预测器
“ 合成样例抢先听
02
Paper
Towards Cross-speaker Reading Style Transfer on Audiobook Dataset
作者:Xiang Li*, Changhe Song*, Xianhao Wei, Zhiyong Wu, Jia Jia, Helen Meng
合作单位:香港中文大学
论文主要创新点:本文面向有声读物的自动生成,提出了一种跨说话人的语音朗读风格迁移方法。在仅有单人朗读单一主题读物的场景下,该方法可以灵活组合不同音色和风格并合成出整体风格一致的有声读物。该方法基于多尺度的参考音频风格模型进行有声读物的语音风格建模:在局部尺度(local-scale)建模有声读物语音的韵律起伏(prosody);在全局尺度(global-scale)建模朗读者的音色(timbre)和有声读物的整体风格类型(genre)。特别地,全局模块的输入为多个相邻句子组成的块(chunk),以提高全局尺度建模的稳定性,并更好地建模读物的整体风格;该全局模块还通过两个平行分支,分别提取音色、整体风格类型的隐层表征,并基于可切换对抗分类器(Switchable adversarial classifier,SAC)进行音色表征与风格类型表征的解耦,以便后续灵活组合不同来源的表征,实现跨说话人风格迁移。在童话、武侠小说读物上的实验结果表明,所提方法可将特定的读物风格迁移到未朗读过该风格读物的新音色上;块级别全局风格模块有效地提升了迁移结果的风格相似度;基于SAC的解耦算法对音色/风格解耦起到不可或缺的作用。
包含2个全局分支的块级多人多尺度参考音频风格模型
基于可切换分类器(SAC)的对抗训练
“ 合成样例抢先听
03
Paper
CALM: Contrastive Cross-modal Speaking Style Modeling for Expressive Text-to-Speech Synthesis
作者:Yi Meng, Xiang Li, Zhiyong Wu, Tingtian Li, Zixun Sun, Xinyu Xiao, Chi Sun, Hui Zhan, Helen Meng
合作单位:腾讯互娱、香港中文大学
论文主要创新点:本文针对表现力语音合成(Expressive TTS)提出了一种根据文本内容选取多个参考音频进行说话风格建模的方法。基于对比学习(Contrastive Learning)的方法联合训练两个编码器:风格编码器(Style Encoder)和语言编码器(Linguistic Encoder),以生成跨模态的表征。文本经过训练好的语言编码器可以得到与说话风格相关的文本嵌入。首先,通过预训练一个由全局风格令牌(GST)和Fastspeech2组成的TTS模型,得到一个预训练的风格编码器。然后,使用预训练的风格编码器输出整个数据集的风格嵌入,根据其相似性构造对比学习中的正、负样本对。在此基础上,对文本和语音进行对比学习,以得到同一嵌入空间内的跨模态一致性表征。TTS模型在进行推理时,根据待合成文本在训练集中选取与该文本的文本嵌入相似度最高的N个样本,将其对应的N条音频作为参考音频,并采用风格嵌入的加权和作为最终的风格表征。实验结果表明,所提方法在中英两个数据集上均能有效提高合成语音风格的合理性。
所提对比学习方法的训练流程
“ 合成样例抢先听
04
Paper
Enhancing Word-Level Semantic Representation via Dependency Structure for Expressive Text-to-Speech Synthesis
作者:Yixuan Zhou*, Changhe Song*, Jingbei Li, Zhiyong Wu, Yanyao Bian, Dan Su, Helen Meng
合作单位:腾讯AI Lab、香港中文大学
论文主要创新点:本文针对表现力语音合成(Expressive TTS)提出了一种用依存结构增强词级语义表征的方法,结合图神经网络(GNN)将特定句法依存信息融入自监督预训练文本表征中,以提升合成语音的表现力和韵律效果。在该方法中,原始文本首先被输入到预训练依存解析模型 Stanza 和预训练文本表征模型 BERT,得到句法依存树和池化后的词级语义表征,用来构建带有语义信息的依存图;其次为更好地使用依存结构,引入关系型门控图神经网络(RGGN)让语义信息沿着特定正向/反向拓扑结构在相关词节点之间流动聚合,获得经依存信息增强后的词级语义表征;接着将该表征上采样到音素级别,作用到TTS模型中。在普通话和英语单说话人数据集上分别进行实验,结果表明相比于原始音素输入的TTS系统、结合BERT语义表征的TTS系统、以及基于LSTM网络增强语义表征的TTS系统,所提方法均有更好的性能表现、能够进一步改善合成语音的自然度和表现力。
所提方法的主要框架
“ 合成样例抢先听
05
Paper
Content-Dependent Fine-Grained Speaker Embedding for Zero-Shot Speaker Adaptation in Text-to-Speech Synthesis
作者:Yixuan Zhou, Changhe Song, Xiang Li, Luwen Zhang, Zhiyong Wu, Yanyao Bian, Dan Su, Helen Meng
合作单位:腾讯AI Lab、香港中文大学
论文主要创新点:零样本说话人自适应(zero-shot speaker adaptation)旨在根据任意一条参考语音(reference speech)合成训练过程中从未见过的说话人(unseen speaker)的声音。本文针对该问题提出了一种内容相关的细粒度说话人表征方案。与以往的工作相比,该方法根据输入待合成文本的实际发音内容从参考语音中提取音素级说话人表征序列,代替传统的全局/话语级单一说话人表征向量,以建模和迁移目标说话人更加细节的发音风格和口音特点。具体而言,该方法首先通过下采样编码器从参考语音中提取一组成对的局部内容表征和局部说话人表征;然后,基于TTS模型音素编码器输出(来自待合成文本)和局部内容表征(来自参考语音)的内容相关性,采用一个参考注意力模块获取与文本内容匹配的音素级细粒度说话人表征序列,并将其作用到音素编码器输出的序列上;此外,为了避免参考注意力模块误建模文本与音频的时序相关性,在训练时引入对参考语音梅尔谱按音素边界分割、随机打乱重排的操作。在AISHELL-3中文多说话人数据集上进行实验,主观和客观实验结果均表明所提方法相比于基线模型能够提升合成语音的说话人声音相似度,在unseen speaker上效果更为显著。
所提模型的基本结构
“ 合成样例抢先听
06
Paper
Towards Improving the Expressiveness of Singing Voice Synthesis with BERT Derived Semantic Information
作者:Shaohuan Zhou, Shun Lei, Weiya You, Deyi Tuo, Yuren You, Zhiyong Wu, Shiyin Kang, Helen Meng
合作单位:虎牙科技有限公司、元象XVerse、香港中文大学
论文主要创新点:本文提出了一个端到端的高质量中文歌声合成(SVS)模型,使用基于BERT所提取的歌词语义信息来提高合成歌声的表现力。基于近期所提出的VISinger的主要架构,我们的模型提出了几个进一步的改进方案,以增强合成歌声的表现力。首先,与现有的SVS模型不同,我们的模型引入了基于BERT的语义提取模块,用于从歌词中提取出语义信息,以帮助模型在生成歌声时更切合语义表达的需求。其次,模型还进一步引入了一个能量预测器,在稳定合成歌声的同时,能对大范围的能量变化进行建模,以生成更贴合真实能量分布(如渐变)的歌声。最后,为了减少模型的跑调问题、提高模型合成音高的准确性,我们重新设计了音高预测器,该预测器预测歌声的唱腔音高与乐谱音高的比值,而非直接预测唱腔音高。客观和主观的实验结果都表明,本文所提的SVS模型可以产生比VISinger更高质量、更有表现力的歌声,且上述三个模块均有助于提升歌声的表现力。
所提方法的基本结构
“ 合成样例抢先听
07
Paper
Improving Mandarin Prosodic Structure Prediction with Multi-level Contextual Information
作者:Jie Chen, Changhe Song, Deyi Tuo, Xixin Wu, Shiyin Kang, Zhiyong Wu, Helen Meng
合作单位:虎牙科技有限公司、元象Xverse、香港中文大学
论文主要创新点:本文针对韵律结构预测任务提出了一种利用多层级上下文信息提高韵律结构预测性能的方法。与以往工作相比,该方法在预测给定语句的韵律结构时,不仅利用了当前待预测语句的文本信息,还利用了来自上下文中其他语句的文本信息。给定当前语句及其上下文,该方法首先使用BERT语义提取模块获取每个语句的语义信息。之后该方法通过一个层级编码器从文本的字符层级、句子层级及篇章层级分别提取每个语句的字符表示、每个语句的句子表示以及包含了来自上下文其他语句语义信息的篇章表示。字符表示、句子表示和篇章表示共同构成了多层级上下文信息。最后,一个多任务学习解码器负责使用多层级上下文信息预测韵律结构。客观实验和主观实验表明,相较以往工作,本文所提出的方法不仅能够提高韵律结构预测的性能,还可以帮助语音合成模型合成更加自然的语音。
所提方法的主要框架结构
“ 合成样例抢先听
08
Paper
Speech Representation Disentanglement with Adversarial Mutual Information Learning for One-shot Voice Conversion
作者:Sicheng Yang*, Methawee Tantrawenith*, Haolin Zhuang*, Zhiyong Wu, Aolan Sun, Jianzong Wang, Ning Cheng, Huaizhen Tang, Xintao Zhao, Jie Wang, Helen Meng
合作单位:平安科技、香港中文大学
论文主要创新点:本文提出基于对抗互信息(Adversarial Mutual Information)学习特征解耦的零样本语音转换模型。针对韵律、音高、内容和音色四个表征,该模型首先对音高和内容编码器采用随机重采样(Random Resample)消除时间信息,并使用变异对数上界(Variational Contrastive Log-ratio Upper Bound,VCLUB)和梯度反转层(GRL)进行对抗性互信息学习——普通分类器C1和基于GRL的分类器C2可以将说话人信息和说话人无关的信息分开,VCLUB能够进一步解耦说话人无关的韵律、音高、内容表征,同时采用音高解码器重建归一化音高轮廓曲线,能够确保隐空间解耦的不同特征只包含相应的表征信息。在VCTK数据集上的实验表明,该模型在自然性和可懂度方面达到了最优(SOTA)的零样本语音转换性能。此外,我们还可以通过语音表征的解耦,分别在音色、音高和韵律上进行零样本语音转换。
所提模型的基本框架
“ 合成样例抢先听
09
Paper
MFA-Conformer: Multi-scale Feature Aggregation Conformer for Automatic Speaker Verification
作者:Yang Zhang, Zhiqiang Lv, Haibin Wu, Shanshan Zhang, Pengfei Hu, Zhiyong Wu , Hung-yi Lee , Helen Meng
合作单位:腾讯TEG AI、台湾大学、香港中文大学
论文主要创新点:本文提出了一个简单高效、容易实现的新型声纹识别网络结构:MFA-Coformer。该网络的最好实验结果在Voxceleb1-O, SITW-dev, SITW这三个主流的声纹测评集上分别取得了0.64%、 1.29%、1.63%的等错误率(Equal Error Rate, EER)。MFA-Conformer的设计主要受到最近端到端语音识别网络(Conformer)和说话人识别网络(ECAPA-TDNN)的启发:其首先使用一个卷积降采样模块对输入的声学特征进行降采样,从而降低模型运算量;随后使用多个不同的Conformer块进行局部特征和全局特征的学习;最后将不同Conformer块之间的输出进行拼接,并通过一个注意力统计池化层(Attentive Statistics Pooling)提取说话人表征。实验表明,与目前主流的声纹识别网络结构ECAPA-TDNN相比,本文所提出的MFA-Conformer在识别性能和推理速度上都有大幅提升。
MFA-Conformer的基本模型架构
“ 实验代码抢先下
10
Paper
Speech Enhancement with Fullband-Subband Cross-Attention Network
作者:Jun Chen, Wei Rao, Zilin Wang, Zhiyong Wu, Yannan Wang, Tao Yu, Shidong Shang, Helen Meng
合作单位:腾讯Ethereal Audio Lab、香港中文大学
论文主要创新点:FullSubNet通过同时利用全带和子带信息,在语音增强方面展现出了良好的性能。然而,FullSubNet中全带和子带之间的关系是通过简单地拼接全带模型的输出和子带单元(subband units)来实现的。这种拼接方法只为子带单元补充了少量的全局频谱信息,缺乏全带信息和子带信息之间的交互。在本文中,我们提出了一个全带-子带交叉注意(FS-CA)模块来交互融合全局信息和局部信息,并将其应用于FullSubNet。这个新方法被称为FS-CANet。此外,与FullSubNet不同的是,我们所提出的的FS-CANet通过时域卷积网络(TCN)块来优化全带模型,以进一步减少模型大小。在DNS Challenge - Interspeech 2021数据集上的实验结果表明,我们所提出的的FS-CANet优于其他最先进的语音增强方法,取得了最好(SOTA)的性能,说明了全带-子带交叉注意力机制的有效性。
FS-CANet的主要框架图
“ 增强样例抢先听
扫码关注
欢迎了解更多清华大学人机语音交互实验室(THUHCSI)的最新研究成果、新闻动态和活动信息。