Interspeech 2020 | 滴滴:Workshop预告与4篇入选论文亮点速读
Interspeech是由国际语音通信协会ISCA组织的语音研究领域的顶级会议之一,是全球最大的综合性语音信号处理领域的科技盛会。受到新冠疫情的影响,预计于2020年10月25日至10月29日在中国上海+线上同步举行的大会最终改为线上举行。但作为语音领域的国际顶级会议,即使受此影响,Interspeech大会今年却依旧创纪录的收获了超过3000篇论文的投稿并最终接收了约1500篇优秀论文。
01移动交通系统语音交互Workshop
本次大会,滴滴出行、天津大学和昆山杜克大学共同承办了Interspeech“移动交通系统语音交互”Workshop。该Workshop着眼于交通出行场景下语音交互如何赋能智慧出行、高效出行。
目前Workshop正在征集优秀的论文,投稿将提前获得脱敏语音合成数据集的福利。本次Workshop投稿截止到9月4日,欢迎对该领域感兴趣的学者踊跃投稿(投稿地址:https://outreach.didichuxing.com/internationalconference/interspeech2020/),点击文末“阅读原文”进入官网获得更多消息。
02 滴滴论文亮点速读
今年,滴滴共有4篇论文脱颖而出,入选本次大会。这4篇论文分别在语音增强、语音分离、回声消除、场景感知对话等场景下进行了探究。本文将向大家分享这4篇论文的创新点与主要思路。
1
探索基于生成对抗网络的语音增强系统中的
损失函数和循环结构的影响
On Loss Functions and Recurrency
Training for GAN-based Speech
Enhancement Systems
本文主要探索了对抗网络在语音增强方面的应用。与现有的基于GAN的语音增强网络相比,我们所提出的Convolutional Recurrent GAN(CRGAN)在多个客观指标(PESQ,STOI,CSIG,CBAK,以及COVL)中都取得了最优表现。
本文还探索了不同损失函数(包括Wasserstein Loss, Relativistic Loss和Metric Loss)以及网络结构对语音增强对抗神经网络的影响。实验结果表明Metric Loss可搭配CRGAN取得最佳表现,在额外引入MSE Loss之后,可在多个指标中得到进一步提升。同时,研究结果表明,CRGAN生成器中encoder与decoder之间的recurrent layer至关重要。在不包含recurrent layer的情况下,模型表现在所有客观指标中都有较大幅度的下降。另外,CRGAN在与其他非对抗网络(CNN, convolutional recurrent network, LSTM, Bi-LSTM)相比,也取得了更优的成绩。
2
Conv-TasSAN: 基于Conv-TasNet的
分离对抗网络
Conv-TasSAN: Separative Adversarial
Network based on Conv-TasNet
本文主要研究了对抗网络在语音分离方面的应用。近几年,端到端语音分离技术取得了良好的性能,Conv-TasNet是其中经典的算法之一。而GAN的判别器能够对数据的真实分布进行高维抽象建模,在一定程度上克服过拟合问题和传统的loss对数据的强假设的限制。在本篇论文中,我们通过将MetricGAN的训练机制引入到分离网络中,得到分离对抗网络。这种训练机制使得在同样的时域分离网络结构下的分离性能进一步提升,尤其是语音的客观评价指标。
图1 Conv-TasSAN 的框架
Conv-TasSAN由分离器和判别器构成。分离器由Conv-TasNet构成,判别器由encoder和TCN构成。以两个说话人混合的语音为例:训练判别器时,判别器的Loss为分离器分离的两路信号的真实打分(PESQ或者STOI)与判别器估计的打分的欧式距离;训练分离器时,混合语音通过分离器得到两路信号,通过计算SI-SNR得到SI-SNR Loss和正确的源信号排序,再将重排后的干净语音和分离器输出的语音输入到判别器中,将与理想打分之间的差距作为判别器的Loss,将两者进行加权叠加得到分离器的Loss。实验表明,将PESQ或者STOI作为判别器的学习目标,引入分离对抗训练机制,可以进一步提高分离器对源信号建模的准确性,从而提高分离性能。在同样的分离网络下,引入分离对抗训练机制的模型能够比基准分离模型SI-SNR绝对提升0.7dB,PESQ绝对提升0.1。
3
基于生成对抗网络的声学回声消除技术
Generative Adversarial Network based Acoustic Echo Cancellation
本文将生成对抗网络应用在回声消除任务中,在线性以及非线性回声场景中均取得良好的回声抑制效果和较小目标语音失真,且对于训练和测试任务中信号回声比(Signal-to-Echo-Ratio,SER)和房间冲激响应(room impulse response,RIR)不匹配的情况有较好的鲁棒性。并且,在训练中采用多个损失函数可以增加系统在回声消除中的灵活性,即找到合适的回声抑制与目标失真的折中点。
本文针对声音语谱图的特性使用基于卷积循环网络的生成对抗模型。生成器的输入为麦克风信号与参考信号的幅度谱,输出则是预测的目标信号的掩模(mask)。判别器的结构与生成器的encoder类似,其输入为增强信号与目标信号,输出为[0,1]区间的度量损失分数(metric loss score),本文中使用的指标为perceptual evaluation of speech quality (PESQ)和echo return loss enhancement (ERLE)。
实验结果证明,本文的方法在线性与非线性回声环境中均取得良好结果,且对于训练数据与测试数据不匹配的情况有一定的鲁棒性。另外,通过调整判别器中不同度量损失的权重配比,可以灵活控制系统的针对性,找到合适的折中点。
4
TMT:基于Transformer的模态翻译器
用于提升视听场景感知对话中的多模态表达
TMT: A Transformer-based Modal Translator for Improving Multimodal Sequence Representations in Audio Visual Scene-aware Dialog
视听场景感知对话是一项能根据环境对象或事件的改变进行自然语言对话的系统。不同于传统的对话系统,该系统在对话过程中会根据多个模态信息,例如:视觉,听觉以及对话内容等,综合生成符合真实环境的对话。但是,独立学习单模态并不能充分表达出模态中包含的信息。
受神经机器翻译(NMT)的启发,本文提出了一种基于Transformer的模态翻译器(TMT),通过将源模态序列翻译为目标模态序列来学习源模态序列的表达。基于TMT生成的模态表达不仅考虑了源模态的信息,还会根据其他相关的模态的信息增强源模态信息的表达。本文将TMT分别应用于多模态对话系统中的视觉和对话文本两个模态上,在第七届对话系统技术挑战赛的视听场景感知对话任务上,在“视频和文本”和“纯文本”两个任务中均胜过最优模型(Moltimodal Transformer Network,MTN)。本文提出的视听场景感知对话系统提升了任务的所有指标,尤其是在指标CIDEr上相对提高了14.1%。
03 更多福利
扫描下方二维码
添加小助手为微信好友
回复“语音”
小助手拉你进入滴滴语音交流群
更多活动资讯与福利尽在群内
欢迎大家关注!
推荐阅读