Interspeech 2019 | 从顶会看语音技术的发展趋势 02

Original 滴滴语音滴滴科技合作 2021-09-05

语音领域顶级学术会议 Interspeech 2019 于 9 月 15-19 日在奥地利格拉茨Graz举行。

技术小编小滴将在前方会场带来今年的语音技术发展趋势，本文选取论文仅代表小编个人兴趣。

Interspeech 2019 | 从顶会看语音技术的发展趋势 01

本期小滴将带来9月17日主会议第二天上的说话人识别，语音识别，语音合成，语音翻译这四个方面的解读。

说话人识别

今天的说话人方向的Session相当集中，并且领域涉及广泛。

从上午的“Speaker Recognition 1”，到下午的“Speaker and Language Recognition 1 ”、“ Speaker Recognition Evaluation”，以及Special Session“ASVspoof 2019 Challenge”、“DIHARD II Challenge”，涵盖说话人验证/识别、切分及反作弊等方向。Survey Talk由昆山杜克大学的李明教授带来，详细介绍了说话人技术从GMM时代一路走来的演进历程。（PPT可登陆 http://sites.duke.edu/dkusmiip 查看）

说话人技术经历深度学习带来的性能飞跃后，在模型结构、损失函数等方面的探讨已经较为成熟，以TDNN、ResNet加上LMCL、ArcFace的主流模型开始不断刷新各数据集的性能上限。

此时，模型以外的因素逐渐成为制约说话人系统的瓶颈。

本届Interspeech中，研究者们尝试进一步探讨提升训练效率的方式，如“Multi-Task Learning with High-Order Statistics for x-Vector Based Text-Independent Speaker Verification”尝试使用MTL有效利用无监督数据；“Data Augmentation Using Variational Autoencoder for Embedding Based Speaker Verification”使用VAE替代GAN生成说话人嵌入以增强PLDA性能。

模型方向的研究，除了对现有模型结构的继续探索和不断完善，“RawNet: Advanced End-to-End Deep Neural Network Using Raw Waveforms for Text-Independent Speaker Verification”这篇颇有意思，探索直接从Raw Waveform进行说话人识别。在论文中作者并没有对比SincNet，而在QA环节中提到RawNet比SincNet性能更好。

当然，说话人技术目前也逐渐暴露出与人脸识别同样的易受攻击的问题。因此，ASVspoof这样的Challenge从2015年起就开始关注声纹反作弊问题。相信随着此类研究的不断深入，结合声纹系统的性能提升，声纹将有望变成我们的“声音身份证”。

语音识别

针对语音识别方向，9月17日有好几个相关的session，涵盖了非常丰富的语音识别的各个方向，例如远场语音识别（far-field ASR），模型结构（ASR network architecture），模型训练（model training for ASR），跨语种或者多语种语音识别（cross-lingual and multi-lingual ASR）以及一些端到端语音识别（end-to-end ASR）等。

在这里只是简单选取了几篇小编觉得感兴趣的文章与大家分享。

首先Cambridge和RWTH的研究者在论文Multi-Span Acoustic Modelling using Raw Waveform Signals展现了其在基于原始waveform数据上直接进行ASR声学建模的探索。目前主流的语音识别系统的输入特征一般都是基于FBANK实现的，研究者们也一直在探索如何能够基于最原始的输入以达到更好的结果。在该论文中，Multi-Span结构的CNN作为了抽取特征的基本方案，其中可以认为是采用了不同时间尺度分辨率的CNN结构来捕捉waveform中的相关信息，某种程度上与基于多个频率子带的FBANK有相通之处。

该论文在CHiME4和AMI 两个数据库上做了实验，取得了相对FBANK较好的结果。回过头来看，从最初Deep Learning引入到语音识别后，研究者们就都一直在探索着End-to-end的主题：在靠近输出端，从HMM结构，到CTC结构，再到Sequence-to-Sequence结构；在靠近输入端，从MFCC特征，到FBANK特征。虽然FBANK是一个handcrafted的特征，但依然是目前大部分系统的主流，因而近几年一直都会有相关论文在探索如何使得waveform直接作为输入特征。

微软的研究者们在论文Acoustic-to-Phrase Models for Speech Recognition中探讨了将短语作为ASR声学建模的相关实验结果。随着端对端建模方法的普及，更大尺度的建模单元在一些情况下也逐步呈现出了更好的识别性能。回顾来看，从最初的CD-Phone，到后来sub-words，再后来word，乃至于这篇论文中所探讨的phrase。

从论文结果中可以看到一个非常有意思的点，在采用Phrase作为建模单元时，CTC算法并没有能够学习到较好的性能，而Sequence-to-Sequence结构却能够学习到一个比较稳定的性能。

来自IRIT的Abdelwahab Heba等人在文章“Char+CV-CTC: combining graphemes and consonant/vowel units for CTC-based ASR using Multitask Learning”中，使用多任务学习的方法，同时使用字位和CV来作为CTC模型的建模单元。并在论文中采用了3中方法来使用这两种建模单元进行多任务学习。实验结果表明，这种ASR训练方法能有效地提升识别精度。

在多语种ASR任务上，Google的Anjuli Kannan等人在文章“Large-Scale Multilingual Speech Recognition with a Streaming End-to-End Model”中提出了一种流式的多语种识别系统。

该系统基于RNN-T模型，探索了加入语言相关向量、数据采样、转换等各种方法。最终在各语种的语音识别率上都取得了极大的提升。

语音合成

今年的Interspeech上，端到端TTS继续是语音合成方向研究的主流和热点。

中科院的Yibin Zheng等人在“Forward-Backward Decoding for Regularizing End-to-End TTS”中，创新性的提出了一种在Decoder部分使用前向-后向解码的方法。

此方法在训练过程中，Encoder的信息同时输入前向和后向两个Decoder，同时联合前后向两个Decoder的输出来控制训练。而在推理阶段，只需要使用其中一个Decoder的输出信息。实验结果表明，此方法能较好的提升合成语音质量。

BME的Sevinj Yolchuyeva等人的工作“Transformer based Grapheme-to-Phoneme Conversion”，使用Transformer来构建语音合成文本分析模块G2P(Grapheme-to-Phoneme)。

该端到端Transformer G2P模型不仅能取得更好的精度，并且具有模型小、效率高等特点。

语音翻译

语音翻译也是今年Interspeech重点关注的方向之一。语音翻译（Speech Translation）包括语音到文本的翻译，语音到语音的翻译两个子任务。在此次会议上，端到端的语音翻译的方法成为了新的研究热点，其性能已经接近基于Cascade的方法。

Maastricht University的Jan Niehues带来了语音到文本翻译的综述，首先介绍了语音翻译的应用场景和技术难点，然后介绍了常见的基于Cascade（语音到文本的识别，文本到文本的翻译）的语音翻译的方法，以及端到端的语音翻译的方法。

百度和中科院自动化所的研究者在“End-to-End Speech Translation with Knowledge Distillation”提出通过知识蒸馏（Knowledge distillation）来迁移预训练的文本翻译模型，从而提高端到端语音翻译的方法。该方法在LibriSpeech数据集上相比其他算法提升了3.7的BLEU值。

来自Google的Ye Jia等人在“Direct speech-to-speech translation with a sequence-to-sequence model”中，提出了基于sequence-to-sequence框架的语音到语音的翻译模型。通过实验发现，该方法在Fishers数据集上取得了接近基于Cascade的方法（语音到文本的翻译，文本到语音的合成）的性能。

编辑 | 大橙子

相关阅读

Interspeech 2019 | 从顶会看语音技术的发展趋势 01

【“群雁计划”解读第05期】滴滴AI服务与能力开放（一）

小桔人北欧行——滴滴亮相国际语音顶会Interspeech 2017

滴滴开源DELTA :AI开发者可轻松训练自然语言模型