Interspeech 2019 | 从顶会看语音技术的发展趋势 03
语音领域顶级学术会议 Interspeech 2019 于 9 月 15-19 日在奥地利格拉茨Graz举行。
技术小编小滴将在前方会场每天带来今年的语音技术发展趋势。
系列目录:
Interspeech 2019 | 从顶会看语音技术的发展趋势 01
Interspeech 2019 | 从顶会看语音技术的发展趋势 02
今天将带来9月18日上的语音识别,说话人识别,语音模型这三个方面的解读,本文选取论文仅代表小编个人兴趣。
语音识别
9月18日的语音识别相关Session涵盖了模型训练(Training),结构(NN Architecture),特征(Feature Extraction)以及系统(Rich Transcription and Systems)等。
在NN Architecture中,Google的研究者们在论文Two-pass End-to-End Speech Recognition中提出了一个Two-pass的语音识别结构。
在该结构中,有一个RNN-T结构完成第一遍的解码,而外又加入了LAS作为第二遍解码(Rescoring)。在论文的实验结果中,对比了Finetune对模型的性能影响,对比了Rescoring的带来的收益,对比了二遍解码时N-best Rescoring和Lattice Rescoring所带来的解码延时的差异,对比了二遍解码时Beam Size对性能的影响,此外也验证了MWER的区分度训练对系统的性能提升。
该论文中的工作关注的是如何搭建一个性能较好的端对端流式的且低延时的语音识别系统,所以在论文中还专门与Google的另外一个LFR的系统性能做了Side-by-side的人工标注对比。从整篇论文中,可以看到,通过引入的这个LAS,论文中的结果也展现出了基于RNN-T系统显著的性能提升,但依然还有很多细节值得进一步探索。
此外,在主会第二天的论文中有一篇工作和Two-pass end-to-end speech recognition工作有一些相似点,也就是来自Alibaba的研究者们的论文Investigation of Transformer based Spelling Correction Model for CTC-based End-to-End Mandarin Speech Recognition。在该论文中,在CTC一遍解码之后,加入了一个Transformer网络实现rescoring。
该工作中,两遍解码的神经网络模型相对独立。第二遍解码(Speller)时,直接以一遍解码的Nbest作为输入,标注文本作为输出。这个Speller更像是一个基于Nbest结果的纠错系统,而不是rescoring。
在9月18日语音识别特征研究的Session中,来自Facebook的研究者们发表了论文wav2vec: Unsupervised Pre-training for Speech Recognition。该论文和很多其他论文一样,很早以前就已经放到了arxiv平台上,现场在作者展示该论文工作时也得到很多的关注。
论文中的idea比较直接,也期望像在NLP领域一样,无监督地学习到一个embedding,作为在特定任务中的模型训练时的Pretraining。在该论文中,引入了一个相对简单的模型结构来实现pretraining,并在在WSJ和TIMIT两个任务中,都展示出基于Librispeech数据库做的Pretraining能带来一定程度的性能提升。
Google的Daniel S. Park等人的文章“SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition”提出了一种可广泛应用于语音识别任务的简单有效地数据增强方法。
论文中提出了时间弯折、频域掩蔽、时间维度上掩蔽、频率维度上掩蔽等方法。
该方法在LibriSpeech和Switchboard等识别任务上大幅提升了语音识别率。
LEAP的Purvi Agrawal等人的文章“Unsupervised Raw Waveform Representation Learning for ASR”提出了一种无监督的语音表示学习方法。
该系统基于原始波形使用CVAE来学习声学滤波器组,同时通过调制滤波层调制滤波器。此系统采用数据驱动的方法,学习到数据和任务相关的特征表示,得到的特征更能体现数据的特性。在干净及带噪等各种场景下识别性能都有大幅度的提升。
说话人识别
深度学习为说话人技术带来了前所未有的机遇,而研究者们在不断拓展新算法的边界的同时,也在回顾传统方法仍然具备的价值。
在18日的说话人session中,涌现出了许多诸如“Large Margin Softmax Loss for Speaker Verification”、“Deep Speaker Embedding Extraction with Channel-Wise Feature Responses and Additive Supervision Softmax Loss Function”等研究说话人模型与损失函数的工作,大多基于最近比较火的各种Margin Loss。
其中“Large Margin Softmax Loss”这篇研究使用AMSoftmax,在一个公式中统一了多种margin项:
其中不同的margin定义为:
并引入两种辅助损失:Ring Loss来约束embedding模值;MHE使weight尽可能在超球面中均匀分布,从而提升类间可分性。研究在Kaldi VoxCeleb Recipe的基础上得到了EER 2.00的显著性能提升:
“Tied Mixture of Factor Analyzers Layer to Combine Frame Level Representations in Neural Speaker Embeddings”这篇也值得一看:在Statistical Pooling与Attention大行其道的当下,使用看起来很复古的因子分解Pooling层实在有趣。论文解决的关键问题是如何让该层可导。
诚然,经典的i-vector算法在性能上已然锋芒不再,但其在训练UBM、TVM时可以使用无标注数据的优势依然是相比深度模型的一大优势。“Self-supervised speaker embeddings”试图为深度模型带来处理无标注数据的能力。通过加入一个辅助模型,借助ASR系统输出的音子串来重构输入特征,使模型能够在少量甚至完全没有说话人标注的情况下依然具备区分性。模型结构如下:
这篇研究与9月17日(昨日)的“Multi-Task Learning with High-Order Statistics for x-Vector Based Text-Independent Speaker Verification”思路相似,虽然后者用MTL重构特征统计量而非原始特征,但仍可谓异曲同工。此外,音子信息一直是说话人技术中的重要特征之一,从DNN-ivector到昨日的“On the Usage of Phonetic Information for Text-independent Speaker Embedding Extraction”,以及这篇研究,研究者们也在探索更充分利用音子信息的方法。
在算法研究之余值得注意的是,随着欧盟GDPR对互联网产业影响的不断加深,以及人们对个人隐私保护意识的逐步强化,本届Interspeech也探讨了在说话人识别技术中如何保护个人隐私。
昨日的综述“Survey Talk: Preserving Privacy in Speaker and Speech Characterisation”,及今日的“Privacy-Preserving Speaker Recognition with Cohort Score Normalisation”,无不在强调这一点。
语言模型
在此次会议上,语言模型(Language Model)的研究热点主要包括NLP模型的迁移,低频单词的表示,以及深层Transformer等。
ESAT – PSI和苹果的研究者在“Reverse Transfer Learning: Can Word Embeddings Trained for Different NLP Tasks Improve Neural Language Models?”分析迁移不同的NLP模型对于语言模型的性能的影响,实验结果表明迁移任务相似的NLP模型(word2vec,双向语言模型)性能最好。
南洋理工大学的研究者在“Enriching Rare Word Representations in Neural Language Models by Embedding Matrix Augmentation”提出用语义和语法相似的单词的词向量来表示低频单词。该方法在在ASR数据集(新加坡-英语)取得了最好的结果。
亚琛工业大学的研究者在“Language Modeling with Deep Transformers”分析基于深层自回归的Transformer的语言模型性能,实验结果表明其性能(PPL,WER)是优于基于LSTM的语言模型。
编辑 | 龚诚
技术鸣谢 | 滴滴AI Labs - 李先刚,邹伟,彭一平,徐海洋
Interspeech 2019 | 从顶会看语音技术的发展趋势 01
Interspeech 2019 | 从顶会看语音技术的发展趋势 02