ICASSP2018 | 思必驰-上海交大实验室发表14篇论文,专注语音语言创国内第一
为期5天ICASSP 2018,已于当地时间 4 月 20日在加拿大卡尔加里(Calgary)正式落下帷幕。ICASSP全称International Conference on Acoustics, Speech and Signal Processing(国际声学、语音与信号处理会议),是由IEEE主办的全世界最大的,也是最全面的信号处理及其应用方面的顶级学术会议。今年ICASSP的大会主题是“Signal Processing and Artificial Intelligence: Challenges and Opportunities”,共收到论文投稿2830篇,最终接受论文1406篇。其中,思必驰-上海交大智能人机交互联合实验室最终发表论文14篇,创国内之最。
14篇论文内容简单概述如下:
1、《抗噪鲁棒语音识别在Aurora4基准上的机器与人类对比》
Noise Robust Speech Recognition on Aurora4 by Humans and Machines.
By Yanmin Qian, Tian Tan, Hu Hu and Qi Liu.
本篇paper已发表在2018年的IEEE/ACM TASLP上,感兴趣的朋友可关注如下信息:
Adaptive very deep convolutional residual network for noise robust speech recognition. IEEE/ACM Transactions on Audio, Speech, and Language Processing.
By Tian Tan, Yanmin Qian, Hu Hu, Ying Zhou, Wen Ding, Kai Yu.
DOI: 10.1109/TASLP.2018.2825432,2018.
噪声环境下的语音识别一直是一个巨大挑战。在我们实验室之前开发的极深卷积神经网络VDCNN基础上,通过引入残差学习得到VDCRN模型以进一步提升模型鲁棒性,同时在VDCRN模型上开发聚类自适应训练方法来减少模型在噪声环境下的训练和测试间失配。此外,还使用基于未来信息预测向量的新型LSTM-RNN LM来改善系统性能。最终所开发的抗噪语音识别系统,在噪声标准数据集Aurora4上达到了3.09%的词错误率,也是目前在此任务上报道的最好结果。经过分析对比,这个错误率已经非常接近真实人类在这个任务上的性能,在抗噪鲁棒语音识别研究上具有里程碑意义。
图1:极深卷积残差神经网络结构图VDCRN
图2 CAT-VDCRN上聚类自适应训练,包括以特征图为基和卷积核为基
图3:不同系统下的WER(错词率)比较
如上图,我们的5-gram+LSTM+FV-LSTM的错词率已经与人类真实情况非常接近。
2、基于Focal-KLD空洞卷积神经网络模型的单信道多说话人识别
Focal KL-Divergence based Dilated Convolutional Neural Networks for Co-Channel Speaker Identification.
By Shuai Wang, Yanmin Qian and Kai Yu.
本篇paper获得IEEE N.Ramaswamy Memorial Student Travel Grant奖项,今年仅2篇论文获得该奖项。在2017年9月,思必驰曾两次登上大型人工智能科普类节目《机智过人》,其中一期展示的是声纹识别技术(声纹识别 |“小思”PK霍尊辨识小青衣,这是来自人工智能的暴击!),而这一片论文,则是对该技术的详细剖析。
单通道多说话人识别目的在于识别出一段有语音重叠的所有说话人,这也是著名的“鸡尾酒问题”的一个子问题。我们针对基于神经网络的单通道多说话人识别框架进行了多种改进:
1)采用空洞卷积学习到更鲁棒、区分性更好的深度特征。
2) 提出了Focal-KLD 使得训练过程中给与hard samples 更多的权重。
3)提出了一种后处理方法来将帧级别的预测汇总为句子级别的预测。实验结果表明我们提出的系统相对于基线系统取得了明显的性能提升,在两个说话人情况下达到92.47%的正确率,三个说话人时正确率为55.83%。
图4:基于RSR 数据库的人工混合的单信道多说话人数据
3、用于自适应波束成形的结合神经网络与聚类方法的鲁棒隐蔽值估计
Robust Mask Estimation by Integrating Neural Network-based and Clustering-based Approaches for Adaptive Acoustic Beamforming.
By Ying Zhou, Yanmin Qian.
思必驰拥有国内非常领先的前端声学处理能力,在多麦阵列和前端信号处理、asr方面均有不错的表现。在前端做了说话人自适应,后端辅以声学模型的自适应,在不同环境下不同说话人的识别结果有提高。目前思必驰阵列方案包括线性四麦、双麦等方案,成为联想电视、熊猫电视、阿里天猫精灵、腾讯听听等智能终端设备的共同选择。
基于隐蔽值(mask-based)的波束形成(beamforming)方法现在在多通道噪声鲁棒自动语音识别研究中受到了广泛的关注。在已有的mask估计模型中,基于神经网络mask估计方法有较好的性能,但是这种方法由于需要仿真的数据进行训练,因此在真实应用场景下存在着训练与测试不匹配的问题。本文针对这个问题,提出了一个新的非监督框架,利用复数混合高斯模型(CGMM,Complex Gaussian mixture model),估计真实无标签数据的软标签,使得真实数据可以用于mask 神经网络的训练;除此以外,利用复数混合高斯模型,本文将说话人自适应技术从后端的声学模型建模引入到基于mask估计的波束形成技术,实现了一个说话人相关的波束形成技术。我们提出的方法在CHIME-4数据集上进行了验证,实验结果可以发现,在真实带噪的测试条件下,语音识别性能有明显提升,这种基于非监督方法的神经网络mask波束形成技术可以显著减小训练与测试的不匹配问题。
图5:不同方法进行自适应的错词率结果
如上图,引入了说话人相关参数的自适应方法进一步降低了几乎所有集合的识别错误率。经过这两个方法优化之后最终得到最好的结果比BLSTM-IBM系统提升了近15%。
图6:前端mask神经网络与后端声学模型的自适应结合情况下的错词率情况
如上图,即使前端做了说话人自适应,后端声学模型的自适应仍旧有效。我们提出的与复数混合高斯模型结合的神经网络mask估计框架,由于引入了真实的训练数据可以有效减小仿真与实际环境的不匹配情况,并且由于加入了说话人自适应技术,可以针对特定的说话人得到更好的多麦降噪以及识别效果。
4、用对抗多任务学习的口语语义理解半监督训练方法
Semi-Supervised Training Using Adversarial Multi-Task Learning For Spoken Language Understanding.
By Ouyu Lan, Su Zhu, Kai Yu.
口语语义理解(Spoken Language Understanding, SLU)通常需要在收集的数据集上进行人工语义标注。为了更好地将无标注数据用于SLU任务,我们提出了一种针对SLU半监督训练的对抗对任务学习方法,把一个双向语言模型和语义标注模型结合在一起,这就减轻了对标注数据的依赖性。作为第二目标,双向语言模型被用于从大量未标注数据中学习广泛的无监督知识,从而提高语义标注模型在测试数据上的性能。我们为两个任务构建了一个共享空间,并为每个任务分别构建了独立私有空间。此外,对抗任务判别器也被用于获取更多任务无关的共享信息。在实验中,我们提出的方法在ATIS数据集上达到了最好的性能,并在LARGE数据集上显著提高了半监督学习性能。我们的模型使得语义标注模型更具一般性,且当标注数据显著多余无标注数据时,半监督学习方法更加有效。
图7:在不同数据集下的不同任务模型的实验结果
如上图,我们提出的BSPM和BSPM+D始终比其他方法取得更好的性能结果。与传统STM相比,我们的方法在全部数据集上显著提高99.9%。与简单多任务模型MTLe相比,我们的方法在5k数据集上提升99.9%,在10k数据集上提升99.5%。与PSEUDO方法相比,在5k和10k数据集上提升99.8%,在15k数据集上提升95%。实验表明,当标注数据有限而无标注数据十分充足时,我们的半监督学习模型要更加有效。当语言模型学习无监督知识时,共享-私有框架和对抗训练使得语义标注模型泛化,在未见过的数据上表现更好。
5、基于深度强化学习的对话管理中的策略自适应
Policy Adaption For Deep Reinforcement Learning-Based Dialogue Management.
By Lu Chen, Cheng Chang, Zhi Chen, Bowen Tan, Milica Gasic, Kai Yu.
对话策略优化是统计对话管理的核心。深度强化学习被成功应用于提前定义好的固定领域中,但是当领域动态发生变化,例如有新的语义槽被添加到当前领域的本体中,或者策略被迁移到其它领域时,对话状态空间和对话动作集合都会发生变化,因而表示对话策略的神经网络结构也会发生变化。这将使得对话策略的自适应变得十分困难。本文提出一种多智能体对话策略MADP(Multi-Agent Dialogue Policy), 相比于普通的基于深度强化学习的对话策略,MADP不仅学习更快,也更适合于领域扩展和迁移。MADP包括一个语义槽无关的智能体(G-Agent)和一些语义槽相关的智能体(S-Agent)。每个S-Agent除了有私有参数外,还有相互之间共享的参数。当策略进行迁移时,S-Agent中的共享参数和G-Agent中的参数可以直接迁移到新领域中。模拟实验表明MADP可以显著提升对话策略的学习速度,而且有利于策略自适应。
图8:基于DQN的多智能体对话策略(MADQN)
6、单通道多说话人语音识别中基于排列不变训练的知识迁移
Knowledge Transfer in Permutation Invatiant Training for Single-Channel Multi-Talker Speech Recognition.
By Tian Tan, Yanmin Qian and Dong Yu
本文提出了一种结合师生训练TS(teacher-student training)和排列不变性训练PIT(permutation invariant training)的单通道多说话人语音识别的框架。通过使用循序渐进的训练的方法将多个教师的知识进行集成用于进一步完善系统,利用没有标注的数据为多说话者语音识别进行领域自适应。实验表明,TS可以将错词率(WER)相对于基线PIT模型降低了相对20%。我们还在人工混合的WSJ0语料库上进行了评估,相对于使用AMI训练的PIT模型实现了相对30%的WER降低。
7、单通道多说话人语音识别中基于辅助信息的自适应性排列不变训练
Adaptive Permutation Invariant Training with Auxiliary Information for Monaural Multi-Talker Speech Recognition.
By Xuankai Chang, Yanmin Qian and Dong Yu.
本文提出了在之前的PIT语音识别模型上利用辅助信息做说话人自适应,提升单声道多说话人语音识别的性能。利用混合语音的音调和i-vector做为辅助输入,用说话人组合的性别信息做为辅助任务,使用辅助特征和多任务学习方法对置换不变量训练模型进行训练,让语音分离和识别模型自适应于不同的说话人组合。另外,我们使用了CNN-BLSTM模型,结果证明排列不变性训练 (PIT)可以容易地与先进的技术相结合,达到提高性能的目的,最终系统相相对提升10%。
8、基于深度混叠生成网络的声学模型快速自适应方法
Fast Adaptation on Deep Mixture Generative Network based Acoustic Modeling.
By Wen Ding, Tian Tan and Yanmin Qian
深度神经网络的正则化和自适应比较困难。我们深度混合生成网络,提出更高效的自适应方法:首先采用无监督模式提出自适应均值;提出鉴别性线性回归,当缺乏自适应数据时,能够估算出一个更鲁棒的均值。实验表明,我们提出的方法均比说话人无关的基线要好;此外对深度混合生成网络自适应结果的可视化标明,鉴别性线性回归的确帮助了均值从一个全局的点转换到说话人自身的中心点。
9、基于生成对抗网络数据生成的抗噪鲁棒语音识别
Generative Adversarial Networks based Data Augmentation for Noise Robust Speech Recognition.
By Hu Hu, Tian Tan and Yanmin Qian.
我们提出了利用生成对抗网络生成新的训练数据来提升鲁棒语音识别系统识别性能的方法。利用现有噪声数据,通过生成对抗网络生成不带标注的新的训练数据,并提出了一种无监督的训练方法来利用这些数据辅助声学模型的训练。本文在标准噪声数据集Aurara4上获得了较为显著的提升效果。
10、联合i-Vector的端到端短时文本不相关说话人确认
Joint i-Vector with End-to-End System for Short Duration Text-Independent Speaker Verification.
By Zili Huang, Shuai Wang and Yanmin Qian.
我们尝试在基于三元组损失函数的端到端声纹识别系统中引入i-vector嵌入。在短时文本无关任务上取得了31.0%的提升。除此之外,我们提出了困难样本采样的方法提升基于三元组损失函数的端到端声纹识别系统的性能。
11、神经网络语言模型中利用结构化词向量的快速集外词合并
Fast OOV Words Incorporation Using Structured Word Embedding For Neural Network Language Model.
By Ruinian Chen, Kai Yu.
利用句法和形态层面的参数共享来解决神经网络语言模型中的集外词问题。每个词的embedding分成两个部分: syntactic embedding 和 morphological embedding, 而集外词的 syntactic 和 morphological 的信息可以通过知识获得,因此可以利用神经网络中已经训练好的参数,而无需重新训练模型。实验表明我们的模型在 PPL 和 CER 指标上均优于基线模型。
12、基于无监督语音识别错误自适应的鲁棒自然语言理解
Robust Spoken Language Understanding With Unsupervised ASR-Error Adaption.
By Su Zhu, Quyu Lan, Kai Yu.
立足口语对话系统中的语义理解模块,重点解决后端语义理解对于前端语音识别错误的鲁棒性不足的问题。我们利用部分参数共享的BLSTM架构,提出无监督的语音识别错误自适应训练方法来提升语义理解的鲁棒性。本文提出的方法不需要对语音识别结果进行语义标注就可以取得与之匹配的性能水平,可以大大减少人工标注的工作量。
13、音频到词语端到端语音识别中的模块化训练框架
On Modular Training of Neural Acoustics-to- Word Model For LVCSR.
By Zhehuai Chen, Qi Liu, Hao Li, Kai Yu.
传统的端到端系统不能使用文本数据进行训练,导致需要大量标注的声学数据进行训练。我们率先提出模块化的端到端模型训练框架。一个音频到音素的声学模型和一个音素到词语的语言模型分别基于声学和语言数据进行训练,然后进行基于音素同步解码的声学和语言模型联合训练。实验显示,这一框架下训练得到的端到端模型在取得传统系统相似准确率的情况下,大幅降低了推测复杂度。
14、鸡尾酒会的序列建模
Sequence Modeling in Unsupervised Single-Channel Overlapped Speech Recognition.
By Zhehuai Chen, Jasha Droppo.
鸡尾酒会问题的解决需要声学模型具有强大的序列建模能力。我们在训练阶段为PIT模型添加了显式的序列依赖性,将语言模型信息融入PIT模型的组合决策过程中。实验结果显示,这两项技术的加入能够显著提升现有系统的准确率,与序列鉴别性训练和迁移学习相结合,能使最终系统的准确率提升30%以上。
Vista操作系统用了她的语音技术,现在她要帮助更多企业实现智能化