ICASSP 2020 | 回放来咯!Di-Live带你看滴滴论文和语音介绍
5月21日,「Di Live」的顶会顶刊分享系列邀请到滴滴语音团队三位技术专家为大家带来滴滴语音技术概览与ICASSP 2020论文解读。错过的你们也不要担心,本文会有论文的详细介绍和直播的回放,一起点击来看吧~
首先来看看此次直播的一大欢快亮点——滴滴夸~
若想观看回放完整版,请下拉屏幕到底部,获取Di Live B站二维码哟~
ICASSP(International Conference on Acoustics, Speech and Signal Processing)是国际声学、语音与信号处理的顶级会议。今年ICASSP会议因疫情影响线上举行,多位专家,如Li Deng、Yoshua Bengio等,做了在线报告。滴滴语音团队在ICASSP 2020上有两篇论文被录用,以下会对两篇论文展开详细介绍。
论文 1 | 基于图卷积编码器的摘要生成方法
Selective Attention Encoders by Syntactic Graph Convolutional Networks for Document Summarization
关键词:图卷积神经网络,摘要生成
论文地址: https://arxiv.org/abs/2003.08004
生成式的文本摘要是最具挑战性的NLP任务,该任务需要从原始文本中有效的抽取重要信息来生成总结性的摘要。解析原始文本的过程需要解析句法和语义的结构,这两种结构都有益于产生更为准确的摘要。但是,建模每句法树的非线性结构,以及处理包含多个句子和句法树的文档都是非常困难的。
在本篇论文中,我们提出了一种基于图卷积网络的选择性注意力编码器的文档摘要的方法。我们把文档中每个句子的句法树连接起来构建成一个文档级别的图,并用图卷积网络(Graph Convolutional Networks, GCNs)来学习文档的句法和语义信息。此外我们提出选择注意力(Attention)机制来抽取句法和语义上的重要信息,从而产生更为准确的生成式摘要。我们在CNN/Daily Mail摘要数据集评测我们的模型。实验结果表明我们提出的模型在这个数据上取得了当前最好的实验效果。
基于图卷积网络的选择性注意力编码器的文档摘要的方法可以用于辅助客服,主要是客服和用户的通话进行摘要生成。
本文提出的基于图卷积网络的选择性注意力编码器的文档摘要的方法,主要包括语义编码器模块,句法编码器模块,注意力信息选择门,以及解码器模块,具体的模型结构图如上图。
a. 语义编码器模块
我们用BiLSTM对文档基于单词进行高维语义特征表示。
b. 句法编码器模块
我们利用Standford Parser获取每个句子的依存树,然后将相邻的句子的依存树的根节点相连,构建成一个文档级别的图
我们利用GCNs来表示构建的文档结构图, 获取到每个单词的句法特征表示,并且将语义和句法特征表示进行拼接
c. 注意力信息选择门模块
我们使用基于Attention机制的选择门选择出语义和结构上的主要的词来进行解码生成摘要
d. 解码器模块
和之前的工作一样,我们利用Pointer-generator Network和Coverage来缓解UNK和单词重复的问题,以及Bottom-up来缓解倾向于拷贝长句子的问题。
论文在摘要生成的公开数据集CNN/Daily Mail上评测了模型,并用ROUGE进行自动化评测。
通过下表(Table 1),可以看出本文提出的模型的性能在ROUGE-1,ROUGE-2,ROUGE-L上都有显著的提高,证明了该模型的有效性。
此外,为了验证我们模型每个模块的作用,我们也在CNN数据集上做了消融实验,通过下图(Table2),可以看出基于GCNs的结构表示,和attention的信息选择机制都能够有效的提高模型的性能。
论文 2 | 基于整合频谱-空间特征的DNN
掩码(mask)的鲁棒波束形成算法
Dnn-based Mask Estimation Intergrating Spectral and Spatial Features for Robust Beamforming
由于实际声学环境的复杂性,单麦克风已经不能满足我们的需求。麦克风阵列因为携带了更多的空间信息,在噪声抑制、回声抑制、声源定位、盲源分离、波束形成等技术领域上性能在单通道麦克风之上 。
基于DNN(deep neural networks)的时频掩码的波束形成算法在多通道语音增强上展示了良好的性能,是目前此领域最好的算法之一。基于掩码的波束形成算法根据输入特征可以分为基于频谱的方法和基于频谱-空间的方法。基于频谱的方法没有考虑跨信道的空间信息,掩码合并操作起着去除通道间异常值的作用。而现有的基于频谱-空间的方法主要是针对两通道场景没有拓展到其他的多通道场景,并且仍然对估计得到的多通道掩码进行合并操作。然而,我们认为同一麦克风阵列的不同通道不是完全独立的,在掩码估计中不应忽略不同通道上的空间信息。并且,掩码合并操作不能保证多通道掩码估计的准确性。
在本篇论文中,我们提出了基于整合频谱-空间特征的DNN掩码的鲁棒波束形成算法。在公开的含真实噪声的多通道数据集CHiME3的测试集上,语音识别的字错误率(word error rate, WER)相比基于频谱的算法得到了进一步降低。
基于整合频谱-空间特征的DNN掩码的鲁棒波束形成算法可以应用到智能音箱、多通道的司机助手等场景中,因为麦克风阵列是设备中是固定不变的,我们提出的算法能够针对具体的麦克风阵列进一步提高识别性能。
我们提出的整合频谱-空间特征的DNN掩码的鲁棒波束形成算法(简称为2ch_cosIPD)。算法流程很简单:多通道含噪语音先进行特征提取,然后输入到LSTM网络中得到语音和噪声的掩码估计,接着是掩码合并操作,最后通过波束形成模块得到单通道的增强语音。我们的创新点主要在两个方向:特征提取和去除合并操作。首先是特征提取:取其中一个通道为参考通道,其他通道与参考通道的互通道相位差的余弦值即cosIPD和幅度谱进行串联,联合特征放到特征维度上,这样能够尽可以充分利用麦克风阵列的空间信息学习到更准确的掩码。其二,不同于现有大多数方法对掩码进行取中值或者最大值操作,我们对多通道掩码并不进行任何维度或者形式的合并操作以保持不同通道的特异性。将不同通道的掩码乘以相应通道的含噪频谱以获得语音和噪声的空间协方差矩阵,即
其中,m表示第m个通道,IBMNm和IBMXm是语音和噪声的理想二值掩蔽 (ideal binary mask, IBM), 表示矩阵点乘, Y是含噪语音的短时傅里叶变换得到的复数频谱。
在选定cosIPD前,我们对不同的空间特征组合进行了探索。下图是不同的频谱-空间输入特征在交叉验证集上的loss。
从图中,我们可以得到:① 每个通道的幅度谱并不是完全独立的;②整合了空间和频谱的输入特征能够提高掩码估计的准确性;③简单地增加空间特征并不能保证得到更好的性能,2ch_cosIPD是其中表现最好的整合特征。
我们提出了一个简单但是有效的方法将我们的模型从两通道扩展到六通道 (标记为6ch_cosIPD) : 首先是选择通道1作为参考通道,然后将每个通道的幅度谱和各个通道与通道1 的cosIPD进行串联,将网络进行同规模的扩大,最后直接将得到的六通道的掩码直接估计语音和噪声的空间协方差矩阵,最后进行波束形成。
实验结果如下。
首先是不同的噪声类型的WER结果对比,所有的掩码均不采用合并操作。从上图可以看出:WER的结果基本和验证集上的loss成正比,因此整合频谱空间特征确实能够有效提高识别性能。
上面的表格表示的是两种频谱方法在均不采用掩码合并操作的WER结果。可以发现,每个通道独立的算法(single_Mch)对异常值确实非常敏感(通道2较其他通道信噪比低很多,两通道场景中不包括该通道,六通道包括)。合并频谱的算法(connet_Mch)对异常值有更好的鲁棒性。
如上面的表格所示,我们提出的模型无论在两通道场景还是六通道场景都取得了比两种基于频谱的算法更好的结果,明整合频谱和空间特征确实可以进一步提高波束形成的鲁棒性。
后续,我们将通过降低模型的复杂度将模型进行工程化。
更多福利
未来更多顶会顶刊分享课程等你来,CVPR、KDD…接连不断!
识别上方二维码,关注活动B站主页,观看本期完整视频及往期回放哦~
推荐阅读
做学术界最值得
信赖的合作伙伴