AAAI 2020丨从嘈杂视频中提取超清人声，语音增强模型PHASEN已加入微软视频服务

Original 罗翀、银大成微软研究院AI头条 2020-09-12

编者按：在刚刚落幕的 Ignite 大会上，微软展示了企业视频服务 Microsoft Stream 中的一项新功能——无论你在多么嘈杂的地方录制视频，Microsoft Stream 都能自动过滤背景噪音，让主要语音超清晰地呈现出来。这一技术由微软亚洲研究院与 Microsoft Stream 团队共同研发，研究团队提出了关注相位和谐波的语音增强模型 PHASEN，通过双流结构让降噪效果大幅超过此前方法。该论文已被 AAAI 2020 接收。

Microsoft Stream 语音增强功能演示

摘要

我们提出了关注相位和谐波的语音增强模型 PHASEN (Phase-and-Harmonics-Aware Speech Enhancement Network)，主要的贡献在于两点：

1. 考虑到相位预测对于语音增强的重要性，我们提出了双流模型结构，分别处理相位和强度信息，并设计了双向信息交互通道。实验证实双流之间的信息交互对相位估计至关重要。

2. 我们提出了频域变换模块 FTB (Frequency Transformation Block)，用于在深度神经网络结构中高效整合全局频域相关性，尤其是谐波相关性。通过对于 FTB 参数的可视化，我们可以发现 FTB 自发地学到了谐波相关性。

以上两点使得我们的模型能够同时意识到相位信息以及谐波相关性，从而在 AVSpeech+Audioset 数据集上获得 1.76dB 的 SDR 提升，超过了其他模型在该数据集上的表现，并且在 Voice Bank + DEMAND 数据集中，四个指标均大幅超过之前的方法，一个指标与之前方法持平。

下文中我们将详细介绍问题提出的背景、实现细节以及实验结果。

研究背景

用单通道的语音增强模型去除带噪语音中的噪声，其主流的方法有两种，分别在时域上处理和在时-频域上处理。前者直接用1维的语音波形作为输入输出，而后者以2维的时-频表征，如 STFT 谱，作为模型的输入输出。在第二种方法中，时-频掩膜（T-F Masking）被广泛使用，即预测一个乘性的时-频掩膜，与输入的时-频表征相乘，得到预测的时-频表征。STFT 谱是一个复数谱，包含相位和强度两方面信息。早期的时-频掩膜方法仅仅关注强度信息，如 Ideal Binary Mask（IBM），Ideal Ratio Mask（IRM）等。近年来，人们认识到相位预测的重要性，通过扩展掩膜的值域，提出了一些关注相位信息的掩膜方法，如 Phase Sensitive Mask（PSM）将掩膜扩展至实数域，complex Ideal Ratio Mask（cIRM）将掩膜扩展至复数域。

从掩膜的潜力来讲，理想的 cIRM 已经可以完全去除相位噪声，然而模型预测出的 cIRM 却并非如此。当我们在大数据集（AVSpeech）上训练基于 DNN 的 cIRM 预测模型时，发现预测的 cIRM 的虚部几乎为0，即相位信息没有被恢复。这说明 cIRM 的潜力没有被现有的 DNN 模型充分利用。为此，我们设计了一种新的网络结构——双流结构，来提升相位的预测质量。

双流结构

双流结构由强度流以及相位流构成。其中，强度流主要由卷积操作，频域变换模块（FTB，后文介绍）以及双向 LSTM 组成，而相位流为纯卷积网络。强度流的预测结果为幅值掩膜 M，其取值为正的实数，相位流的预测结果是相位谱 ψ，其取值为复数，由实部和虚部组成。记输入的时频表征为 S^in，则输出 S^out=abs(S^in )∘M∘ψ，其中 ∘代表逐项相乘操作。为了充分利用双流的信息，我们采用 gating 的方式在强度流和相位流之间增加了信息交互机制，从而让强度或者相位处理过程中能利用另外一路的信息作为参考。增加了信息交互后，我们把网络的主体划分为3个 Two Stream Block（TSB）。每一个 TSB 的结构相同，在 TSB 的最后，均有一步信息交互操作。在后文中，我们的实验表明，双向的信息交互对相位预测至关重要。

图1：双流结构

在设计强度流的过程中，我们发现图像处理中常用的小尺寸二维卷积操作无法处理语音信号中的谐波相关性。不同于自然图像，语音信号在转化为时-频表征时的相关性不仅有邻域成分，而且有谐波成分，而这些谐波相关性是一种分布在频域上的全局相关性，例如：频率 f_0 倾向于和 2f_0,1/2 f_0,3f_0,3/2 f_0,1/3 f_0,2/3 f_0… 这些谐波相关的频率同时发生，这些频率分布在整个频率轴上。之前的工作中使用的 U-net，空洞卷积等卷积结构都适用于处理邻域相关性，但是无法高效地感受到这种全局频域相关性。为此，我们提出了频域变换模块（Frequency Transformation Block, FTB）来处理包括谐波在内的全局频域相关性。

FTB 的结构如图2所示，简单来说，它利用注意力（attention）机制来挖掘非邻域（non-local）相关性。在我们的整体架构中，每一个TSB中强度流的输入和输出端各有一个 FTB，确保每一个 TSB 中处理的信息以及双流交互的信息都能关注到谐波相关性。

图2：FTB 结构

网络训练的损失函数 L 由两部分组成：强度损失 L_a 以及关注相位的损失 L_p，如下所示，其中强度损失为预测强度谱和真实强度谱，分别按照 A^0.3 压缩后的 MSE loss。关注相位的损失为预测频谱和真实频谱，分别按照 A^0.3 压缩后的 MSE loss。

实验结果

我们在最近 Google 提出的大数据集 AVSpeech + Audioset 和被广泛使用的 Voice Bank + DEMAND 两个数据集上进行实验，总共用6种评价指标（SDR、PESQ、CSIG、CBAK、COVL、SSNR）进行评测，实验结果如下：

表1为我们在 AVSpeech + Audioset 数据集上进行的消融实验，通过对比 PHASEN-1strm 和 PHASEN，发现如果去掉相位流，则会造成 SDR 的下降，尤其是 PESQ 的大幅下降。为了验证双流结构中信息交互的作用，我们尝试去掉双向信息交互或者去掉相位流到强度流的信息传递，分别得到 PHASEN-w/o-A2PP2A 和 PHASEN-w/o-P2A 两组实验结果。对比可知，强度流到相位流的信息传递更加重要。

表1：AVSpeech + Audioset数据集上的消融实验结果

图3中对相位预测的可视化结果也表明，当没有双向的信息交互时，预测的相位与含噪声的相位差值几乎为0，而我们完整的模型可以在噪声比较强的区域对相位进行明显的修正。此外，在表1中，通过对比 PHASEN-w/o-FTBs 和 PHASEN，可以发现如果将 FTB 换成普通卷积模块，也会造成 SDR 和 PESQ 的明显下降。这说明 FTB 模块的重要性。

图3：对相位预测的可视化结果

为了验证 FTB 真的学到了全局的频域相关性，我们将 FTB 中 Freq-FC 的权值可视化，如图4。其中，左侧两幅图分别为考虑5次谐波和9次谐波情况下的理想谐波相关性；最右侧为学习到的 Freq-FC 权值，可以发现学习到的 Freq-FC 权值与考虑高次谐波的理想相关性相近。这说明网络自发学到了谐波相关性。通过上述消融实验，我们验证了我们提出的双流结构和频域变换模块的有效性。

图4：将 FTB 中 Freq-FC 的权值可视化结果

表2和表3分别在两个数据集上对比 PHASEN 与其他最近提出的方法的性能。可以看出，我们在大数据集，如 AVSpeech +Audioset 上的表现超过了 Google 以及 Conv-TasNet，证明了我们的网络有能力胜任真实复杂环境下的情形。在比较常用的小数据集，如 Voice Bank + DEMAND 上，我们的模型在5个指标上均大幅超过近期的时域方法（SEGAN、Wavenet、DFL）以及时-频域方法（MMSE-GAN）。此外，我们还在4个指标上超过了混合模型（MDPhD），并且在 SSNR 指标上仅有微小差距。以上横向对比进一步验证了我们模型的有效性。

表2&3：两个数据集上 PHASEN 与其他方法的性能对比

结语

综上，我们在单通道语音增强任务中提出了含有双向信息交互的双流结构，用于高效的相位预测。同时，也提出了用于捕捉全局频域相关性的频域变换模块（FTB）。详细的消融实验验证了我们提出的方法的有效性，并且在两个数据集上，我们的模型均超过了当前最优的模型。虽然我们当前的模型不能做到低延迟，但是接下来的工作将会在延迟问题上进行优化，并降低模型参数量，以便应用到实时通信等领域。此外，将来的工作也包括把我们的模型拓展应用在其他相关任务上，如语音分离等。

了解更多技术细节，请点击阅读原文查看论文。

论文链接：

https://arxiv.org/abs/1911.04697

你也许还想看：

市管干部“龚书记”免职迷局

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

2025.1.1起，全国法院全面推进应用民事起诉状、答辩状示范文本(附下载链接)

法明传[2024]173号：关于加快推进起诉状、答辩状示范文本全面应用工作的通知(附下载链接)