2023我们再创佳绩!9篇论文被ICASSP 录用!
点击上方关注我们
天津大学-慧言科技人工智能联合实验室9篇论文被ICASSP 2023录用!
ICASSP(英文全称International Conference on Acoustics, Speech and Signal Processing)即国际声学、语音与信号处理会议,是全世界最大的,也是最全面的信号处理及其应用方面的顶级会议。它涵盖了音频和声学信号处理,图像、视频和多维信号处理,物联网的信号处理等多个方向。
近日,全球语音、声学顶级会议ICASSP 2023公布了论文入选名单,天津大学-慧言科技人工智能联合实验室在慧言科技创始团队王龙标董事长/天津大学教授、党建武首席科学家/天津大学教授带领下,实验室团队继ICASSP 2021获得了8篇论文被录用,ICASSP 2022 9篇论文被录用的优秀基础上,在此次ICASSP 2023 会议中继续锐意进取,稳定输出,将携9篇优秀论文参加本届会议,在国际舞台上全方位展示了实验室团队核心关键技术扎实的科研实力,可喜可贺!
入选的9篇论文,内容涵盖语音识别、语音合成、声纹识别、语音增强、视频描述和意图理解等方向,以下为论文简述。
论文1:
题目:SPEECH AND NOISE DUAL-STREAM SPECTROGRAM REFINE NETWORK WITH SPEECH DISTORTION LOSS FOR ROBUST SPEECH RECOGNITION
研发团队探讨了损失函数的权重对ASR性能的影响。实验结果表明,联合训练系统的性能高度依赖于各损失的相对权重,而语音增强网络会引入语音失真。提出了一种轻量级语音和噪声双流频谱图细化网络,该网络具有减少语音失真的联合训练框架,通过重用增强语音和预测噪声来估计残差值,从而抵消不需要的噪声,恢复失真语音。设计了一个加权的语音失真损失来同时控制语音失真和残余噪声。此外,该方法实现简单,计算开销小。最终结果表明,该方法相对降低了8.6%的CER。
论文2:
题目:VF-TACO2: TOWARDS FAST AND LIGHTWEIGHT SYNTHESIS FOR AUTOREGRESSIVE MODELS WITH VARIATION AUTOENCODER AND FEATURE DISTILLATION
研发团队提出了VF-Taco2,一种新型的快速轻量级TTS系统,能够不依赖GPU快速合成语音。首先,本文提出了一种方法,通过引入VAE来解决多帧预测时候音质退化问题。然后对于所提出的方法,设计了一种特征提取,通过对教师特征进行白化操作以及引入smooth L1损失函数进行压缩模型。在保持语音质量不变的情况下,与原始版本Tacotron2相比,本文提出的VF-Taco2在不同的CPU上实现了3.6至4.4倍的加速,参数被压缩了1.5倍。
论文3:
题目:Leveraging Positional-Related Local-Global Dependency for Synthetic Speech Detection
研发团队重点研究了基于位置相关的局部-全局依赖的合成语音检测算法。针对当前算法获取全局依赖时具有效率较低、信息损失较大的缺点,该方法使用二维卷积和Transformer 分别捕获局部和全局依赖性。具体来说,该方法提出了通过添加位置信息和扁平化策略来整合局部-全局依赖的Positional Aggregator,有效减小了信息损失。此外,该方法引入了挤压-激发操作以更好地获得局部依赖性。该方法与最先进的单系统相比准确性与泛化性都有显著提升。
论文4:
题目:Cross-modal Audio-visual Co-learning for Text-independent Speaker Verification
研究团队针对视觉语音(唇动)和听觉语音进行了跨模态的研究。由于唇动和听觉语音是对应产生的且都包含丰富的个性化信息,本文针对两者信息之间的紧密联系进行了跨模态的研究,提出了协同学习的策略,将原始模态的信息转换到另一模态的特征空间表示,以获取新的信息。实验结果证明所提方法能有效提高系统性能,并且具备良好的鲁棒性。
论文5:
题目:Self-Supervised Audio-Visual Speaker Representation with Co-Meta Learning
研究团队基于自监督针对视觉信息和听觉信息之间的互信息利用进行了研究。在自监督声纹识别中,存在大量不可靠伪标签。由于通过不同模态(音频和视觉表征)之间的的互补信息可以确保一个鲁棒的监督信号,本文为了更好地利用两者之间的互信息,提出了Co-Meta的策略,将两种模态的模型通过“分歧”进行协调,同时利用元学习的思想,通过梯度正则化使两种模态的难样本能更好地被另一种模态利用。实验结果证明所提方法能有效提高系统性能。
论文6:
题目:Noise-Disentanglement metric learning for Robust Speaker Verification
为了解决说话人识别系统的性能在嘈杂的噪声场景中大幅下降的问题,研究团队提出通过将对带噪语音进行解耦和度量学习相结合来减少说话人无关信息并建立噪声不变的嵌入空间。解耦模块包括说话人编码器和重构模块。说话人编码器对带噪语音解耦得到说话人相关表征,重构模块提高了系统对噪声信息的约束能力。实验结果证明所提方法在已知和未知噪声场景下都能有效提升系统性能,具备较好的鲁棒性和泛化性。
论文7:
题目:Time-domain Speech Enhancement Assisted by Multi-resolution Frequency Encoder and Decoder
研发团队在最近的工作中,DEMUCS引入了多分辨率频域损失以提高性能。然而,用于计算损失的频域包含非平稳信号,并且仅使用一个输出同时学习多分辨率频域损失具有挑战性。为了更好地使用多分辨率频域信息,我们将不同帧长度的多个语谱图补充到时域编码器中。他们提取窄带和宽带中的固定频域信息。我们还采用多个解码器输出,每个解码器计算其相应的分辨率频域损失。实验结果表明:(1)在编码器中融合稳态频域信息比非稳态信息更有效,(2)与频域损失一致的多个输出提高了性能。
论文8:
题目:Enhancing Multimodal Alignment with Momentum Augmentation for Dense Video Captioning
研究团队将密集视频字幕任务中的多模态融合算法作为研究重点。 针对当前的多模态编码器没有对模态间异质性的考量,提出了引入对比学习到多模态编码器中来对齐不同模态内容。具体地,为了避免小批次和虚假对比目标的限制,设计了一种事件对齐动量增强策略,将对比学习应用于密集视频字幕中,很好的解决了当前多模态融合算法无法处理异质数据的缺点,并且性能上较目前的融合模型有显著的提升。
论文9:
题目:Brain network features differentiate intentions from different emotional expressions of the same text
在人机语音交互中,理解说话人的真实意图不仅依赖于语言学信息,还依赖于声调和情感等语用信息。研发团队将研究重点放在如何区分相同文本所携带的不同意图,而当前的人机对话系统在这方面尚未得到充分的认识和解决。为弥补这一空白,本研究首先创建了一个中文多模态口语意图理解(CMSLIU)数据集,其中相同的文本以不同的语调发音以表达不同的意图。通过比较两个意图条件(赞扬与反讽)上的有效脑连接模式,以确定与意图识别提升最相关的有效脑网络特征。结果表明,赞扬意图倾向于引发更强的高频脑活动,而反讽则涉及到右半球的更多抑制性脑网络连接。基于脑网络特征的分类模型在CMSLIU数据集上达到了78.66%分类准确率,表明脑网络特征在区分相同文本所携带的不同意图上具有巨大潜力。
未来,天津大学-慧言科技人工智能联合实验室将继续在语音处理与自然语言处理等人工智能领域发力,更好地支撑人工智能语音语言技术产业的蓬勃发展。
慧言科技简介
慧言科技(天津)有限公司依托于天津大学天津市认知计算与应用重点实验室,公司围绕细分领域场景进行语音产品研发,拥有语音识别、语音合成、机器翻译、对话系统、声纹识别等自主研发技术,旨在提供语音技术细分领域的实际应用和解决方案,为用户带来“锦上添花”、“雪中送炭”的定制化体验,提高人们的生活质量。
商务合作 CONTACT INFORMATION
联系电话商务邮箱bd@huiyan-tech.com