ICASSP2023 I 思必驰-上海交大联合实验室17篇论文被收录
2023年度声学、语音与信号处理国际会议——ICASSP于6月4日-10日在希腊罗德岛举办,作为语音研究领域的国际会议,其凭借权威、广泛的学界以及工业界影响力,备受AI行业关注。
思必驰-上海交大联合实验室共17篇论文被ICASSP 2023大会收录,论文研究方向涉及情感语音合成、声纹识别、音频生成、跨模态语音识别等多方面技术创新研究。持续的基础理论研究节节突破,展现出思必驰在语音和语言处理技术的原始创新保持着持续高强度投入和高水平产出。一直以来,思必驰坚定科研与产业应用密切结合,也将继续探索科技成果的应用转化。
ICASSP(International Conference on Acoustics, Speech and Signal Processing)即国际声学、语音与信号处理会议,是IEEE(电气与电子工程师协会)主办的全世界最大的,也是最全面的信号处理及其应用方面的顶级会议,在国际上享有盛誉并具有广泛的学术影响力。2023年度 ICASSP会议主题是“人工智能时代下的信号处理”,旨在促进信号处理和机器学习之间的创造性协同作用。
以下为本次录用的部分论文
01
论文一
标题:EmoDiff: Intensity-Controllable Emotional Text-to-Speech with Soft-Label Guidance
工作简介:目前的情感语音合成通常都只考虑了针对几种具体情感的控制,而无法在情感之间作连续过渡,或者说情感强度的控制。然而,现实生活中的情感往往具有复杂的表现空间,情感强度控制的问题需要在语音合成系统中更有效地解决。因此,我们基于扩散模型(diffusion model)中的分类器指导算法(classifier guidance),进行了合理的延拓,使之成为一种软标签指导算法,即用一个带强度的情感变量来指导扩散模型生成的过程。在这种算法下,我们的系统只需要一个无条件的扩散声学模型GradTTS和一个情感分类器,即可做到强度可控的情感语音合成。实验表明我们的模型能比基线系统达到更强的控制能力、更好的合成质量以及更优的合成多样性。
02
论文二
标题:Exploring Binary Classification Loss for Speaker Verification
工作简介:对于目前常用的说话人验证损失函数,基于对比学习的优化策略非常依赖于挖掘困难样本对,导致性能提升困难。而基于多分类的目标函数则会因为闭集训练和开集测试之间的不匹配而造成性能下降。在这项工作中,我们引入了SphereFace2框架,该框架使用K个相互独立的二分类器以成对的方式训练说话人模型,而不是执行多分类。得益于这种学习范式,它可以有效地缓解闭集训练和开集评估之间的不匹配。在Voxceleb上进行的实验表明,SphereFace2的性能优于其他现有的损失函数,尤其在困难测试集上收益更明显。此外,large margin finetune策略也被证明与之兼容,从而可以进一步改善性能。最后,我们还发现SphereFace2拥有对噪声标签的强大鲁棒性,这使其有可能应用于伪标签不准确的半监督和自监督的训练场景。
03
论文三
标题:Adaptive large margin fine-tuning for robust speaker verification
工作简介:对于声纹识别任务,传统的大裕量微调策略在简单场景能提升模型性能,但在时长不匹配等真实复杂场景造成了严重的性能下降。针对训练与部署过程中时长不匹配场景,我们创新性地从基于语音长度和基于相似性两个角度,提出了自适应大裕量微调策略。该方法在多种数据集,多种现实中的复杂声纹识别场景上的模型鲁棒性均有提升。通过进一步分析使用前后的说话人类间、类内距离,我们观察到该方法能有效增强说话人的可分离性。
04
论文四
标题:Diverse and Vivid Sound Generation from Text Descriptions
工作简介:之前的音频生成主要集中在特定的声音类别,如语音或音乐,其形式和内容受到很大限制。在本文中,我们通过使用自然语言描述作为线索来生成广泛的声音,超越了特定的音频生成。与视觉信息不同,文本描述本质上是简洁的,但其中蕴含着丰富的隐含意义,这给生成的音频带来了更高的可能性和复杂性。我们使用变分量化生成对抗网络(Variation-Quantized GAN)来训练一个码本,学习离散表示的频谱图。对于给定的文本描述,将其预训练嵌入输入到一个Transformer中,以采样码本索引,解码成一个频谱图,然后通过MelGAN声码器进一步转换为波形。生成的波形具有高质量和保真度,同时与给定的文本完美对应。实验证明,我们提出的方法能够生成自然、生动的音频,取得了出色的定量和定性结果。
05
论文五
标题:Robust Audio-Visual ASR with Unified Cross-Modal Attention
工作简介:尽管语音识别技术已经得到了比较成熟的实际应用,但现实世界中的语音识别常常会受到环境噪声的干扰,因此更为鲁棒的抗噪语音识别是学术界和工业界都在关注的问题。由于唇部动作等视觉信息往往能够清楚地被记录下来,音视频多模态的语音识别成为了非常有效的一个解决环境噪声的方案。在以往的研究工作中,研究者们利用唇读模型提取了视觉特征,然后将其注入到语音识别的模型中间层进行特征融合,但这样的融合方式会受制于音视频帧之间的不同步以及音视频特征质量的不匹配等问题。在本文中,我们提出了一种更简单有效的融合方式,即统一的跨模态注意力融合机制,通过在输入层的时序拼接,可以让后续的注意力网络同时工作在两种模态的特征序列上,从而实现声学信号和视觉信息的动态匹配。在LRS3数据集上,我们提出的方案不仅进一步提升了纯净语音的识别精度,还大幅度地增强了噪声情况下的识别性能。
06
论文六
标题:Predictive Skim: Contrastive Predictive Coding for Low-Latency Online Speech Separation
工作简介:在线语音分离中,系统的固有延迟(算法延迟)和语音分离性能之间存在权衡。在处理当前输入音频时,更多的未来上下文信息常会带来更好的语音分离性能,但会增加算法延迟。在极低延迟的要求下,未来的上下文信息可能难以获取。在这项工作中,我们将对比预测编码 (CPC) 方法应用于基于跳跃记忆网络(SkiM)的在线低延迟语音分离模型。在训练阶段,SkiM 模型需要根据历史记忆来预测未来的记忆状态。通过使用 CPC 训练,提出的Predictive SkiM (pSkiM)模型在低延迟语音分离中显示出更强的因果序列建模能力。此外,我们探索了一种本地上下文编解码(LCC)方法来降低网络的计算开销。文章提出的最好系统在 WSJ0-2mix 基准测试中达到了 15.5 dB 的 SI-SNRi分数,并且在单核 CPU 上实测延迟低于3ms。
A:SkiM基线模型
B:使用CPC预测编码的pSKiM模型
一直以来,思必驰活跃在国内外学术论坛,在各类顶级期刊和会议上发表近 300 篇高水平论文,例如在ICASSP、INTERSPEECH、ACL、EMNLP、AAAI等大会上保持高质量产出,思必驰-上海交大联合实验室通过大量高水平论文展现了在人工智能语音语言领域关键技术上的探索与突破。
亮剑INTERSPEECH 2020,思必驰10篇论文被收录
ICASSP2018 | 思必驰-上海交大实验室发表14篇论文,专注语音语言创国内第一
Interspeech 2018 | 思必驰-上海交大6篇论文出征国际语音研究顶级会议
在科技创新驱动的背景下,作为国内专业的对话式人工智能平台公司,思必驰坚持产学研一体化的研发模式。2022年,思必驰获批建设“语言计算国家新一代人工智能开放创新平台”,持续为推动人工智能技术水平进步和应用水平提升贡献力量。
—如有合作意向,请发邮件—
marketing@aispeech.com