Interspeech 2019 | 从顶会看语音技术的发展趋势 04
语音领域顶级学术会议 Interspeech 2019 于 9 月 15-19 日在奥地利格拉茨Graz举行。
技术小编小滴将在前方会场每天带来今年的语音技术发展趋势。
系列目录:
Interspeech 2019 | 从顶会看语音技术的发展趋势 01
Interspeech 2019 | 从顶会看语音技术的发展趋势 02
Interspeech 2019 | 从顶会看语音技术的发展趋势 03
今天将带来的是Best Student Paper的解读。Best Student Paper Awards的颁奖也是在Interspeech 2019会议的最后一天的重要环节。
Best Student Paper
今年Interspeech的Best Student Paper分别是:
Adversarially Trained End-to-end Korean Singing Voice Synthesis System
Evaluating Near End Listening Enhancement Algorithms in Realistic Environments
Language Modeling with Deep Transformers
其中第三篇论文已经在前面的解读中解读过,今天带来其中两篇的解读。
Adversarially Trained End-to-end Korean Singing Voice Synthesis System
首尔大学Juheon Lee等人的工作“Adversarially Trained End-to-end Korean Singing Voice Synthesis System”获得了Interspeech2019 ISCA Best Student Paper。
该论文向大家展现了一个基于歌词和符号韵律的端到端韩语歌声合成系统。
此系统主要有三个方面的创新点:1. 采用了语音增强掩蔽的方法;2. 使用文本和基频作为超分辨网络的Local condition;3. 用条件对抗训练的方法训练。
同时,系统由两部分组成:Mel生成网络,此网络可以根据输入的信息生成Mel谱;超分辨网络,升采样Mel谱到Linear谱.
文中使用的训练数据包括wave、Text、MIDI。一个MIDI音符表示起始和偏移的音高信息。文章中为了更好的使用和融合这些输入信息,对各信息进行了表示变换。
Text通过G2P模块转换为音素;MIDI转换为Pitch和时长信息;Wave转换为Mel Fbank。
通过输入表示的转换,结合Mel生成网络及超分辨升采样网络,同时采用phonetic enhancement masking方法及Conditional adversarial training。此系统取得了较高的歌声合成水平。
Evaluating Near End Listening Enhancement Algorithms in Realistic Environments
爱丁堡大学的Carol Chermaz等人的工作“Evaluating Near End Listening Enhancement Algorithms in Realistic Environments”获得了Interspeech2019 ISCA Best Student Paper。
近端听力增强NELE (Near End Listening Enhancement) 已证明在实验室场景中对存在噪声和混响的语音播放场景能够有效提高语音的可懂度。作者提供一个现实的测试平台,分别在室内(起居室)和公众场所(自助餐厅)中测试3种目前最好的NELE算法对语音可懂度提高的有效性。
两种模拟现实环境的测试场景为:自助餐厅(静止的噪音和长的混响时间)和一个小的家庭空间( 客厅:波动的噪音和短的混响时间)。
三种NELE算法:
1、SSDRC (Dynamic Range Compression (DRC): 仅依赖于语音。
该算法先对共振峰进行增强,增加1-4kHz的能量(即频谱整形),然后通过固定带宽的DRC重新分配语音能量。
2、Adapt-DRC: 同时依赖于语音和噪声。
一种能够在等功率约束下提高语音清晰度的预处理算法,包含了放大阶段和动态范围压缩阶段(同时在时间和频率上进行),两者都取决于语音可懂度指数 (SII, Speech Intelligibility Index)。
3、ADOE: AdaptDRC + OE( Overlap Masking Reduction and Onset Enhancement) OE是解决混响的代表方法,通过增加辅音-元音功率比,以减少语音的自屏蔽量。ADOE是将OE用于AdaptDRC的输出。
论文使用的是Harvard Sentences数据集。数据集是在每个句子前后加了0.5s的静默段,且对语音卷积了测试环境的混响的冲激响应,通过固定的信噪比添加噪声得到含噪语音。听众使用耳机听取混合含噪语音,并用键盘打印出他们听到的内容。
论文结果为:
所用指标为:WAR 字正确率(Word Accuracy Rate) EIC 等效强度变化(Equivalent Intensity Change)
通过结果分析得到,所有的算法都提高了所有条件下的可懂度。
总体上,SSDRC提供了更大的收益,ADOE在混响时间短的室内场景变现得很好,但对不同的脉冲响应格外敏感。但是ADOE是非自适应算法,计算复杂低,很可能是所有场景中的最佳解决方案。
编辑 | 大橙子
Interspeech 2019 | 滴滴论文解读:基于多模态对齐的语音情感识别
Interspeech 2019 | 从顶会看语音技术的发展趋势 03
Interspeech 2019 | 从顶会看语音技术的发展趋势 02
Interspeech 2019 | 从顶会看语音技术的发展趋势 01