IWSLT2022落幕,解密科大讯飞语音翻译冠军系统关键技术 !
2022年国际口语机器翻译评测比赛(International Workshop on Spoken Language Translation,简称IWSLT)落幕,作为国际上最具影响力的口语机器翻译评测比赛之一,今年IWSLT设置同声传译、离线语音翻译、低资源翻译等7个任务。
本次比赛科大讯飞与中科大语音及语言信息处理国家工程实验室(USTC-NEL)联合团队参加了英德、英中、英日方向离线语音翻译任务,并以优异的成绩获得英德、英中两个方向第一,以及英日方向主系统第二(最优的对比系统比第一名超过2.2bleu)。
论文标题:The USTC-NELSLIP OfflineSpeech Translation Systems for IWSLT 2022
离线语音翻译任务是指不考虑系统时延(非系统计算响应时间)下,将一段音频信号自动翻译成另一种语言的文本。
这里的离线是相对同声传译系统在线流式翻译的解码模式,即音频完整输入后再输出文本译文,其与同声传译在线流式解码差别如下图所示:
目前离线语音翻译任务存在两种主流的技术路线:
一种是级联语音翻译技术。即系统由ASR系统和MT系统构成,音频信号经过ASR系统自动转写出文本,再经过MT系统输出目标译文;
另一种技术路线是端到端语音翻译技术。即系统将音频信号直接翻译成目标语音文本,系统不显式生成中间字符表征。
级联语音翻译技术由于ASR模型和MT模型各自独立优化,有监督数据资源丰富,目前工业界语音翻译系统仍以级联语音翻译技术方案为主,但是级联系统仍然面临以下问题:
级联误差,ASR识别错误会导致不可接受的翻译错误; 级联系统复杂,由于ASR模型和MT模型训练数据不匹配,级联系统依赖标点预测、顺滑、数字规整等中间组件,系统级联复杂、延迟大; 信息丢失,MT模型对于音频信号韵律等富文本信息完全不可见。
端到端语音翻译技术直观上更符合人类大脑的解决方式,近年来受到高度关注。从IWSLT2021提交的系统来看,在同等数据资源下最优的端到端语音翻译系统逐渐逼近级联系统(差距仅为2bleu),其直接规避级联传递误差,也存在利用韵律信息提升翻译的可能,但另一方面,语音翻译有监督数据获取难度大、标注成本高等导致数据稀缺,翻译效果与级联系统仍然存在差距。
科大讯飞在三个语种离线语音翻译任务上进行了研究,最终提交的系统相比去年最优系统翻译效果提升明显。以英德翻译为例,在可比条件下,文本翻译任务提升1.85bleu,级联语音翻译任务提升2.72bleu,端到端语音翻译任务提升2.26bleu。
那么,讯飞翻译是如何做到的呢?以下对其中关键技术进行解读。
语音识别是级联语音翻译任务的关键组成部分,端到端语音识别为当前主流的语音识别框架,常见的有VGG-Transformer、VGG-Conformer,其中VGG为图像领域广泛应用的CNN模型结构。模型本身对语音识别效果影响较大,除上述常见框架外,本次比赛额外对比了GateCNN-Conformer结构,将VGG替换为讯飞自研的GateCNN。
GateCNN将门控思想引入CNN,是一种结构更精巧,建模能力更强的CNN模型结构。数据增强为端到端系统关键技术,本次比赛采用类似openasr2021科大讯飞夺冠系统中的语音合成技术进行数据增强,效果提升明显。
实验表明,相较本文中其他单系统,结合Glow-TTS合成数据增强的GateCNN-Conformer系统为效果更强的单系统。
识别误差传递是级联语音翻译系统面临的关键问题,常用的解决方案有加噪训练、对抗训练等。而我们创新性提出ASR自适应训练方法,有效利用ASR系统真实识别错误噪声,大幅度提升级联下文本翻译模型识别容错性。
在ASR自适应训练框架下,一方面利用语音识别模型转写文本(包含真实语音识别错误)与标注译文微调模型,并增加KL-loss防止模型过拟合;另一方面,使用不含噪(Clean)文本训练的翻译模型(teacher)进行知识蒸馏训练,进一步提升级联下翻译模型(student)的翻译效果。
实验表明,基于ASR自适应训练技术的文本翻译模型在领域自适应基础上进一步提升0.55bleu~0.75bleu。
★ 关键技术3:多样化数据增强及预训练方法使端到端语音翻译系统逼近级联
有监督语音翻译训练数据稀缺(1k小时左右)是影响端到端语音翻译模型效果的关键原因,本次比赛采用两种数据增强方法。
一是知识蒸馏数据(KD),通过MT模型翻译语音识别转写数据,构建伪造的音频-转写文本-目标译文三元数据,其思想来源于翻译任务句级知识蒸馏。
二是采用讯飞Glow-TTS模型从翻译真实句对源语言文本生成大规模多样性的音频FB特征,其思想与翻译任务回译(Back-translation)一致。此外,使用最强ASR模型和NMT模型进行预训练。
基于上述多样化数据增强方式及强基线模型预训练下的端到端语音翻译系统效果逼近级联系统,在英德任务上讯飞最强端到端系统与最强级联系统仅有约1.5bleu差距。
3.1 ASR实验结果
在英德ASR任务上,分别对比了3种模型框架,讯飞Glow-TTS数据增强具有一致性提升,单模型下讯飞GateCNN-Conformer效果最优,6个模型融合后WER相对单模型降低0.69。
3.2 级联系统鲁棒性实验结果
在英德语音翻译任务上,我们提出的ASR自适应训练方法在领域自适应后的强基线上一致性提升大于0.5bleu,足以证明该方法的有效性。
3.3 语音翻译实验结果
文本翻译任务上,模型尺寸、数据清洗、领域微调都有效提升翻译模型,我们提交的最终融合系统(line6)超过去年最优系统1.85bleu。在级联语音翻译系统中,多模型融合的ASR和MT系统级联后达到最优效果,超过去年最优系统2.72bleu。
而端到端语音翻译模型实验中,TTS进行数据增强的VGG-Conformer提升0.43bleu,使用NMT解码器预训练在不同结构下都有一致性提升。此外,我们实验也发现端到端系统与级联系统融合也能提升最终翻译效果。
本次比赛,结合多种技术打造了离线语音翻译最强基线,级联语音翻译与端到端语音翻译两大技术路线均有明显提升。
相比较端到端语音翻译,级联语音翻译仍然更优,主要还是归功于ASR和MT模型的提升。联合训练、预训练、数据增强等方案能够显著提升端到端语音翻译效果,但是有监督数据稀缺还是制约端到端语音翻译效果的主要问题。
大规模端到端语音翻译数据的建设有望让端到端方案真正落地,有效利用语音、文本等数据也将给端到端语音翻译带来希望。
历史文章回顾