科大讯飞荣获IWSLT 2022语音翻译任务冠军
在近日结束的2022年国际口语机器翻译评测比赛(简称IWSLT)中,科大讯飞与中科大语音及语言信息处理国家工程实验室(USTC-NEL)联合团队在语音翻译任务中(Offline Speech Translation),取得两个第一、一个第二的好成绩。这是继2018年在IWSLT比赛中获得语音翻译端到端冠军以及2021年获得同声传译任务冠军之后,科大讯飞再次用实力证明了在语音翻译领域的国际领先地位。
乘风破浪
在IWSLT 2022语音翻译任务中不断突破
IWSLT是国际上最具影响力的口语机器翻译评测比赛之一,针对语音翻译实际应用面临的难题,通过每年设定一些研究任务,并向外界提供公开的数据集合,吸引全球各地的科研团队参与比赛,以此推动语音翻译技术创新和知识共享,至今已经举办19届。
此次大赛共设置了同声传译、离线语音翻译、低资源翻译等7个任务,吸引了亚马逊、德国卡尔斯鲁厄理工学院、加泰罗尼亚理工大学、科大讯飞、华为等世界各地多所机器翻译领域的知名大学及科技企业参加。
今年的离线语音翻译任务相比以往进行了较大的改革,语种数量从英德拓展到了英德、英中和英日共三个方向,考验参赛队伍在多语种语音翻译上的实力;允许参赛者在受限条件下使用超大预训练模型,如Wav2vec 2.0、Hubert、MBART、M2M100等,增加了比赛的竞争激烈程度。
本次比赛,科大讯飞充分结合在语音识别和机器翻译领域的最新技术成果,针对语音翻译难题,在无监督训练、多模态融合、端到端建模等技术上取得显著进展。对海量文本翻译句进行多样化语音合成,构造用于高质量的伪语音翻译数据,进行数据增强训练;通过语音识别与机器翻译多任务联合建模,以及对识别错误的对抗训练,提升机器翻译对语音识别错误的鲁棒性;结合语音停顿等副语言信息,实现更适合机器翻译和语言理解的多模态融合建模。
除此之外,我们还利用了经过充分验证的各类技术,如领域微调、模型融合、回译、知识蒸馏等技术,保障最终系统取得更好的效果。
最终,科大讯飞基于在语音识别和机器翻译上的深厚积累,以优异的成绩获得英德、英中两个方向第一,以及英日方向主系统第二的好成绩。但根据团队提出的系统描述论文,我们的最优对比系统仍然超过第一名2.2BLEU,也验证了不同的技术路线在英日方向上的差异。
英德方向:科大讯飞团队系统相比第二名高出1 BLEU
英中方向:科大讯飞团队系统相比第二名高出1.1 BLEU
英日方向:科大讯飞团队主系统获得第二名
英日方向:科大讯飞对比系统比第一名高出2.2BLEU(24.9 vs 22.7)
做好语音技术 实现应用落地
语音翻译技术,可以将一种语言的语音内容翻译成另一种语言的文本,能够应用在很多场景,比如翻译机、录音笔等。相比人工翻译,机器同声传译可以实现多种语言实时切换,并在保证高译出率和隐私性的情况下,不间断工作。
科大讯飞作为北京2022年冬奥会和冬残奥会官方自动语音转换与翻译独家供应商,向北京冬奥组委提供翻译机、听见会议系统等软硬件产品在冬奥场景进行应用。
面向入境口岸边检的智能翻译对讲系统、新一代双屏翻译机、录音笔等产品都集成了讯飞最新的语音翻译技术,讯飞听见连续三年在世界人工智能大会(WAIC)提供语音翻译服务,每年支持会议达到数千场。
当然,语音翻译中仍然存在着较多的技术问题亟待解决,例如复杂场景下的语音翻译错误仍然较多、更多资源稀缺语种的翻译效果仍然达不到实用门槛、对实时性要求更高的同传场景延迟还比较大等。
本次比赛的成绩只是我们不断突破自我的一个里程碑,未来更好地解决这些问题并实现语言技术的应用落地,用人工智能技术更好地服务社会、建设美好世界,是我们一直以来的奋斗目标。
科大讯飞研究院成立于2005年, 秉承“顶天立地”的发展理念,持续追求以AI核心技术引领和基础理论突破“顶天”,用AI技术解决刚需创造规模化应用价值“立地”。坚持用正确的方法,做有用的研究。了解更多详情,请关注“科大讯飞研究院”公众号。