查看原文
其他

行业动态|微软称ComSL模型在语音翻译方面优于其他模型

The following article is from 国际翻译动态 Author 唐蕊



++++


来啦来啦!微软带着ComSL向我们走来啦!什么是ComSL?快快跟小编一起来了解一下吧!



ComSL


2023年10月14日,来自微软云与人工智能部门、微软亚洲研究院和上海交通大学的研究人员发布了关于复合语音语言模型(ComSL)能力的最新结果。ComSL是一种语音语言模型,最初在2023年5月的一篇论文中提出。

++++h


(图片来源:https://slator.com/microsoft-says-comsl-model-outperforms-other-models-speech-translation/ )



据研究人员介绍,ComSL模型基于公开预训练的纯语音(音频数据)和纯语言(文本数据)模型,并将这两种模式整合到训练中,针对口语任务进行了优化。


上下滑动查看更多


ComSL的与众不同

研究人员解释说,ComSL模型的表现优于“端到端建模”所获得的结果,而“端到端建模”是迄今为止使用最广泛的训练方法。研究人员称,端到端建模将音频数据和文本数据分开使用,即使这两者“可能并不是彼此的最佳选择”。

在这种复合模型中,研究人员获得了一种更简单的跨模态学习方法,即采用语音-文本映射/匹配。这种训练可以让模型表现更佳,而且不需要对语音和文本进行任何强制对齐。


多任务学习模式

在方法论层面,研究人员在端到端语音翻译(ST)模型的优化过程中,在多任务学习模式中采用了机器翻译(MT)自动语音识别(ASR),这两项被他们称为“辅助任务”。

任务学习(MTL)模式意味着“在不同任务之间共享常识”,从而使MT任务能够指导ST任务。但研究人员指出,由于语音模式和文本模式不匹配,指导效果不佳。



ComSL模型训练

ComSL模型使用经过微调的现有模型进行训练,包括仅语音输入和仅文本输入,把ST、ASR和MT作为任务,以及基于配对语音-文本输入而不是强制对齐的“跨模态学习”(CML)方法。


训练步骤包括:

  • 微调语言模型(使用所有配对文本数据)

  • 多任务学习(任务包括ST、MT、ASR和CML)

  • 对MT输出进行正则化(使用MT任务进行微调)

  • 冻结语音编码器(在微调开始时保留语音表征)

++++



本研究中的实验涉及CoVoST 2数据集,其中包括从21种语言到英语和从英语到15种语言的翻译,以及约400小时的英语录音和另外21种语言的900小时录音。


研究人员主要关注将非英语语言翻译成英语的语音翻译,通过BLEU分数和CoVoST 2测试集来衡量性能。作为基准使用的模型是Whisper和mBART-50,这两个模型都经过了CoVoST 2的微调。


研究结果发现,复合模型表现优于基本语音模型(Whisper)以及语音模型和语言模型的组合(Whisper+mBART)。加入ST数据后,复合模型在CoVoST2测试集中获得了高分,对语音到文本翻译任务也进行了评估,其表现结果优于包括ST、ASR和MT等相同任务的端到端建模结果。

++++




以上就是本期分享的全部内容啦!

希望对大家有所帮助

感谢大家的耐心观看!

++++

To Be Continue... 




声明:本公众号转载此文章是出于传播行业资讯、洞见之目的,如有侵犯到您的合法权益,请致信:532541801@qq.com,我们将及时调整处理。谢谢支持!
【语言服务行业】分享群

群内会定期推送语言服务行业最新动态、活动预告、竞赛通知📝等内容~


欢迎你的加入🥰!



-END-

文章来源:slator官网
本文转载自:国际翻译动态公众号
转载编辑:盼盼 


关注我们,获取更多资讯!

往期回顾

行业动态1. 行业动态|首届外语学科横向课题拓展与管理研修班(支持线上同步)
2. 行业动态 | 从译者走向语言技术和服务架构师
3. 行业动态 | 全球视野下国家战略传播与翻译专业人才培养创新论坛成功举办4. 行业动态|首届外语学科横向课题拓展与管理研修班5. 活动预告 | GenAI时代的西部翻译技术实战研修班(一号通知)

行业洞见
  1. 行业观察|王立非:提升国家语言服务能力,促进“一带一路”高质量发展
  2. 行业动态 | 全球视野下国家战略传播与翻译专业人才培养创新论坛成功举办
  3. 行业洞见 | 李晗佶老师:技术哲学视阈下的翻译技术
  4. 行业观察 | 贾艳芳老师:始于兴趣,长于实践,技术之路常学常新


行业技术
  1. 技术应用 | 术语管理主要工具
  2. 翻译技术|代码分享——spacy词形还原
  3. 技术应用 | 术语库基础知识
  4. ChatGPT | 中科院学术优化本地部署
  5. ChatGPT | 基于OpenAI Whisper模型的WhisperDesktop转写工具

精品课程
  1. 行业动态|首届外语学科横向课题拓展与管理研修班
  2. 新课来袭 | 开启倒计时!AI时代掀起影视字幕翻译的智能革命
  3. 基础篇 | 从入门到进阶:语料库建设与统计分析实务
  4. 进阶篇 | 从进阶到精通:基于Python的语言数据分析实战



资源干货
  1. 技术科普 | 揭开手写文本识别“最先进”的秘密
  2. 资源干货 | 英语外刊获取途径、网站推荐
  3. ChatGPT | AI外语写作助手,助力高效写作
  4. 双语干货 | 谢锋大使向中美媒体发表讲话
  5. 资源宝库|译者用“典”,多多益善——精选31款在线词典

招聘就业1. 博硕星睿 | 办公室实习助理招聘(北京)
2. 博硕星睿 | 好的平台,“职”等你来3. 译者招募丨英译中,经济学(有署名)4. 招聘快报 | CNBC财经电视台上海分公司招聘发行部助理实习生5. CATTI备考在即,备考实习两不误,硬核语言专业线上实习机会来了!


继续滑动看下一个
语言服务行业
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存