查看原文
其他

为村上隆直播做同传的火山翻译:成立仅3年,拿下5项世界冠军

字节跳动技术范儿 字节跳动技术范儿 2022-06-16


日本艺术家村上隆的中国直播首秀,周末在今日头条、抖音、西瓜视频三个平台完成了。


被称为潮流教父的他,作品受到奢侈品、潮牌的热烈追捧。他的标志性艺术符号,充满漫画风格的太阳花你很可能见过。



在上周六的直播中,村上隆谈到了自己写书的经历:“把真实的想法表达出来,这是一件非常勇敢的事情。”


注意视频下方的亮点,虽然村上隆用日语直播,但说话的内容竟然和录好的影视剧一样,直接同步出现在了屏幕上,完全没有卡顿、延迟的现象,观众看日语直播,就像看日剧一样。

这样的AI自动同传技术,由base在上海、北京和硅谷的火山翻译全球团队完成。



直播的同传字幕,为什么如此流畅?

村上隆的直播间里,流畅的弹幕让不少网友都感到好奇:字幕的翻译,怎么能这么快?


的确,在传统会议、直播场景中,机器翻译解决方案提供的字幕通常是这样的「打字级字幕」


直播里的人物说一个词,出现一个词的原文字幕,然后再出现这个词的译文字幕;等人物说下一个词,再出现新的原文字幕,更新译文翻译,整体磕磕绊绊,像打字一样,一个字一个字的蹦出来,机械感十足。

观看这种字幕,观众的视线无法聚焦,容易造成视觉疲劳,而且往往来不及看完就会跳到下一句,需要投入很大的精力在浏览和理解字幕上,体验非常差。

但火山翻译提供的「影院级字幕」,效果是这样的:


字幕和视频流整合后,译文的整个句子都顺畅地出现在屏幕下方,观众可以像平常看电影一样,顺畅地理解视频内容,而且整个视频都是音画字同步的,所以它看起来真的不像直播。

为了实现这样的效果,火山同传准备了一套延时字幕方案。

该方案中,音频被推送到主控端完成机器同传后,人工利用直播的推拉流延时时间,在机器同传的结果上进行内容校对,以保证投屏字幕的强可读性。

之后,火山同传的画面延时功能,能够保证校对后的字幕在延时结束后准时送出,与延时后的画面整合并同步推流到观众端,这样人物说的话就可以和同传字幕同时出现。

保证一场专业直播同传字幕质量的关键是定向的技术优化。字节跳动杰出科学家李磊介绍,在村上隆的直播中,火山翻译团队除了采用前沿的神经网络机器翻译技术进行模型训练外,还针对直播场景引入了领域适应技术,将村上隆以往的访谈和演讲数据用于优化算法,并对口语规范化、专业术语定制都进行了特殊优化处理,确保最终呈现的字幕能够简洁、精准。


创建三年,夺冠机器翻译权威竞赛

同传技术的背后,火山翻译精准的机器翻译技术同样重要。

机器翻译并不罕见,但目前的翻译准确度还不能100%让人类满意,这也是机器学习研究者们正在不断尝试突破的方向。

在人工智能自然语言处理领域顶会EMNLP 2020的机器翻译权威竞赛WMT20上,火山翻译团队拿下了「中文-英语」、「德语-英语」、「德语-法语」三个方向的机器翻译项目的冠军,以及平行语料过滤对齐项目普什图语和高棉语的两项第一。

一起参赛的还有来自微软、Facebook、Google DeepMind、腾讯、小牛翻译、华为、滴滴等实力雄厚的参赛团队。

在下面的中译英成绩表中,左侧是英语为母语的专家给出的评分,右侧是参赛团队的名字,其中-0.029的HUMAN是人类平均水平。

WMT2020 中英翻译前几名系统得分。
Ave.z代表人工评估标准化分数,也是目前机器翻译最受认可的指标。

除了「中文-英语」项目,「德语-英语」在 WMT 比赛上是传统项目,也是欧洲国家最关注的语向。在最后的人工评价中,火山翻译依然表现出色,取得了第一名的成绩。国际机器翻译大赛组委会给出了认可:“作为新的参与者,火山翻译表现尤为出色(particularly well),超越了很多传统队伍”。

火山翻译团队组建三年多,第二次参赛就拿下了5个冠军。这是如何做到的?


8人团队的参赛历程

国际机器翻译大赛(WMT)由国际计算语言学协会 (ACL) 举办,是全球学术界公认的国际顶级机器翻译比赛,也是各大科技公司、顶尖院校与学术机构展示自身机器翻译实力的较量舞台。

今年的WMT比赛,一共有中英互译、德法互译、德英互译等十余个语言翻译方向,火山翻译派出了8名经验丰富的同学组成队伍参赛。

最早参与的吴威廉硕士毕业于南京大学软件学院,校招加入字节跳动。比赛开始前,吴威廉就针对前一年的比赛WMT19开始了研究和复现。

他先尝试的是中译英和英译中两个比赛项目,用了Transformer模型的各类变种模型以及他们之间的组合,在比赛前半年就复现了中英互译的冠军分数。

不过,单靠模型可不能解决所有语言的问题。

这时,潘秀加入了比赛团队。法国巴黎高科电信学院硕士毕业后,因为法语的优势,她在2019年的校招中加入了火山翻译团队,第一次开始研究机器翻译。

吴威廉负责中英互译,潘秀负责英德互译,两人发现,除了模型本身之外,改进训练流程也是一个重要的方向。

两个月之后,二人整理了一套通用的训练流程,除了原本在做的中英、英德两组语言互译之外,其他尚未涉猎的语种一样可以借助这套流程迅速实现非常好的翻译效果。

这时他们想到:公司计算资源那么丰富,只参加中英、英德两组语言互译太浪费了,完全可以用这套方法实现更多种语言的机器翻译。

用同样的方法,多参加几个语种的比赛,在更多语种上实践技术,实现最大的效用。

但问题很快就出现了。

有多少数据,就有多强大的AI模型。在自然语言处理领域,语料库是训练机器翻译模型的原材料。

中文、英语、德语……这些大语种之间,有非常丰富的语料库,这些丰富的语料库以「句对」形式存储,比如同一句话,它的中文+英文版就是一个句对。

潘秀说:“中英我们有2000多万句对,英德也有400多万,大语种的经验,在小语种上不适用了。”

经过对比实验,他们发现问题出在了采样上,同样的采样方法,在语料库丰富的大语种上可以起到很好的作用,但在语料库不足的小语种上就很难办到了。


登上EMNLP的这项技术,搞定了小语种

这时,火山翻译参赛团队研究出了一种新的方法「mRASP」。

mRASP是一个统一的翻译模型,几乎可以应对地球上的任何一种语言和其他语言之间的翻译。

在语料库丰富的语种上,比如英译法,mRASP的BLEU分数可以达到44.3的高分。

而在语料库不那么丰富的小语种身上,只要微调一下,就可以适应新的小语种,极端情况下只要一万个句对,就能训练出一个还不错的翻译系统。

火山翻译团队的赵闲说,比如把印度南部地区使用的塔米尔语翻译成英语,就可以借助印地语,混合在一起,让印地语的语言信息帮助翻译塔米尔语。

并且mRASP非常节约资源,可以大大降低训练模型的时间,在极低资源的语种上,只要1张英伟达Tesla v100 GPU,训练不到1小时就可以得到一个效果还不错的翻译模型。

在这种情况下,给火山翻译系统增加新的语种就变成了一项根据固定流程操作的工作,「扩语种」——也就是扩大机器翻译可以覆盖的语言种类,在团队内部已经成了一个日常工作中的梗,因为mRASP太好用,只要根据已有的预处理、训练流程,就可以轻轻松松增加一个语种,潘秀开玩笑说几乎可以写个程序自动完成这项工作了。

也正是因为这些突破,mRASP的论文也成功入选了EMNLP 2020。复旦大学计算机学院教授、EMNLP2021大会程序主席黄萱菁点评说:“WMT是非常硬核的比赛,火山翻译取得了出色成绩。火山翻译的LightSeq、mRASP等技术让人眼前一亮,机器翻译有广阔的发展空间,非常期待火山翻译为机器翻译的技术研究和产品应用探索更多可能性。”


最后一周,真正的考验

虽然小语种的问题被解决了,但真正惊险刺激的故事,还是发生在最后提交成绩的时候。

机器学习的比赛中,主办方会提前给出比赛规则和训练数据,参赛队伍会有几个月的时间不断提升优化自己的模型。最后会放出比赛的「试题」也就是测试集,这时,准备了几个月的模型就能上场了,是骡子是马拉出来遛遛,提交成绩,根据测试集的分数结果决定排名。

WMT20提交成绩的窗口期,有一周的时间。

火山翻译的团队准备了用两种方法集成的模型,第一种是自己研发的随机组合法,用随机组合的方式来集成模型;第二种是去年的冠军团队使用的贪心算法,针对测试集给出的目标端语言,在巨大的搜索空间中搜索模型集成的最优解。

由于提交次数是有限的,火山翻译参赛团队先保守地提交了贪心算法的方案。毕竟是去年的冠军方案,用起来保险一些,此前团队在2019年比赛的测试集上试过,他们的新模型可以比去年冠军的BLEU分数还高1个点。

但意料之外的是,模型上传之后,竟然比当时的最高分低了3个点。

这时,队伍又拿出了原来准备的随机组合的模型集成方法,这下才又重新回到了第一。

但竞争依然激烈,站上第一名的位置一天后,立马就有其他参赛队伍迅速赶超。

提交成绩的这一周,恰好碰上中国的端午节假期,火山翻译参赛团队所有人都选择了先比赛再调休,全心全力投入比赛。

潘秀因家中有事,奔波在回家的路上。周围人可能想不到,这个在高铁上、出租车里抱着电脑敲键盘的姑娘,正奋战在一场国际顶级赛事中。

在不断被超越又不断反超的循环中,最终,潘秀负责的德英翻译取得了机器评审第二、专家评审第一的成绩。


相比拿名次,更重要的是锻炼团队

相比业界其他公司,火山翻译团队的组建并不算早。2017年开始组建的火山翻译团队,到2019年大约有20多人,包括算法、工程、产品、语言专家、运营等多种角色,配置全面。

难能可贵的是,成立至今,火山翻译团队非常稳定,没有一个人离开。团队leader王萱说,参加比赛也不是为了拿名次,主要还是锻炼团队中的新人。

在他看来,由于机器翻译技术的不断演进,以神经网络为基础的神经机器翻译自2017年开始流行,这创造了新的机会,让机器翻译的研究者从头开始,站在一个同一个起跑线上,取得了时机上的优势,再加上精干的人员配置和大力度的投入,才实现后来居上,夺得WMT比赛五项冠军。

除了技术能力优秀,火山翻译团队有着浓郁的国际化氛围,有法国留学归来的同学,还有会俄语、印地语、德语、日语、意大利语的同学,甚至还有一位中文系的同学,本科期间自学编程后入职。

赵闲说,国内很多互联网公司的机器翻译都是以中文为核心的,但字节跳动全球的产品和服务拥有大量海外用户,所以火山翻译是以英文为核心的。

团队日常会在一起讨论各种不同语言的特点:“比如日语的敬语,一段话里敬语非敬语不能混着用,说错了就会非常尴尬;还有西班牙语的阴阳性,每个词有阴性阳性,男生女生说的词也都不一样。”

在王萱看来,火山翻译并不是一个以任务驱动的团队,更多的则是团队同学靠自己的兴趣,做感兴趣的事情,进而获得自我提升。

而且,技术的影响力在这里十分明显。潘秀说,“轮子造得好,技术的影响力就能成倍地扩大。在字节,你可以看到自己做的事情在服务和支持全球上亿用户。”例如跨国团队在飞书上的交流、TikTok用户观看不同语言作者的视频,其中的翻译功能都是由火山翻译支持,这是最为广大的用户场景。

王萱也坚信自己工作的贡献:对于很多小语种国家的用户来说,享受优质的外语作品有比较高的门槛。机器翻译的意义就是降低信息门槛,避免让语言的鸿沟制约创造力。更高效准确便利的机器翻译,不仅能让创造力超越语言和国界,还能让不同语言的创作者丰富彼此的生活。

而这,也是火山翻译的技术价值所在。

延伸阅读:
  • mRASP GitHub开源地址:

        https://github.com/linzehui/mRASP
  • mRASP 论文地址:

        https://arxiv.org/abs/2010.03142

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存