肖桐：机器翻译研究前沿与应用趋势

翻译技术教育与研究 2023-11-22

The following article is from 智源社区 Author 李梦佳

‍【专栏：前沿进展】机器翻译是自然语言处理领域最活跃、最充满希望的方向之一。机器翻译也从SMT（统计机器翻译）过渡到了NMT（神经机器翻译）的时代，深度学习的崛起也为主流范式注入了新希望。

作为技术变革的亲历者，东北大学自然语言处理实验室肖桐老师在访谈中表示「经历了从 SMT（统计机器翻译）到NMT的时代，我觉得很幸运，见证了机器翻译由发展到最终爆发的阶段，人们对机器翻译的关注度不断上升，很让人兴奋。」

经历了数年的增删打磨，2021年10月，《机器翻译：基础与模型》最终出版，洋洋洒洒600余页，90万字，这当中融汇了东北大学自然语言处理实验室和小牛翻译团队在这个方向上40余年的科研成果，凝聚着一代一代机器翻译学者的心血和思想。

与此同时，新时代背景下，问题也应运而生。大模型如何应用在机器翻译？通用模型如何应对细分领域的专用场景？另一方面，自媒体打出的「Facebook开源机器翻译新模型，同传人员或失业」等标题也为公众的认知蒙上了一层迷雾。

智源社区特此采访了本书的作者之一，东北大学自然语言处理实验室肖桐老师，通过10个问题解读了机器翻译近来的研究前沿和应用趋势，回顾机器翻译的前世今生。

肖桐，博士，东北大学教授、博士生导师，东北大学计算机学院人工智能系系主任，东北大学自然语言处理实验室主任，小牛翻译（NiuTrans）联合创始人。于东北大学计算机专业获得博士学位。2006-2009年赴日本富士施乐、微软亚洲研究院访问学习，并于2013-2014年赴英国剑桥大学开展博士后研究。主要研究领域包括自然语言处理、机器学习等。在国内外相关领域高水平会议及期刊上发表学术论文70余篇。作为项目技术负责人，成功研发了NiuTrans、NiuTensor等开源系统，在WMT、CCMT/CWMT、NTCIR等国内外测评中多次获得冠军。2014年获得中国中文信息学会首届优秀博士论文提名奖，2016年获得中国中文信息学会“钱伟长中文信息处理科学技术奖”一等奖。任ACL、EMNLP、TACL等国际著名会议及期刊的领域主席和常驻审稿人。

讲者：肖桐

编辑：李梦佳

Q1：机器翻译发展很长时间了，这种关注度提升背后的原因？

A：我认为，在近几十年内机器翻译应该是一个很受关注方向，它是自然语言处理包括整个人工智能领域中最重要最有挑战的一个任务，甚至有把它比喻成人工智能实现的终极目标之一，就是人工智能实现像图灵测试一样，机器翻译是其中一个终极目标。

近几年，随着报道和交流逐渐增多，人们对机器翻译的关注度也在提升。这归结于机器翻译的产业应用效果明显或者说技术落地变得更好了。换句话说，10年前的机器翻译虽然有技术有方法有论文，但是不好用。

但从整体技术范式的变迁来看，我觉得机器翻译发展到现在，以深度学习或神经机器翻译为主的这种范式，主要是技术量变到质变的过程。比如早期的机器翻译，包括早期基于规则、基于实例、基于统计的模型，这些方法不能说不好，因为在那个时代下的方法、算力和数据规模，只能做到那个程度，超越当时生产力的水平强行实现技术跨越式发展，我觉得是不可能的。就像当年蒸汽机发明之后，才会有电，才会有现在信息化的手段，不可能跨越蒸汽机，没有电直接搞信息化。

所以，我觉得这是一个量变到质变的过程。机器翻译当前的水平正是几十年的积累沉淀而成，包括数据和算法的积累。

另外，从偏工程的角度看，机器翻译的快速发展这也要得益于数据规模和数据质量的增加。

以我自身的经历为例，我以前做系统开发比赛时，汉英双语句对有几十万、几百万的量级就已经很多了。当时拿几百万的数据去参加NIST机器翻译测评（https://www.nist.gov/itl/iad/mig/open-machine-translation-evaluation），就觉得是天文数字。

再看现在，学术界的比赛中都是千万句对起步，谷歌、百度这种产业巨头有几十亿甚至上百亿句对，小牛翻译也使用了几亿句对，数据带来的翻译质量的提升，是无法忽略的。技术上有再多的提升，没有数据都没法支撑。

总体而言，机器翻译从大的层面来讲有三个趋势：

第一，需求的提升；

第二，技术从量变到质变的过程；

第三，数据规模和质量的提升。

Q2：如今机器翻译论文很多，未来的发展趋势和潜力的发展方向有哪些？

A：放到5~10年前，谁也不敢说，机器翻译可以引领人工智能。但现在机器翻译可以说是走在整个人工智能发展的最前沿，几乎没人质疑这件事。

比如说，早期的机器翻译模型大多来自于语音识别、图像处理甚至一些机器学习的常规范式。比如判别式模型、生成模型等都是来源于其他任务，并不是机器翻译研究的原创。

但是，反观近几年机器翻译的发展，比如近期大火的Transformer，最开始的模型应用就是在机器翻译，Transformer本身处理的就是这种双语或单语的对应关系的任务。这样来看，包括机器翻译在内的整个NLP技术已经在引领人工智能的发展了。当然它也面临很多的挑战，包括以下几个方面：

第一，低资源的机器翻译。在机器学习里面叫小样本学习，但在机器翻译里叫低资源。

为什么强调低资源？据记载世界上现存将近7000种语言，但大部分语言都不属于富资源语言，它们属于低资源语言，比如乌尔都语（阿富汗），这类（低资源语言的）问题是非常有潜力的。

第二，基于上下文或者环境融合的翻译。环境和上下文是一个广义的上下文，我举个例子，比如我在翻译的时候，不仅仅考虑单一的句子，而要考虑篇章的信息，就是一种上下文关系。比如，我在翻译的时候，要结合图像的信息，多模态信息也属于上下文。甚至语音翻译的时候，音频信号也可以看成一种上下文或环境的信息。换句话说，不再单单去翻译某个句子，而是考虑更充分的环境，这是非常有价值的一个问题。这种观点和人的语言能力形成也是有联系的，因为人在形成语言能力的过程中，不是单纯基于文本，而是在一个复杂环境中，经过多方面刺激最后获得了这种能力。

第三，整个模型结构的充分利用和有效设计。第一层，机器学习或统计学习中如何去设计常用的统计模型。第二层，我们是否能够使用语言学中的一些先验的结构知识去指导机器翻译，这也是非常值得去探索的，我本人博士论文也是做的这个方向。

第四，工业落地应用问题。现在机器翻译都使用GPU，系统跑起来比较慢，对硬件的要求比较高。如何让模型或者机器翻译系统变得更小更快，甚至可以在手机这样的离线设备上使用，是非常现实的问题。

以上四个方向比较有潜力。

Q3：机器翻译这么多语种是否需要语言学知识来支撑，是否语言学对机器翻译或语言的结构会有帮助？

A：很多专门做职业翻译或者语言学的人经常会问，你们做的翻译有没有参考一些教科书上语言学的语法知识。实话实说，现在工业级的系统中直接使用语言学结构的东西并不多，但语言学的结构一定会有用。

现在最大的挑战在于神经机器翻译范式，是一种连续空间表示模型，它把一个事物映射成一个低维稠密的实数空间上的一个向量或者说实数向量，但语言学的外部结构是离散的树状结构，如何将这种结构映射成低维稠密的实数向量，而且可以很好地让既有模型能够使用这种外部信息，本身是一个科学问题。

这样的科学问题如果能够被解决的话，一定会发挥作用，但目前还没有达到那样的阶段。现在大家看到预训练模型、机器翻译模型当中已经在使用一些结构（也许不是语言学的结构）去指导，这是非常有价值的。

Q4：不同的语种，意大利语、法语等大语种，乌尔都语等小语种，语法结构从语言学角度是不一样的，用到翻译系统当中如何优化？

A：首先，同一语系，比如意大利语和西班牙语，德语和英语（词表有很多重叠），这时语言之间的迁移，不同语言之间关系的借鉴和共享是非常容易的。

但当两个语言之间的差异性非常大时，比如小语种翻译，就会导致性能的急剧下降。这就是为什么现在低资源翻译非常具有挑战的原因。

当然也有一些方法可以得到一些相对较好的初步结果，比如机器翻译有一个研究方向叫做无指导的词典归纳，即完全没有任何平行数据，把两个语言之间的词典归纳提取出来。完全利用语言现象的规律，我举个例子，中文里面我们交流的时候，用「他/她」这种代词比较多，但在英语里面I和you比较多，它们之间天然会存在联系。比如能给一些初始的种子，100个对应的词，用它来做锚点，来通过机器学习的方法把这种词典归纳出来，也能做得很好。

但提到语言学结构，在现在的机器翻译主流范式当中语言学结构应用的还不是特别多。基于词串这类的非语言学结构的模型多一些，更多是看语言表象中统计的信息。我非常赞成您刚才提到的观点，语言学的结构必然会有用，但是目前还没有到达那个阶段。

Q5：大模型爆火，比如现在的GPT3、智源自己的悟道大模型，有关大模型在机器翻译中的应用，您有什么想分享的？

A：从现实情况来看，大模型在机器翻译中的应用还没有特别成熟的成果。原因有以下几点：

第一，机器翻译的模型本身已经不小，它本身就是一个很大的模型，虽然比不上BERT和GPT-3，但是这个模型的容量已经不小，足够较好地对句子进行表示，双语的对应等已经能学成八九成。这时，大模型对机器翻译的补充能有多少，或者说大模型能解决现有机器翻译的哪些具体问题，还需要认证和研究。

第二，大模型应用在机器翻译，挑战主要还是在于算力不足。机器翻译已经步入产业化的阶段，大家不再单纯去做实验性的研究，去部署一套系统要考虑投入产出比，如果模型太重，部署一套机器翻译服务需要许多GPU，成本过高，大家就不用了。

第三，最大的问题在于大模型强调的是通用的统一的语言的表示，而机器翻译已经步入到针对细分场景具体问题进行研究。当然从认知的角度来说，大模型能够提供一些世界知识、通用知识是无可厚非的，大模型可以提供一些基础，但最终一步一定是由机器翻译模型来完成的，不应该是大模型去解决。

关于未来，我认为，大模型是跳出了传统NLP针对具体任务设计模型的思维限制，但是反过来说，现在大模型也要跳出通用模型的限制，回归到具体任务当中，这是问题的两面性。

Q6：目前机器翻译哪些场景和领域比较有潜力？

A：第一，需要海量的多语言文本处理，比如每年的专利检索，再包括互联网信息的收集，相关情报部门，商业信息部门等。这些必然需要机器翻译或辅助检索的方式。

第二，需要低成本实时多语言交互的时候，比如出国旅游购物，需要迅速知道化妆品的成分，和售货员的这种沟通。

再一个就是细分领域的专用翻译，比如一些比较窄的场景，如药品的说明书等，内容非常集中规范，机器翻译可以做到高精准。

再有，软硬结合的机器翻译，机器翻译不能脱离硬件去谈，未来它的载体是什么？虽然有人说是噱头、炒作，但智能翻译硬件，也是一种未来的趋势。

Q7：如今，机器翻译早已进入了大规模应用落地的阶段，有关机器翻译应用落地的趋势您有什么心得体会？

A：整个科技行业确实容易出现这种过冷过热的问题，机器翻译也是这样，早期的机器翻译大家也是抱有很强的热情。

比如谷歌上线机器翻译能力的时候，大家觉得机器翻译时代已经到了，后来发现还是有差距。从机器翻译应用的角度还有很多问题亟待解决。

第一，我们现在大多数研究的是通用机器翻译系统，但这种通用的系统并不能很好地应对专用的领域，即细分场景。比如说现在流行的直播，里面有大量口语化用词、停顿，包括一些方言中的平翘舌等等，这些与通用新闻翻译场景的差别非常大。因此如何针对场景设计翻译系统，是非常有价值的。

第二，从应用方式上来讲，由于互联网公司给大家建立了一些标准化的模式，比如线上API的调用、线上文本框的翻译，但是现在真正需要机器翻译的形态不只是API调用和文本框翻译，需要更多形态，比如，与CAT结合的翻译软件等。

因此，扩展应用的形态，也很重要。

第三，早期的机器翻译，都是以英文这种大语种为核心，未来会出现包括小语种的翻译，以及中文地位上升后以中文为核心的翻译。因此，从少量语种翻译到支持全球更多语言的翻译，这也是应用落地非常重要的一点。

第四，传统机器翻译更多关注的是文本的简单输出，即输出译文给用户，但未来需要更多交互的呈现方式。

现在翻译圈里讨论比较热的问题是机器翻译+译后编辑（MT+PE），机器翻译的结果来做人工的修改，来达到交付的程度，PE不是简单的修改译文，需要大量的人的交互，而且不能每次都修改同样的错误，这种交互式翻译，增量式训练，是值得关注的。

现在，多模态翻译的研究已成为热门研究话题，这种语音、图像的翻译，也都要考虑非单一文本的东西，比如车载系统中的翻译，实时朗读出来。

这是几大应用方面的趋势。

Q8：有关机器翻译系统的开源，做开源系统的初衷是什么？

A：第一，我在做的开源工作，包括小牛翻译开源系统NiuTrans，我个人觉得这几年国内的开源环境比之前几年要好很多。我当年做开源的时候，完全是凭着一腔热血去做，这个东西很难被认可，这项工作并不被看做是学生毕业和教师考核的参考因素，成果也写不到纸上。

近几年情况发生了显著的变化，随着大家整体认识的提高，整体的开源环境变好了。有人说，开源的生态，包括上下游完整产业链的构建。比较幸运的是，我的博士导师朱靖波教授非常支持开源，也正是由于这种信任和坚持，我们一起开展了十多年的开源系统的开发。包括，我在英国剑桥做博后时的导师Bill Byrne教授，他们当时也在做开源系统，单纯觉得这件事值得投入，觉得有价值就去做。我想许多开源爱好者也像我一样，是由最初的爱好，到后来有一些支持的“朋友”，于是就做了开源，初心就很简单。

开源的精神就是一种分享，本身最初的价值是无私的，国际上成功的开源案例，比如Apache、Linux最终有其商业价值，但最初纯粹就是去做分享。当然开源也面临很多挑战，比如长时间稳定的投入，可能需要3、5年甚至10年。

回顾我们的NiuTrans开源项目，参与毕业生已经超过10届了。回过头来，我觉得人工智能的很多进展也是得益于开源，我举个例子，机器翻译用SMT的年代，包括Moses（摩西）、NiuTrans就给很多人提供了基线系统，做研究的时候，不需要重新再做极限，自己拿人家开源的去改就可以了。包括如今的TensorFlow、PyTorch、PaddlePaddle，这些都使得人工智能的发展变得更容易复现、周期更短了。

当然未来，高质量的开源工作需要汇聚力量，完善开源项目的管理运行机制，树立正确的开源工作评价体系。这方面需要进一步突破。

Q9：像WMT这种翻译测评，测评的标准要如何衡量？是人为的来打分吗？

A：早期的机器翻译比赛任务更多还是自动评价方法为主，主要是考虑成本，组织者找人去评需要花钱。现在大多已经回归到人工和自动方法相结合，有一些评测任务的官方报告当中也会以人工评价结果为主，所以还是相对客观真实。

这种比赛更像是在一个规定动作下的完成度，使得我们在机器翻译研究时，可以在一个标准的框架下来完成机器翻译的研发，来去快速验证你的方法的有效性。

当然，不同数据使用情况效果也不同，比如IWSLT口语翻译，数量比较小，在这个数据上的一些方法证明是好用的，但换到其他的数据上比如WMT可能就会有不一样的结论。

Q10：有关机器翻译替代自由译者，作为机器翻译技术人员怎么看？

A：有那么一段时间，机器翻译和人工翻译的人还有一点点“对立”，实际上有些“幼稚”。

第一点，我觉得机器翻译的目标不是完全替代人，我不相信我有生之年能看到机器翻译完全替代人，虽然我的梦想是做一个最好的机器翻译技术。机器翻译的目的是代替低质量的翻译，代替人做价值不大的翻译，比如说，代替价值较低的低端翻译，但是高端翻译需要现场的反应或者知识储备，机器翻译不能完全胜任。

第二个机器翻译既然定位是辅助人，过程中也需要人的反馈，需要人的操作，比如口译中最难的同传，两三个人去配合，那么机器翻译最终的形态，可能会和人形成一种互助交互的方式。

换句话说，机器翻译促使译员高端化，它代替低价值的工作，增加了人的劳动价值。想要代替口译同传这种高端的工种，是完全不可能的。

往期精彩回顾

AntConc简介及索引工具介绍（一）