查看原文
其他

YSSNLP2020特邀报告 | 朱靖波:谈谈机器翻译技术发展与产业应用

牛哞哞 小牛翻译 2021-09-27


由中国中文信息学会主办,山东大学承办的第十七届自然语言处理青年学者研讨会(YSSNLP 2020)于10月24-25日在线上举行。作为国内NLP领域最重要盛会之一,大会邀请了一些国内外计算机领域知名专家、企业家在线上做了精彩报告。特邀报告向来是大家关注的重点,小牛翻译创始人、东北大学计算机学院人工智能系朱靖波教授做了题为《谈谈机器翻译技术发展与产业应用》的特邀报告。


报告题目:谈谈机器翻译技术发展与产业化

报告人:朱靖波



内容整理(在不改变报告者内容本意前提下,经过人工修饰和适当缩减):


说起YSSNLP会议,我对它有着很深的感情,这要从我跟它的渊源说起。时间可以追溯到2004年,我到三亚参加首届IJCNLP会议,听说复旦大学黄萱菁举办当年的国内信息检索会议,我就跟她聊起了我的想法——搞一个青年学者交流活动。其实,早在2003年的时候,我和厦门大学史晓东、南京大学陈家骏、清华大学周强一起深入讨论过这个想法。对于这个想法,老前辈黄昌宁老师跟我说,不能光打雷不下雨,要干就干。所以,才有后来我找黄萱菁沟通的事情。结果她一听,也觉得这个很好的事情,可以组织起来,告诉我可以由她来承办第一届,于是,2004年年底,在复旦大学计算机系一个办公室举办了第一届自然语言处理青年学者研讨会,我给它取了个名字——YSSNLP,这个名称沿用至今。



第一届YSSNLP会议,我们邀请了来自台湾的苏克毅老师做了题为《Why and How》的报告,同大家聊了聊我们如何做研究,与会老师们都觉得受益匪浅。YSSNLP会议宗旨包括三点:加强学术界青年学者之间的交流、加强与企业的交流和加强与政府主管部门的交流。当时研讨会还是属于民间性质的,不是正式的研讨会,形式比较自由,当时哈工大刘挺提了一个建议,是否可以考虑做搞成精英俱乐部,每个实验室只能派一个正式代表参会。于是YSSNLP会议就这样如火如荼地开起来了,原来想可能搞几次就完事了,没想到大家积极性很高。

2010年是YSSNLP的一个转折点。2010年第七届会议在沈阳东北大学召开,会上决定给每个实验室增加一个新名额——列席代表,但必须是年轻人,比如博士青年教师,来给会议增添一些新鲜血液,会议的规模也从这届起开始扩大。


后来,为了让研讨会能够稳定长期地发展,大家决定把YSSNLP交给中文信息学会来管理,学会专门成立了青工委。现在参会的年轻人越来越多,也越来越热闹了,成为了国内NLP领域的重要研讨会。回想起来,当初有机会参与组织YSSNLP会议,真是一件让人感到自豪的事。这就是我与YSSNLP的渊源,也顺便介绍一下会议的发展历史。

机器翻译技术发展

回到正题,下面给大家分享一下我对机器翻译技术发展和产业应用的一些想法。机器翻译是大数据翻译任务的唯一解决方案,由于代价过高的问题,人工翻译难以胜任。其实,当初提出机器翻译的时候,本质上动机就是为了代替人工翻译。但实际上由于机器翻译技术在可预期的将来,不可能达到高水平人工翻译的水平,所以我们通常把机器翻译当成一种技术工具。机器翻译系统涉及到至少几个维度:语种、垂直领域和应用模式。

第一代机器翻译技术曾被老前辈董振东老师称作是“傻子”。由于翻译规则通常由语言学专家人工书写,覆盖度有限,实际翻译句子的时候,经常遇到无法匹配合适翻译规则的情况,从而造成翻译失败的结果。人工书写翻译规则的代价非常高,我们这批人基本上是从这个阶段过来的,有时候书写翻译规则可以让人产生“绝望之感”。还有一个原因是翻译规则写多了,还会出现跷跷板现象,翻译规则是写不完的,没完没了,不知道啥时候是个头。

80年代末90年代初,统计机器翻译技术出现了,它最吸引人的地方,不是纯技术的问题,而是不用人工书写规则了。完全数据驱动的方法,事先准备好大规模双语句对,完全机器学习的方法自动构建机器翻译系统。统计机器翻译技术有一个优点,不管输入任何句子,系统一定能够输出一个译文,不会出现翻译失败的结果。但存在最大的问题是翻译品质问题,复杂结构句子的自动翻译效果不太好,特别是涉及到译文中需要调序的现象,所以我们经常发现译文中短语翻译效果不错,一看译文句子结构就乱套了。还有一个奇怪的现象,同一个句子假设翻译挺好,也许做了一个细微的修改,译文的质量就差很多,简直不可预料。所以当时董老师称第二代统计机器翻译系统为“疯子”。

第三代神经机器翻译技术诞生于2013年,基本思想就是不再用短语去拼接翻译,而是把句子首先变成一个向量去解码翻译,当时提出的框架就是端到端(编码器-解码器架构)。从最初提出来的时候主要应用RNN循环神经网络,后来由Facebook提出了基于CNN卷积神经网络,目前主流的是谷歌提出了基于自注意力的Transformer。其实,神经网络这个理论在40年代就有了,但是真正运用到机器翻译领域还是比较晚的。在2013年之前,为了解决统计机器翻译语言模型的问题,大家也引入了神经网络技术去建模,比如引入改善语言模型和调序模型,虽然效果有所改善,但翻译品质问题并没有完全解决。

2013年,Encoder-Decoder神经机器翻译框架被提出,刚开始不被业内看好,因为翻译品质并不好。2015年Attention机制被引入后,这是一个里程碑的工作,大大推进了机器翻译的发展,翻译品质得到大幅度提升,神经机器翻译技术一下子火起来了。

我是做机器翻译产品的,所以非常关注最新一代技术。自从统计机器翻译产品推出后,用户愿意接受免费使用,但不愿意付费买单。所以在2012年-2015年那段时间,我们小牛翻译发展的举步维艰。

2015年,我受邀参加了一个微软研究院的机器翻译研讨会。交流的时候我听到了一个消息:微软和谷歌都在研究神经机器翻译系统。在统计机器翻译时代,我们小牛翻译可以说是属于业内第一梯队的,但是这条路行不通,根本无法赚到钱,感觉继续走下去估计也是死路一条。统计机器翻译技术从理论到工业界应用大概用了十五年,我当时猜想神经机器翻译技术发展再快,落地到工业界差不多也需要七八年,感觉可以赌一把,所以我们小牛团队集中所有研发力量,在2015年开始正式启动研发神经机器翻译系统。

让我们感到惊讶的是,没想到神经机器翻译技术从理论提出到进入工业界应用只用了短短三年的时间。记得2016年10月左右,谷歌神经机器翻译系统上线了,一下子引起了业内的轰动。随后微软神经机器翻译系统11月上线了,同年12月,我们小牛神经机器翻译系统部署到腾讯和科大讯飞等合作伙伴内部试用。

小牛翻译两项重要研究工作

自从Transformer被提出以后,至今为止还有没有一个更强大的全新理论模型推出来,这也许可以说明机器翻译技术发展进入了一个相对缓慢期。这几年,我们小牛团队也做了不少神经机器翻译的研究工作,值得一提的是近两年我们做的两项工作。

第一项工作就是2019年我们在ACL2019发表的《Learning Deep Transformer Models for Machine Translation》这篇论文(地址:https://arxiv.org/abs/1906.01787),文中涉及到的技术,业内有些公司也在使用。我们知道网络层数越深,表达能力越强,模型翻译性能更好。但是传统Transformer结构随着层数的增加,一旦层数过高,比如达到20多层以上,在训练过程中模型参数难以收敛,容易导致训练失败。我们小牛翻译所提出的Deep Transformer允许支持更深层次的网络结构,我们内部实验尝试过50层以上都可以训练成功,能够降低了模型的训练难度,有效训练出更深的模型结构,进而提升机器翻译系统的性能。目前,我们小牛翻译系统采用30+层的Deep Transformer模型,翻译品质效果最好。

第二项工作是我们今年的AAAI2020会议论文,做了一个尝试,提出一个NiuTrans Reformer神经机器翻译架构,不同于传统基于编码器-解码器架构,基于联合分布的注意力模型。最初动机因为目前机器翻译都是经过两个阶段输出结果(Encoder-Decoder),为了防止信息的丢失,能不能实现一个阶段就完成翻译呢?我们发表的这篇文章《Neural Machine Translation with Joint Representation》(地址:https://arxiv.org/abs/2002.06546)就针对这个问题进行了初步有趣的尝试。

如何更好构建机器翻译系统

神经机器翻译一登场,一时风头无两,多家机器翻译公司如雨后春笋跑出来,特别是深度学习工具开源出来以后,机器翻译的门槛儿也变得越来越低了。老实说,当年对我们这些做统计机器翻译出身的人来说,打击还是挺大的,好像采用开源工具随便一弄,就能搭建一套神经机器翻译系统,翻译品质还不错。但是话说回来,玩一玩是可以的,但是要真正做到系统能用,其实也是不太容易的。

大家经常问我:如何做一套真正好用的机器翻译系统?我认为至少需要三个东西:一是需要掌握最新的机器翻译技术;二是需要大规模的双语句对库;还有很重要的一点是要针对错误进行驱动打磨纠错。打磨一套系统是需要花很长时间的,这就是为什么大家用相同的数据,用相同的模型,做的系统翻译品质不一样。

现在,机器翻译面临一个用户比较关心的问题——反馈学习。比如,我们给用户提供机器翻译服务的时候,用户说翻译结果不理想时会自行纠错修改,问题是系统“记不住”教训,下次翻译还是不对。所以如何让机器翻译系统实现更好的人工干预,或者通过用户提供的错误纠正实例来进行反馈学习,我觉得将是一个值得挖掘的方向。

另外,现在学术界有很多研究论文讨论到基于知识的机器翻译,其实这个问题是有争议的。因为面向机器翻译的知识如何定义和如何获取知识等问题还是面临很大挑战。我个人观点,语言学的知识,甚至说外部的知识,包括领域的知识,我觉得对机器翻译是有价值的。毕竟现在机器翻译用的是数据驱动的方法,它只能从现有的数据里面得到翻译知识。

目前机器翻译面临的问题

·  复杂网络建模问题
更加复杂的网络结构表示能力更强,在编码阶段能够对输入句子实现更好地表示学习,能够提高解码阶段的翻译品质。所以我们就要用更深更宽的网络去建模+训练。

·  结构学习问题
重要进展往往源于网络结构的创新,但很多未知结构没有被探索,这个过程需要人的“灵感”和大量经验性实验,我们要做的就是想办法实现结构的自动学习,让它能够针对数据,适配相应的结构。

·  效率问题
传统的NMT模型对于GPU计算资源要求比较高,比如模型大小达到几个G,难以适应小设备的应用场景,这就需要提升模型效率,这就需要我们创造出更小更快的系统。

·  适应性问题
通用模型被应用到新的数据、领域效果差,不同规模、类型的数据,甚至不同表达方式对系统表现影响很大,我们可以考虑打造面向低资源场景的高适应性模型。

· 语音翻译建模问题
传统方法通常简单将语言识别技术和文本翻译技术串联起来,会导致错误蔓延,如何采用端到端进行语音翻译建模是一个现实存在的问题。从这一点上看,多模态神经机器翻译的建模是比较值得关注的。

关于新一代的机器翻译技术

· 基于知识的机器翻译技术会成为新一代技术吗?
其实这个问题是没有解的。比如说,我们该用什么样的知识,知识怎么获取,知识怎么表示,知识怎么用,这些问题都是很难解的。所以说,基于知识的机器翻译系统能不能作为下一代,我觉得很难说。

· 引入新的学习范式,比如小样本学习能力?
现在提出一个观点,就是说机器翻译要求训练的数据双语句对量太大了,像我们做小牛翻译的时候,像英中/中英要几亿个双语句对,能不能用更少的语料完成机器翻译的有效训练?我觉得这是一个非常值得研究的方向。

· 有人问机器翻译是否需要理解?
严格地说,现在的机器翻译根本没有真正的理解,所以说将来需不需要理解?我觉得适当的理解过程有可能是需要的。

· 是否存在第四代机器翻译技术?
神经机器翻译在训练数据如果足够充分的情况下,翻译品质人工评价可以达到85%甚至是90%,随着技术的迭代,可能会变得更高。那么,下一代机器翻译系统性能会达到多少呢?所以,我觉得后续的机器翻译发展方向,不是简单的提出一套新的技术去碾压神经机器翻译,它应该是针对具体的应用场景,不断地提出更加有效地机器翻译技术,比如前面提到的利用更少训练数据实现机器翻译系统构建、稀缺资源语种机器翻译等等。

机器翻译的可解释性问题

大家一直在研究神经机器翻译的可解释性问题,在深度学习中不管哪个方向好像都面临这个问题,我们要搞清楚一点,我们为什么要研究机器翻译的可解释性问题。

举个例子,比如说我们用深度学习技术做一套法官判案系统,代替法官来判案,那么对我们来说,到底是关心AI是如何推理的,还是关心判决有罪的法律依据?我觉得机器翻译的可解释性研究,它可能最关心的并不是这个译文是怎么解码出来的,也不是说从语言学、翻译学上怎么解释(这个观点是前段时间宋柔老师提出来的),我们研究可解释的目的应该是为了纠错。所以我也倾向于同意机器翻译的可解释的研究,将来应该朝如何更好地完成纠错的方向去发展,而不是简单从语言学上、翻译学上去解释这个译文正确与否。

技术驱动激活产业化

现在神经机器翻译技术发展不错,但是感觉市场规模还不够大。我预测在3-5年以后,技术会发展得更好,当然市场也会变得很大。所以我建议大家,如果想做机器翻译创业的话,现在是个好时机,但是要有耐心,要学会等待机会。

机器翻译的应用场景还是非常丰富的,包括文档翻译、翻译机、大数据舆情分析、口语翻译,翻译笔,会议同传等等。我对AI同传这个方向还是看好的,但是现在它的技术不够成熟。我相信,等到将来技术成熟以后,AI同传会成为国际会议和会议室的标配,语音跟翻译结合的应用模式,我觉得是绝配。

现在人工智能芯片发展得非常好,大家都知道语音芯片和图像芯片,但是机器翻译芯片现在还没有,我看好机器翻译芯片这个方向,一旦研发出来,可以应用到复印机、传真机、翻译机里面,这是一个不错的应用方向。

机器翻译市场分析

机器翻译是一个强刚需,随着技术的发展,用户需求不断被激活,但是机器翻译产业不属于爆发型,属于稳步增长型。将来To C应用大多以免费为主,机器翻译目前的主战场是To G跟To B项目,将来的主战场我觉得是在To B上。

我预测在机器翻译行业,不可能有行业巨头出现垄断市场。主要是机器翻译的维度太多了,它有很多语种、有很多领域、还有太多的应用模式。所以将来机器翻译行业,我猜想一定是百花齐放的。

前面提到,机器翻译市场目前还不够大,根据一些调查分析报告来看,目前保守来说应该在30-50个亿左右,但是我相信机器翻译在3-5年以后,特别是机器翻译和语音技术等多模态技术结合到一起之后,我觉得是可以达到300-500亿的市场规模。也许5年以后会出现至少一家以机器翻译技术为核心的独角兽,当然了我希望是小牛翻译,也可能不是,大家拭目以待吧。

未来,机器翻译行业将来会出现两类企业,第一类像小牛翻译一样,专注机器翻译引擎研发,做基础设施平台的;第二类是主要做机器翻译应用与服务,我建议大家如果想在机器翻译领域创业的可以做第二类,结合具体的应用场景,直接接触客户,创业风险比较小。

机器翻译产业已经从蓝海进入到了红海,市场洗牌已经开始,波及最大的应该是做机器翻译引擎的企业,这类企业竞争非常残酷。但是在机器翻译应用服务这块市场会百花齐放。所以,我觉得眼下的情况是机器翻译技术不错,市场规模不够大。但是3-5年后技术更加成熟,市场会迅速扩大,对此我还是比较乐观的。

关于科技成果转化

我们做的小牛开源平台在github上(https://github.com/NiuTrans),提供了小牛深度学习开源平台NiuTensor、小牛统计机器翻译开源系统和小牛神经机器翻译系统,给大家简单分享一下。

我是非常鼓励科研成果走出象牙塔,创造更大的社会价值的。转化的方式包括专利授权,技术转让,横向项目、创业转化等。科研人员创业的优点懂技术,能够正确预测技术发展,轻易不会被技术发展所淘汰掉。但是技术没有商业模式,只有产品才有商业模式,所以要怎么解决用户的需求,这是一个关键。

强技术团队的优点就是学习能力比较强,但是市场营销能力比较弱。这种情况,可以选择和别人合作,专业的事情交给专业的团队去做,一定要把强技术团队转化为强产品团队或者强运营团队,才能支撑起商业模式。当然,一定要解决好知识产权问题,千万别因为知识产权把发展之路堵死了。

我的观点是:好的品牌=好人品+好产品+好服务。只有这样,你的企业才能真正实现盈利。创业转化模式可能是一条美好的不归路,一旦走上这条路,就没有退路可言,所以大家要谨慎而为之。

往期精彩

小牛翻译团队亮相第四届语言文化与军事研讨会

程序员日 | 感谢你让这个世界变得如此有趣

小牛翻译与墨责文化签署业务合作协议

辽宁省政协副主席戴玉林莅临小牛翻译考察调研

安全国产化,自主控未来 | 小牛翻译推出国产计算机适配方案

免费体验再升级 | 赋能智能翻译设备,推出离线翻译解决方案

机器翻译思想提出71周年 |破土而出的机器翻译

再添新福利 | 机器翻译系统可以申请本地部署免费试用啦!

开门见山 |小牛翻译四大免费权益招募合作伙伴

304!小牛翻译引擎又新添语种啦?

2020年首届线上中日机器翻译论坛圆满落幕

漫谈小牛翻译|在线机器翻译能力免费开放,良心“福利”在哪里?

不只是免费!小牛翻译开放平台V6.1今日上线!

首届线上中日机器翻译论坛即将开启:让机器翻译为中日经济交流赋能

文档翻译“神器”上线!带你快速GET如何高效翻译多格式文件

七种语言表白,小牛翻译收到暖心“三行情书”

心有坚守,仰望星空——写在小牛翻译13周年之际

与开发者共成长!小牛翻译开发者社区上线


: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存