阿里巴巴机器翻译在跨境电商场景下的应用和实践
摘要:阿里机器翻译团队在阿里巴巴业务场景主要应用在电商、沟通等垂直领域,服务的业务方包括AliExpress、Lazada、ICBU、天猫国际、淘宝海外、钉钉、阿里云等重要国际化业务,帮助这些业务解决在国际化发展中各国家本地化过程最基本的语言问题。本文将与大家分享机器翻译相关背景知识,再深入介绍机器翻译在阿里生态中的具体应用实践,介绍基于机器翻译技术搭建的一套完善的电商多语言解决方案,最后将会从技术角度介绍阿里机器翻译在解决实际业务问题中的技术创新和亮点。
发布会视频回顾:
http://click.aliyun.com/m/1000010345/
演讲PPT点击左下角阅读原文下载!
演讲嘉宾介绍
施杨斌,阿里巴巴机器智能技术实验室翻译平台高级技术专家,目前担任阿里巴巴机器智能技术实验室翻译平台语料和解决方案方向负责人。语料方向主要负责阿里机器翻译语料数据获取、清洗、挖掘以及系统化建设工作。解决方案是将阿里翻译技术能力进行封装、整合、服务化后以完整解决方案方式对外输出,整体解决跨境电商国际化过程中的语言问题。
以下内容根据演讲视频以及PPT整理而成。
本文与大家分享的主要内容将分为以下四个方面:
1.机器翻译背景介绍
2.阿里机器翻译在跨境电商的应用
3.阿里机器翻译技术亮点
4.阿里云机器翻译产品介绍
一、机器翻译背景介绍
首先为大家介绍一些机器翻译相关的背景,这里主要分为两个部分,即机器翻译动态和阿里机器翻译。
提到翻译,你会想到什么?
提到翻译,可能大家第一时间就会想到的是同声传译,其次大家可能会想到在影视作品中字幕的翻译。今年年初比较火爆的一部电影《无问西东》的英文名还是比较有意思的,叫做“forever young”,通过电影的英文名也向大家传递了这部电影想要传递的另外的一层含义。当然了,这样的英文电影名的翻译必然是人工翻译的,显然不会是机器翻译的结果。大家在日常工作学习中还会遇到的场景就是机器翻译了。
机器翻译的发展历程
在正式介绍机器翻译的背景之前,先和大家介绍一下机器翻译的发展历程。下图是Chris Manning手绘的机器翻译发展历程图,从这张图中大家可以看到,其实早在1954年就出现了机器翻译相关的介绍,到了1982年就出现了第一个基于规则的机器翻译系统,到了1993年左右就出现了基于词维度的统计机器翻译系统,之后还出现了基于短语维度的机器翻译,并且在此之后还对于基于短语维度的机器翻译进行了优化。直到最近的2014年左右,随着人工智能的发展才产生了基于神经网络的机器翻译,这对于机器翻译的质量有了极大的提升。之所以介绍这样的一条机器翻译发展之路,其实是想为大家说明:机器翻译也是在不断地进步,而机器翻译的质量也发生了很大的变化,并且在很多场景下,机器翻译都发挥出了极大的促进作用。
哪些场景需要机器翻译?
首先是语言服务的公司,比如翻译服务供应商以及本地化公司,他们会借助机器翻译来提升人工翻译的效率;此外就是互联网内容提供方,因为在互联网公司需要开设国际新闻资讯以及外语新闻资讯的站点,比如Youtube、Youku等视频内容提供方可能需要借助机器翻译将视频内容翻译成多语言的版本;第三部分就是社交平台,在社交平台之上的用户其实往往是来自于各个不同国家的,需要通过机器翻译打破用户之间交流的屏障;第四部分就是政府以及一些国企,他们的网站上需要提供一些内容、新闻等,并且需要实现服务的多语言化;此外,还有一些像华为、惠普这样的跨国公司,他们的产品需要销往世界各地,那么他们的产品说明书以及一些对于用户的支持服务也需要多语言的版本;最后一类就是工具类服务提供商,就比如大家比较熟悉的飞猪需要提供旅游方面多种语言的支持,而沪江则会提供个人语言学习上的支持。
机器翻译的市场规模
如下图所示的是机器翻译市场的大致情况。大家可以看到传统的机器翻译公司有谷歌、百度、微软,与此同时也可以看到一些最近兴起的机器翻译公司,比如亚马逊、中译语通以及小牛翻译和阿里语言服务等。整个机器翻译的市场规模在2017年就已经达到了450亿,并且每年以10%的年增长量率在增长,如今每天的在线翻译量已经达到了1000亿这样的数量级。
阿里巴巴为什么需要机器翻译?
上面介绍了机器翻译的一些相关背景,接下来回到这个话题:阿里巴巴为什么需要机器翻译?其实这个问题的答案很简单,就是阿里巴巴最近几年都在大力发展国际化的战略,因此需要将阿里巴巴的所有业务向国际化推动,开放给全球更多的用户,阿里巴巴要实现5个全球化。而在这个过程中,语言问题是阿里巴巴必须去解决的,所以阿里巴巴在机器翻译方面做出了很大的投入。
阿里巴巴机器翻译的能力
通过下图大家可以简单地了解阿里巴巴机器翻译的整体能力。阿里巴巴在2013年左右开始投入进行机器翻译方面的研发。到目前为止,机器翻译已经服务于阿里巴巴内部40多个团队和170多个应用了。阿里机器翻译目前能够支持21个语种以及43个语言方向的翻译,并有具有19个语言方向的自动语种识别能力,在阿里巴巴内部日均调用量达到了7.5亿次,并且系统稳定性也已经达到了99.99%的水平。在今年刚结束的机器翻译领域最为权威的WMT国际比赛上,阿里机器翻译在5个语项上取得了全球第一。以上这些能力都体现了阿里机器翻译的长期积累。此外,在翻译形态上了,除了能够支持传统的文字翻译之外,还能够支持语音、图片以及视频翻译的能力,并且这些能力也将会在后续再阿里云上输出出去。
二、阿里机器翻译在跨境电商的应用
前面的第一部分为大家系统地介绍了机器翻译的发展历程、背景以及阿里巴巴在机器翻译方面的一些能力。在第二部分将为大家着重讲解一下机器翻译在阿里跨境电商场景下的具体应用。在这部分中会为大家完整地介绍跨境电商的全链路,并且会在全链路中选取几个具体的应用案例进行展示。
跨境电商全链路
下图非常清晰地描述了跨境电商全链路的情况。首先,对于想要做跨境电商业务的网站而言,最开始要做的就是多语言建站,将站点建设成多语言的版本。这就会涉及到网站以及APP的多语言化以及网站规则的多语言化以及安全信息风控的多语言化。当将网站建设成为多语言站点之后,接下来就需要对网站做一些引流拉新,这里包括对于广告营销以及大促等支持多语言版本,而对于一些引流的商品也需要做精细化的翻译。当将流量引入到多语言站点之后,还需要提升用户找到自己所需商品的概率,这里面就涉及到了到站搜索,这里需要多语言的搜索方案,在多语言搜索方案的基础之上,还需要对于类目以及商品的属性进行优化,方便用户能够更加快速地找到自己想要的商品。而当用户触达到自己所想要的商品之后,需要让用户能够看得懂商品的信息,这样能够提高用户购买的转化率,这里就会涉及到标题的定制改写,将标题改成用户能够清晰可见并且简单明了的形式,并且将标题翻译成多语言的版本,同样的也要将商品的详细描述翻译成多语言的版本,而且对于商品的评论,也需要翻译成多语言版本。此外,还需要提供一个多语言的品牌库信息。当用户完成商品的购买,还会涉及到商品的支付、物流等。此外,对于跨境电商而言,还有一个非常重要的环节就是商品的通关,也就是“关检物”相关的信息,其中也有多语言需要翻译支持的场景。最后商品达到用户手中了,网站当然还希望用户能够购买更多的商品,这里就涉及到商品的留存复购,也就是需要通过售后的实时沟通、专项的质量检测、商品描述或者翻译以及质量调研,使得用户能够通过对于商品源的反馈来提升转化率。
其实,在上图跨境电商的全链路中,每个环节都有一个具体的指标来衡量机器翻译在其中所发挥的作用。对于多语言建站而言,可以观测DAU;对于引流拉新而言,可以观测整个站点的UV以及COST;对于到站搜索而言,可以关注商品List页面到商品Detail页面的转化率;在用户浏览商品信息的环节,则更加关注于从商品Detail页面到最终下单购买的转化率,最后的支付以及复购等也都有相应的指标进行观测。
应用案例-多语言搜索
接下来针对于跨境电商中部分环节的具体案例进行分享。首先,大家都知道,搜索是每个电商网站流量的一个主要入口。那么,对于不同国家的电商网站而言,用户当然希望使用自己的语言进行搜索,但是对于跨境电商网站而言,不可能花费很大的成本为每个国家的用户都建立一套自己的搜索引擎,这样的成本实在是太大了。所以阿里巴巴就统一采用了基于英文的索引,那么只需要将最终的用户搜索词转化成为英文,再根据英文的索引去检索用户所需的商品信息就可以实现多语言搜索了。在下图中所展现的例子中,就使用了多语言搜索。AliExpress的俄罗斯用户就是用了俄语来搜索“麦克风”,接下来就会通过智能的语种识别出用户所使用的语言是俄语,之后调用拼写纠错功能,这是因为在用户输入检索词的过程中,很有可能出现个别单词的错误,因此智能拼写纠错就能够将个别拼写错误的词纠正过来,再将纠正过的词调用机器翻译进而翻译成英文的版本,最后调用搜索引擎拿到用户想要的商品信息。这样的一条链路能够很好地提升用户从List到Detail的转化率。
应用案例-商品信息多语言化
当网站检索到用户所需要的商品信息之后,就引导用户到达了商品的详情页面,这里就涉及到商品信息的多语言化。这样用户就会通过网站的内部导航找到自己想要的类目,再找到自己想要的商品,用户在看过商品标题之后,往往会再看一下商品的详细描述,有一些用户还会看一下商品的评论。如果用户通过这些并没有找到自己想要的信息,那么很快就会关掉页面,这样很有可能这个用户就流失了。其实,在做跨境电商的时候,需要将商品信息实现多语言化,让用户真正地读懂和理解这个商品究竟在是在卖什么,它主要的功能是什么。
阿里巴巴在商品信息的多语言化方面做了非常大量的工作。下图所展现的是阿里巴巴速卖通的场景下对于标题部分所做的工作。首先,大家可以看到,这个商品属于英文的原发商品,而通过翻译可以将其翻译成为不同国家的语言。在下图中,同样的一条裙子的标题除了英文之外还被翻译成了俄语和阿拉伯语两个版本。
此外,对于商品评论而言,其实很多商品往往是缺乏评论的。因此需要将针对于同一件商品的不同语言发布的评论进行互相翻译,在下图的例子中就是将西语原发的评论翻译成了俄语和阿拉伯语,这样一来,用户就能够看到更多其他的消费者对于同一商品的使用感受了。
第三部分就是针对于商品详细描述的多语言化。在阿里速卖通的场景下,一般而言,商家发布版本基本上都是英文为主的。那么速卖通就需要将英文原发的商品详细描述,比如商品尺寸、质量属性以及物流信息都翻译成为其他语言的版本。
最后,在商品详情页还有一个用户使用比较多的功能,其实这个功能在淘宝下大家也可能见过,就是“问大家”。在速卖通上,针对于“问大家”这个功能,需要将不同国家、不同语言用户所提出的问题都翻译成多个语言的版本,让更多的人能够得到自己所需要的信息,正如下图所展现的就是将俄文的问题翻译成了英文和阿拉伯语。
应用案例-通关翻译
当用户通过阅读、搜索了解了商品的信息并且决定下单购买之后,网站最终还需要将商品邮寄到客户手中。在跨境电商场景下还存在商品物流所必须经过的一个步骤,就是商品的通关。在通关时需要将英文商品或者其他语言的商品名称翻译成中文提供给中国海关。下图中给出了一个例子,这个商品是一个手机支架,大家可以看到这个手机支架的英文名称非常长,而海关可能并不希望看到这么长的描述信息,而是希望拿到商品的关键信息,速卖通就使用了NLP智能品名生成技术,从一长串的标题里面抽取出关键词。如下图的例子所示,速卖通就从中抽取出了“Phone Holder”关键词,再把这个关键词通过机器翻译转成中文的“手机支架”,之后在通过菜鸟的关务平台将商品的中文关键词进行备案以及清关,之后就能够自动地完成整个商品出关的操作。
应用案例-多语言实时沟通
最后一个案例就是多语言的实时沟通,在交易前和交易后往往都会发生卖家和卖家之间的沟通。而Alibaba.com是一个B2B的场景,可能需要更多的售前沟通。在阿里巴巴的调研中发现,其实在国际贸易中的买家中的30%是使用小语种的,而大部分买家却往往缺少小语种的沟通服务能力。因此,阿里巴巴开发了一套针对于多语言实时沟通场景的自动翻译系统。在这个场景之下,首先支持多个语种之间的互译,并且在特定外贸场景下对于术语的翻译也是非常准确的,这是因为在背后拥有一个规模庞大的双语术语库。其次,还具有智能处理能力,多语言实时沟通系统具有智能的语种识别,可以根据用户的场景自动地识别其使用的语种,再根据用户所使用的语种进行自动翻译,并且还提供了基于上下文的智能纠错。大家都往往深有感触,我们在聊天沟通的过程中往往经常会打错字,而基于错字进行翻译肯定无法准确翻译。而且还针对口语场景做了表述归一化的统一处理。最后一点,多语言实时沟通系统还实现了跨境多语言沟通方案,首先这套方案支持多端包括PC、IOS、Android,能够实现多语言信息的实时沟通,用户可以基于机器翻译或者译文进行编辑,如果用户具有相应的语言能力,其实可以根据机器翻译的结果在发送前进行编辑。在很多场景下,需要对于特定的术语进行快速干预,将其翻译成想要翻译的文本,因此在这样实时工作的场景下也支持实时干预的能力。
三、阿里机器翻译技术亮点
前面的部分为大家整体地介绍了跨境电商的整体链路,并且抽取了部分环节的详细例子进行了介绍。在第三部分将为大家介绍阿里机器翻译的一些技术亮点,主要包括面向电商的阿里机器翻译引擎所面对的挑战以及技术的创新点。
搭建电商场景机器翻译系统的挑战
搭建电商场景机器翻译系统的挑战主要来自于三个方面,即翻译质量、服务要求以及快速迭代。第一点就是翻译质量,因为电商场景下往往与交易相关,因此对于翻译的质量有着非常高的要求,不仅要求电商场景翻译结果高可读性要求,还要求领域相关的关键信息翻译的准确性,这里的关键信息包括了品牌、关键属性、尺寸、数字以及物流信息等,这些信息在电商场景下相对于通用场景下有着更高的要求。此外,还需要有更加灵活的干预机制,因为机器翻译在一些场景下翻译不能非常准确,一旦发现这些场景下的信息翻译不准确的时候,就可以做出快速干预,及时地纠正翻译结果。第二点就是对于服务的要求,这里包括高可用性的要求,因为会涉及到交易,因此不能够在交易的过程中出现问题影响到整个交易的链路。此外,还需要有多区域的要求,阿里机器翻译服务于整个阿里巴巴多个部门和团队,各个团队都分布在不同的区域上,那么就需要有多区域部署的要求。此外,还有高并发和高响应的要求,大家都知道阿里“双11”场景下的流量是非常大的,在支持这样大流量的场景的需求下,就需要满足高并发的要求,并且在响应时间上也有非常高的标准。最后一点就是快速迭代,正因为阿里机器翻译支撑了如此之多的业务,所以需要快速大规模语料训练能力能够在短时间内训练出一个质量可用的模型;而且在场景如此多的情况下,经常会出现语种的扩展,因此阿里机器翻译也需要语种快速扩展的能力;最后还有对于模型迭代更新效率的要求。对于上述三个挑战,需要从三个方面进行解决。首先是模型,之后是数据,最后是工程,只有从这三个方面才能够解决实际业务所带来的挑战。接下来就为大家介绍如何从模型、数据和工程三个方面应对挑战。
模型
对于模型而言,为了保证电商场景能够具有非常高的翻译质量,所以在模型上对于不同的场景进行了区分,并且采用了多模型融合的机制。阿里机器翻译在商品描述、评论以及沟通这种文本比较长并且对于整个句子顺滑度要求比较高的场景下,采用了基于神经网络机器翻译的模型。而在像商品标题、搜索词以及属性等短文本的场景下,采用了统计机器翻译的模型进行解决。而像数字、日期、单位、地址以及旅游场景下的一些菜单等使用了规则翻译来进行解决。最后一部分,阿里机器翻译会有一批翻译记忆高精准的人工翻译数据,在最外层做一层翻译记忆的过滤,来完整地匹配待翻译的文本。
在模型的网络上也采用了Transformer新型神经网络结构,这样相比于传统的神经网络翻译模型而言,翻译质量的提升也比较明显,训练速度的提升也非常明显。在刚刚结束的国际机器翻译评测比赛上面,也对于这套模型进行了论证,并且在5项评测中获得冠军。
数据
其实在人工智能领域,除了模型之外,数据也起到了非常重要的作用。阿里机器翻译所用的数据总结而言就是“领域”,也就是使用了大量与电商领域相关的数据,比如电商领域双语的语料、电商领域专业的词表、电商高频短语、电商领域的单语语料、电商品牌词表等,并结合了通用领域单语语料以及通用领域双语语料等来训练电商的机器翻译引擎。在数量级上大概能够达到10亿级别的双语平行语料、亿级别的电商双语平行语料、千万级电商知识库以及大规模行业多语言术语库。而对于语料的主要来源而言,首先最大的是通过互联网抓取的双语平行语料;另外一部分是通过自动地术语挖掘产生领域相关的术语的语聊;最后一部分就是通过人工翻译所提供的语料。
下图展现了与数据相关的一整套数据体系,包含了数据获取、数据精选以及电商知识库的构建。对于数据获取而言,首先阿里机器翻译的大部分数据还是来自于互联网,通过网络抓取多语言网页,对于这些网页进行统一地解析、清洗和处理形成双语语料,并且有较少的一部分是通过语料购买或者交换和人工翻译生产出极少与领域相关的数据,并且对于少量的数据做一些领域相关的优化。在语料的精选方面,其实有不同层次的机制,基础的就是基于一些规则的互译质量的判断、流利度的判断以及N-gram的过滤。其次,还会有一些模型能够筛选出领域相关的语料。最后一部分就是通过机器学习做更深层次、更细化的质量相关的工作。在电商知识库的构建方面,则主要是依托于服务的业务方,比如Alibaba.com、AliExpress以及天猫国际等,从这些业务方的商品数据里面进行智能挖掘,挖掘出命名实体、同义词、上位词以及词与词之间的依存关系等,再将这些依存关系通过自动的双语生成或者人工翻译成多语言的版本,最终建立了多语言的电商支持数据。
工程
最后的一部分就是阿里机器翻译在工程部分所做的事情,在这方面的工作主要包括了四个方面。第一方面是全球化部署,为了满足分布在不同地区以及国家的业务,阿里机器翻译目前在美国、新加坡、俄罗斯以及中国都部署了机房。第二部分就是分布式的训练,这是依托于阿里巴巴集团的大规模分布式系统构建的一套分布式训练的框架来提升整体的机器学习训练速度。第三部分是并行计算,这部分是为了提升整个机器翻译的吞吐量所进行的优化,因为在很多翻译场景下都翻译的是商品的详细描述,针对于这样的一大段文本进行了优化,也就是将这样的一大段文本切分成不同的小文本,同时并行地调用翻译引擎来提升整个吞吐量。最后一部分就是性能优化,性能优化主要是针对GPU的性能进行优化,来提升整个机器翻译的响应时间。
四、阿里云机器翻译产品介绍
前面介绍了机器翻译技术的亮点和挑战,最后为大家介绍一下本次在阿里云上发布的机器翻译产品。阿里云上的机器翻译产品主要是以API的形式进行发布上线的。大家可以在阿里云主页上的导航栏中选择“产品->人工智能->自然语言处理->机器翻译”来查看机器翻译产品的详情。本次上线的产品主要有三个版本,通用基础版API支持中英互译,有免费额度,用户试用为主;电商标准版API支持英中,英俄,英西,英法和英葡的互译,在电商领域机翻质量有明显优势,适用于电商场景下的标题,商品描述,评价等领域;通用标准版API支持中英互译,新语种持续增加中,适用于旅游、口语等通用场景。
本次的发布只是阿里机器翻译开放的开始,后续将会有更多的能力通过阿里云对外输出。在未来,阿里机器翻译将会持续提升翻译质量,保持将最新的模型能力对外更新。丰富API输出能力,如支持用户自定义翻译结果。丰富开放场景,依托于阿里的优势重点打造电商场景,同时补齐通用场景的短板。完善产品矩阵,支持文本、语音和图像等多模态开放API。最后一部分就是支持定制化私有部署,用户只需要提供自己场景相关的训练数据,阿里机器翻译就能够帮助用户做模型训练、部署以及发布,用户可以自己的环境下进行应用部署。
end
如何降低90%Java垃圾回收时间?以阿里HBase的GC优化实践为例
谈谈社区、产品和新Dubbo | 从Dubbo 的社区star 数突破 2 万说起
更多精彩