《语言战略研究》∣ 孙茂松 周建设:从机器翻译历程看自然语言处理研究的发展策略
一、引言——从机器翻译谈起
2016 年9月27日,“谷歌大脑小组”的科学家Quoc V. Le和Mike Schuster在“谷歌研究博客”上发表了一条博文:“一个产品规模的用于机器翻译的神经网络”,称继十年前谷歌推出基于短语的机器翻译系统Google Translate之后,谷歌在机器翻译领域再次取得重大突破,全新推出了神经机器翻译系统GNMT(Le & Schuster 2016)。谷歌公司同时还在arXiv 上发表了一篇论文,从技术角度详细报告了GNMT的工作机制(Wu et al. 2016)。以维基百科和新闻语料为测试数据的实验结果显示,较经典的基于短语的统计机器翻译模型GNMT 将若干关键语言对之间的翻译错误率显著降低了55% 到85%。图1显示,从法语到英语、英语到西班牙语的机器翻译质量已非常接近人工翻译质量(也可以看到,从汉语到英语以及从英语到汉语的机器翻译质量是最远离人工翻译质量的)。与前不久谷歌 AlphaGo 战胜人类九段围棋选手相仿,谷歌的这个工作又一次在世界上引起了轰动和热议。
笔者有针对性地输入一些颇为复杂的实际句子给GNMT,以考察其翻译性能。总的印象是GNMT表现优良,谷歌所言不虚。作为工作于自然语言处理领域的学者,一方面为机器翻译取得的如此进步而深感兴奋,另一方面又有些失落感:在与国际大公司的核心技术角逐中,国内研发单位又一次处于下风。宏观来看,机器翻译的下一个关键步,我们该怎么走?进一步地,机器翻译是自然语言处理领域一个最为经典问题,自然语言处理的下一个关键步又该怎么走呢?
本文试图通过扼要回顾机器翻译的发展过程来部分地回答上述两个问题。需要说明的是:我们并不关心机器翻译发展历史的细部,而只是就机器翻译各发展阶段中最重要的特点(主要关注在方法论及核心技术层面上)以及与本话题密切相关的某些“吉光片羽”,展开“散步式”的讨论。这里对机器翻译发展阶段的划分,大体上采用了Hutchins(1995)的说法, 但也有所调整。
二、机器翻译的发展历程:大波浪式前进
(一)大潮初起(1947 — 1956)
说到机器翻译近70 年的发展史,就不能不提“机器翻译之父”——Warren Weaver。
Warren Weaver 是美国著名的科学家、数学家及科学管理者。他与“信息论之父”香农于1949 年合作出版了在通信领域具有里程碑意义的著作The Mathematical Theory of Communication,足见他在科学界的尊崇地位。1947年3月4日,他在写给“ 控制论之父”Norbert Wiener 的一封信中,就认真探讨了机器翻译的可能性(虽然他感觉由于语言中“语义困难”的存在,机器翻译的质量不太可能达到“雅”的境界,但对科技文献达到“信”的程度却是可能的)。1949年7 月15日,他在题为《翻译》(Weaver 1955)的备忘录中正式提出了机器翻译的思想,并在如下四个方面给出了他的真知灼见(以下简称为“WW建议”):
(1)意义与上下文:他充分认识到上下文在解决词汇歧义中的重要作用,由此引出了语言的统计语义性质问题(如句子的上下文窗口大小问题)。这与后来的马尔可夫语言模型有对应关系。
(2)语言与逻辑:他认为书面文本是逻辑性质的表达,所以它至少是形式上可解的,尽管语言中确实存在某些非逻辑元素,如关于风格的直觉感受、情感内容等很难被计算机处理。其潜台词是应该对句子进行结构化的句法语义分析,因为这是逻辑推演的基础。
(3)从密码学的角度,他认为可以把“一本用中文写的书看作是一本用英文写的书被编码成中文”,而把翻译过程看作“解码”过程。这差不多就是后来广泛使用的统计机器翻译模型。他还强调对语言统计语义性质的研究应成为机器翻译初创阶段必须下力气完成的首要任务,隐含着应从数学和计算角度深入研究语言的统计模型的意思。
(4)针对多语言之间的翻译问题,他指出应研究人类通信的共同基础——普遍语言(又被称为语言的逻辑结构)问题,以期事半功倍之效。这与后来有学者提出的机器翻译“中间语言”思路一脉相承。②
Warren Weaver 的备忘录起到了机器翻译思想启蒙的作用,并直接引发了机器翻译研究的蓬勃兴起。最早开展机器翻译研究的有美国的麻省理工学院、乔治城大学和IBM等,前苏联的列宁格勒大学、英国的剑桥大学等也迅速跟进。研究动力不外两个:(1)机器翻译由于其所蕴含着的深刻的科学问题,已成为当时计算机科学研究前沿的排头兵之一;(2)体现了各自国家的需求(美国和前苏联的研究主要集中在英俄两种语言对之间的翻译上)。
这些早期研究在方法论和核心技术路线上都没有顾及“WW 建议”之(1)和(3)所倡导的基于语言统计语义性质的机器翻译模型研究,而是大体上沿着“WW建议”之(2)的取向,研究基于人工编制规则的词法、句法分析的翻译方法(当然,也包括较为初级的基于双语词典的直接翻译方法研究),并初步构造了规模很小的实验系统(1954年, 美国进行了俄英机器翻译试验,1955 年到1956年,苏联完成了英俄和法俄机器翻译试验)。这一点其实并不奇怪:第一,人们对语言和语言学的认识会使机器翻译设计者“自然而然”地首先遵循基于规则的词法、句法分析的道路进行探索(虽然理论语言学研究与这一时期的机器翻译研究似乎并没有太多关联,只是在后来越来越多地介入进来);第二,那时候机器能力有限,也缺乏机器可读的大规模语料库,所以几乎没有滋生统计机器翻译模型的土壤(虽然有研究者开始利用统计方法从一定规模的语料库中提取双语词汇和语法信息,但那只是局部的统计方法)。
(二)从第一次波峰跌入波谷(1957—1966)
这个时期的研究是前一个时期工作的延续,并且有新的拓展。哈佛大学、加州伯克利分校、德州大学等纷纷投身于这一研究潮流中。美国和欧洲之外也不断有研究团队加入。中国的反应就相当迅速:早在1958 年8月,中国科学院计算技术研究所就成立了机器翻译研究组, 并与语言研究所密切合作,开展俄汉机器翻译研究(刘涌泉 1959)。1959 年,中国在自制的通用电子计算机上成功进行了俄汉机器翻译试验(刘涌泉 1963)。
这个时期美国的研究多集中在句法分析(包括依存分析)的基础上,理论语言学日益发挥作用,机器翻译模型也渐趋丰满,如乔治城大学的自动翻译系统GAT 就配置了三个层次的分析:词法层(包括成语识别)、组合层(包括名词和形容词之间的一致性、动词的管约、形容词的修饰等)和句法层(包括主语和谓语、从句关系等),欧洲和前苏联出于自身多语言环境的需要,偏重于“WW建议”之(4)涉及的基于“中间语言”(interlingua)的机器翻译研究。这些研究无疑大大丰富了人们对机器翻译模型的认识。
对机器翻译的高度期待和乐观主义情绪弥漫于20 世纪整个50 年代。随着若干机器翻译系统被陆续研制出来并投入使用,人们得以直接观察和评论机器翻译系统的输出结果。但观察得到的总体印象是:机器翻译的质量与期望相差甚远。随着研究工作的逐步展开,学者们越来越体会到语言的复杂性,越来越感受到横亘在机器翻译征途上十分困难的“语义屏障”问题。1960 年,以色列著名的哲学家、数学家和语言学家Yehoshua Bar-Hillel 发表了一篇长文,产生了长久的影响(他很早就在麻省理工学院从事机器翻译研究,并于1952 年组织了第一次机器翻译国际会议)。他认为由于语义歧义的存在,通用的高质量全自动机器翻译理论上是不可能的(Bar-Hillel 1960)。他通过一个他所谓的再简单不过的例子来说明其观点:
The box was in the pen.
“pen”至少有两个意思:“钢笔”和“围栏”。在如下语境中, 人可以轻而易举地确定其中的“pen”的意思应该为“围栏”:
Little John was looking for his toy box. Finally hefound it. The box was in the pen.(盒子在围栏里)John was very happy. (句1)
对比:
The pen was in the box. (钢笔在盒子里)
他断言,任何机器翻译系统对此都会束手无策。原因在于,机器要处理好这个情形,至少需要补充两个手段:第一,上下文需要从“WW 建议”(1)中的句子扩展到篇章,因此而增加的语言分析无穷的复杂性是机器无法处理的;第二,需要关于大千世界的系统性的形式化知识,而这在当时完全是空白,也是难以想象的。
那时还出现了一个后来广为流传的“故事”。1962年,John A. Kouwenhoven 在美国的Harper’s Magazine上发表了一篇题目为《翻译的困扰》的文章,讲到当时有人将《马太福音》中的英语成语经过机器翻译成俄文,再将其译回英语:
The spirit is willing but the flesh is weak(句2)
(直译:精神是愿意的,肉体却是虚弱的。意译:心有余而力不足)
经过机器翻译成俄文,再把它翻译回英语,得到了令人啼笑皆非的结果:
The Vodka is good but the meat is rotten.
(伏特加酒是好的,但肉却腐烂了)
错误的产生来自该成语中存在的词汇歧义现象, 如“flesh”有“肉体, 情欲,( 动物或人的)肉,果肉”的意思,“rotten”有“腐烂的,恶臭的,堕落的,(岩石等)风化的,虚弱的,无用的”等意思。双语词典查找策略很容易会被迷惑。
冯志伟(2008)质疑并否定了这个“故事”的真实性。但它也确实从一个侧面反映了那个时期人们对机器翻译任务艰巨性的某种认识。
接下来发生的一件事便是上述理性认识合乎逻辑的发展结果。1964 年,美国科学院和美国国家研究理事会成立了“语言自动处理咨询委员会”(Automatic Language Processing Advisory Committee,简称ALPAC),对机器翻译的进展状况,尤其是对过去十余年美国国防部、国家科学基金会和中央情报局重金资助的相关项目的执行效果,进行了系统的调研和评估。1966 年11月,ALPAC发布了题为《语言与机器:翻译和语言学视角下的计算机》的报告,即著名的ALPAC报告。报告正文不长,只有30来页,但提供了长达90页的20个附件,应该说态度是非常严谨的。报告(也被称为“黑皮书报告”)给出了两个基本结论:第一,对全自动机器翻译持基本否定的态度,认为在可预期的将来,不可能达到与人工翻译相比更为快速、高质量、经济的目标,转而建议应该支持更为现实的机器辅助翻译;第二,机器翻译遇到了难以克服的“语义屏障”问题,应该加强对计算语言学(Computational Linguistics)的支持。ALPAC报告的影响是深远的,以致美国政府对机器翻译的支持几乎都停止了,而且一停就是十年,世界范围内机器翻译热潮也突然消失了,从第一个波峰深深地跌入了波谷。
机器翻译遇到如此大的挫折,其实是无可避免的:第一,那时的人们过于迷信计算机强大的计算能力和存储能力,严重低估了人类语言的复杂性,从“不知深浅”到碰壁而“知深浅”是绕不过去的认识过程;第二,在方法论和核心技术的大方向上出现了是否具可行性的问题,“WW 建议”之(2)和(4)是人类分析之所长,但恰恰是机器分析之所短。机器翻译研究后来几乎完全“改弦更张”到“WW建议”之(1)和(3)的方向上,应该说是碰壁后深刻反思的必然产物。
(三)波澜不惊水长流(1967—1989)
这一时期机器翻译研究的中心从美国转移到了加拿大和欧洲。持续不衰的动力来自两者对机器翻译的强烈需求:加拿大的双文化政策迫切需要英法翻译,欧盟官方的所有科学、技术和管理文件都应翻译成所属国家的任何一种语言,迫切需要多语言翻译。由于没有新的重大学术思想出现,所采用的方法论和核心技术基本上还是在“WW 建议”之(2)和(4)的框架下进行,即基于规则的方法以及基于“中间语言”的方法,当然在这个方向上的研究深度仍在不断增加。研究积淀开始在商业上产生回报,如1968 年成立的SYSTRAN 公司,其机器翻译系统1979 年被成功应用于美国空军,实际用于俄英翻译,1976 年被应用于欧盟,实际用于英法翻译,后来还被安装在北约和国际原子能机构等。再如,加拿大蒙特利尔大学研发的 METEO英-法机器翻译系统,1977年被成功用于翻译天气预报文档。值得一提的是,20世纪80 年代机器翻译在日本掀起了一次“小高潮”。在1982 年日本提出“五代机”计划的大背景下,不少日本大企业纷纷投资开展机器翻译的研发。
期间也有个别新的方法被提出, 如Nagao(1984)基于实例的机器翻译方法(翻译模型所需要的实例需要从语料库中获得)。
(四) 两个连环冲击形成的第二次波峰(1990年至今)
1990 年在芬兰赫尔辛基召开的第13届国际计算语言学大会提出了处理大规模真实文本的战略任务,开启了语言计算的一个新的历史阶段——基于大规模语料库的统计自然语言处理。在此潮流的带动下,机器翻译领域先后推出了两种新的方法论和核心技术,从而涌现了两个冲击波,连环形成了机器翻译历程中的第二次波峰。这次波峰的影响是革命性的,导致机器翻译的性能实现了质的飞跃,并且开辟了基于互联网的开放式服务的新天地。
1. 第一个冲击波——统计机器翻译模型
其标志性方法是著名的IBM 模型1-5,与以前的相比,具有颠覆性(Brown et al. 1993)。基本思想是基于香农信息论中针对编解码的“噪声信道模型”,几乎完全依赖大规模双语语料库,通过词对齐、短语对齐等手段,来自动构造统计机器翻译模型,而不再需要规则集(因而与语言学研究越离越远)。这种方法具有广泛的一般性,与具体语种无关,机器翻译系统的设计者可以完全不懂相关的语言,大规模双语语料库成了关键,成了一切。正如著名的机器翻译学者(也是后来Google Translate的设计者)Och模仿阿基米德的口吻所声称的那样,“只要给我充分的并行语言数据,那么,对于任何两种语言,我就可以在几小时之内给你构造出一个机器翻译系统”。较之基于规则的系统,机器翻译的性能得以显著提升,很快催生了谷歌、百度等公司的互联网机器翻译系统(并且很容易就实现了数十个语言对之间的翻译)。
这里淋漓尽致地展示了大数据乃至大数据思维的力量:人类的翻译知识和经验其实已经最大限度地“隐式”地反映在极大规模的双语语料库中了。统计机器翻译模型不需要人的任何帮助和介入,就可以有效挖掘和利用这些知识。
2. 第二个冲击波——神经机器翻译模型
统计机器翻译模型基本上是回归到“WW 建议”之(1)和(3)的方向上,但就计算模型本身而言,是比较经典的。2014 年前后,第二个冲击波——基于深度神经网络的机器翻译方法(神经机器翻译模型)接踵而至(Bahdanau et al. 2014;Sutskever et al. 2014)。这一次轮到与统计机器翻译方法相比较了,前面那句话依然有效:具有颠覆性。机器翻译的性能再次得以显著提升,其标志是:谷歌、百度已将其互联网开放服务更新换代为神经机器翻译系统。这就有了前面说的谷歌的轰动效应。
尽管神经机器翻译模型的内涵与统计机器翻译模型已经全然不同,其机理初看上去甚至难以理喻,但从外部特性来看,它们的基本点是完全一致的:第一,神经机器翻译模型具有更加广泛的一般性(与语言学研究几乎彻底分道扬镳);第二,更加体现了大数据和大数据思维的力量。此外,神经机器翻译模型比统计机器翻译模型更需要极其强大的计算能力的支持。
三、思考:机器翻译乃至自然语言处理的发展策略
纵观机器翻译近70年的历程,有一种十分强烈的感受:方法论和核心技术(及其模型)层面上的创新是机器翻译取得重大进步的根本原因(如统计或神经机器翻译模型),而创新的“物质基础”是一类特殊的大数据——双语语料库。
在为机器翻译经过一波三折而终于取得骄人成绩而感到欣慰的同时,也无可避免地产生了另外一种十分强烈的感受:在独领风骚的互联网大公司的压迫下,高校的相关研究沦落到了很难有所作为的尴尬境地。这是由于:
第一,神经机器翻译模型是一种通用的计算装置。它基本上是带attention机制的循环神经网络,最适合处理所谓“序列到序列”的问题,如机器翻译中源语言的句子和对应的目标语言的句子就构成了一个序列对。目前看来,这个模型的性能是极为强大的,盖过了其他所有模型。我们以往在计算语言学和语言学研究上积累起来的经验,变得完全不起作用(至少是暂时),相关优势丧失殆尽。
第二,双语语料库的规模决定了神经机器翻译模型的性能。高校由于工程能力的限制,其双语语料库的获得能力显然会远小于互联网大公司。
第三,设计并训练出一个神经机器翻译模型需要强大无比的计算能力,需要反复摸索。高校的计算能力通常会比互联网大公司低1—2 个数量级,导致高校的相关试验手段严重缺失,无法进行高烈度的试验。
上述各点决定了高校对神经机器翻译模型在技术上的理解一般来说不会超过互联网大公司。加之互联网大公司能高薪延揽到全世界的一流人才,并且全天候投身于研发工作。这一点上显著优越于高校。换言之,高校在“模型、大数据、计算能力”这三个关键要素上都处于明显的劣势。那么,对国内研究单位来说,机器翻译接下来的出路在哪里呢?
首先,要下大力气尽快解决基础条件问题:(1)要建设一个国家级的大规模深度学习计算平台,解决计算能力问题;(2)要建设一个国家级的高质量的双语语料库(虽然在规模上不太可能比过互联网大公司,但我们可以更多地关注于搜集高质量的双语语料库,解决训练用高质量大数据问题)。
其次,要在有特色的方法创新上下功夫,解决模型问题。这里面又有三层意思:
(1)对通用神经机器翻译模型进行创新或改造。
我们不妨掉过头看一下谷歌的GNMT 对前文提及的历史上著名例句的翻译结果。首先输入句2:
对句2 输出的汉语译文:精神是愿意的,但肉体是软弱的。
从汉语译文再翻译成英语:The spirit is willing,but the flesh is weak.
对句2 输出的俄语译文:Дух бодр, но плотьслаба.
从俄语译文再翻译成英语:The spirit indeed iswilling, but the flesh is weak.
对句2 输出的苗语译文:Tus ntsuj plig yog kam,tab sis lub cev nqaij daim tawv yog tsis muaj zog.
从苗语译文再翻译成英语:The spirit is willing,but the flesh is weak.
我们无从判断其相应的俄语和苗语译文是否正确。但从一个翻译来回得到与原句几乎完全一致的结果来看,GNMT 的表现确实可圈可点。
接着我们输入句1,GNMT 输出的译文为:
约翰正在寻找他的玩具盒。最后他发现了。箱子在钢笔。约翰很高兴。
“pen”还是翻译错了。可见,GNMT 尚没有考虑篇章分析和对世界知识的处理。在这个方面,我们应该还有机会。当然,这要取决于我们的模型创新能力到底有多强。
(2)对通用神经机器翻译模型进行完善。
譬如,尽管GNMT 对未登陆词专门进行了处理,但测试下来,感到仍有较大改进空间。
输入:严肃是个好同志。
输出的英语译文:Serious is a good comrade.
再如,译文一致性也是一个问题。输入:
他在翻译泰戈尔的《飞鸟集》。
他在吟诵泰戈尔的《飞鸟集》。
他在翻译《飞鸟集》。
GNMT 输出的英语译文分别为:
He translated Tagore’s Flying Birds collection.
He chanted Tagore’s Flying Birds.
He is in the translation of “birds”.
这实际上碰到了神经网络模型的软肋,是不容易解决的。
(3)对特定条件下的神经机器翻译模型进行全新设计。
如“一带一路”所涉及的语言几乎都属于所谓的“资源贫乏语言”。通常只能搜集到小规模的双语语料库,并且多为黏着语,都面临着词法分析问题,而我们往往不懂这些语言。经典的神经机器翻译模型肯定是不适用的。是否可能在只有一个常用双语词典、小规模双语语料库、较大规模单语语料库以及基于无监督词法分析(甚至不做词法分析)的条件下,设计一个有效的神经机器翻译模型,绝对是对我们模型创新能力的一大考验。
现在我们把视野从机器翻译扩大到自然语言处理。自然语言处理肇始于机器翻译,机器翻译是自然语言处理的核心组成之一,历史上自然语言处理的发展历程与机器翻译几乎是一致的(冯志伟 2011),两者相辅相成。如1990年也是自然语言处理“断代”的分水岭,之前是基于规则的所谓“理性主义”方法论,之后便变成了基于统计的所谓“经验主义”方法论。自然语言处理目前的研究热点同样也是基于深度神经网络的方法。所以本节针对机器翻译的一些讨论,在原则上对自然语言处理也是管用的。当然,具体策略要根据自然语言处理的具体任务有所变化。例如:训练基于深度神经网络的句法分析模型,需要大规模的句法标注语料库(此时就没有机器翻译那么幸运了,在那里从生语料库中可以天然地得到序列对,而这里必须经过人工标注才能得到)。所以人工标注策略可能有必要进行调整。标记集的设计不一定很复杂,应足够简洁,以方便人工在最短时间内标注出相当规模的句法标注语料库。
以上构成了未来几年我们在机器翻译和自然语言处理领域应当采取的基本策略。
注 释
① 图引自Le & Schuster(2016)。
② “WW 建议”之(1)和(3)是相关的,(2)和(4)也是相关的。
参考文献
冯志伟 2008 《一个关于机器翻译的史料错误》,《香港语文建设通讯》第89期。
冯志伟 2011 《计算语言学的历史回顾与现状分析》,《外国语》第1期。
刘涌泉 1959 《我国机器翻译工作的进展》,《科学通报》第17期。
刘涌泉 1963 《机器翻译和文字改革(上)》,《文字改革》第2期。
Bahdanau, Dzmitry, Kyunghyun Cho, and Yoshua Bengio. 2014.Neural Machine Translation by Jointly Learning to Alignand Translate. arXiv:1409.0473v6 [cs.CL] 24 Apr 2015.
Bar-Hillel, Yehoshua. 1960. The Present Status of Automatic Translation of Languages. Advances in Computers 1, 91-163.
Brown, Peter E., Vincent J. Della Pietra, Stephen A. DellaPietra, and Robert L. Mercer. 1993. The Mathematics of Statistical Machine Translation: Parameter Estimation.Computational Linguistics 19(2), 263-311.
Hutchins, W. John. 1995. Machine Translation: A Brief History.In E. F. K. Koerner and R. E Asher (eds.), Concise History of the Language Sciences: From the Sumerians to the Cognitivists. Oxford: Pergamon Press.
Le, Quoc V. and Mike Schuster. 2016. Neural Network for Machine Translation, at Production Scale. n.d. Sep. 27, 2016. https://research.googleblog.com/2016/09/a-neural-network-for-machine.htm.
Nagao, Makoto. 1984. Framework of a Mechanical Translation between Japanese and English by Analogy Principle.Artificial and Human Intelligence. Amsterdam: Elsevier Science Publishers.
Sutskever, Ilya, Oriol Vinyals, and Quoc V. Le. 2014. Sequence to Sequence Learning with Neural Networks. Advances in Neural Information Processing Systems 4, 3104-3112.
Weaver, Warren. 1955. Translation. In William N. Locke and Andrew Donald Booth (eds.), Machine Translation of Languages: Fourteen Essays. Cambridge: MIT Press.
Wu, Yonghui, Mike Schuster, Zhifeng Chen et al. 2016. Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation. arXiv:1609.08144v2 [cs.CL] 8 Oct 2016.
《语言战略研究》第6期目录
作者简介
孙茂松
清华大学计算机科学与技术系教授,主要研究领域为中文信息处理、自然语言处理、人工智能和计算教育学。国家973计划项目首席科学家,国家社会科学基金重大项目首席专家。主持完成信息处理用分词国际标准2项。在国际刊物、国际会议、国内核心刊物上共发表论文130余篇。
周建设
首都师范大学教授,主要研究方向为语义学、句法学、语言智能。著有《中国逻辑语义论》《西方逻辑语义研究》《语义、逻辑与语言哲学》《语言学名词(语法卷)》等。
微信号:yyzlyj
电话:010-65523102 65523107
传真:010-65523101
电子邮箱:yyzlyj@cp.com.cn
投稿地址:http://yyzlyj.cp.com.cn
地址:北京朝外大街吉庆里14号佳汇国际中心1509室
邮编:100020