学者观点 | 陈勇强:机器翻译的工程合同好用吗?
1. 机器翻译的工程合同目前达到了什么水平?
机器翻译的工程合同在很多方面,尤其是合同条件等文本类文件的翻译上,已经达到甚至超过了很多人工翻译的水平。如果了解五年前机器翻译的工程合同是什么样子,你一定会感叹机器翻译的质量已今非昔比,很多机器翻译的工程合同译文已非常准确且流畅了。下图是使用某机器翻译软件(免费版)将工程合同某条款的英文翻译成汉语的结果示例:
从上例看,机器翻译的汉语译文完全不影响对原英文条款真实含义的理解,但翻译得并不完美(如“Extension of Time for Completion”是一个专业术语,翻译成“竣工时间的延长”更符合工程合同专业的汉语使用习惯;“Determination”翻译成“决定”更贴近实意)。下面是我们采访一位从事国际工程管理工作的专业人士时,他使用机器翻译的体会摘录:
“机器翻译这几年发展很快,我们工作中已大量使用。我现在工作的国家属于俄语区。2017年以前所有文件,尤其是招投标文件或合同文件都是人工翻译,但最近一两年,我们很多的俄语文件开始使用机器翻译,效果很不错,大大节省了时间,原来‘工作等翻译’的情况已不复存在。我们上一个项目是 2012 至 2017 年,当时现场管理人员中四分之一是俄语翻译,任何事情如果没有翻译⼈员几乎寸步难行。现在机器翻译在很多场景中取代了人工翻译,与之前项目相比我们对翻译人员的需求减少了一半甚至更多。很多时候,如果翻译人员的水平达不到俄语八级,还不如机器翻译的效果好。现在需要的仅是高水平翻译⼈员,高水平翻译人员目前还无法被机器翻译完全取代。”
可以说,机器翻译的工程合同已由几年前食之无味弃之可惜的“鸡肋”,变成了味道还不错的“鸡翅”,而且正变得越来越好。
2. 机器翻译的工程合同为何能达到目前水平?
机器翻译能达到今天如此高的水平并不是一蹴而就的,离不开前人在这个领域不懈的开拓和耕耘。第一台现代电子计算机诞生后,信息论先驱Weaver于1949年发表了以《Translation》为题的备忘录,正式提出了机器翻译的概念。机器翻译的方法和技术到目前为止大致经历了:基于规则的机器翻译、基于实例的机器翻译、统计机器翻译、神经机器翻译四个阶段。进入神经机器翻译阶段之后,机器翻译范式发生了颠覆性的变化。
机器翻译工程合同的水平之所以超过了很多人工翻译,主要有以下原因。
1)自然语言处理技术和方法的突破
机器翻译是自然语言处理的一个应用分支。人类自然语言具有高度的概括性、灵活性和多样性,被认为是人工智能领域最难处理的问题,以至于Bill Gates曾说:“自然语言处理是人工智能皇冠上的明珠”。自然语言处理技术和方法存在的种种问题,使得前些年机器翻译的品质没有达到预期,用户付费欲望比较低,机器翻译软件缺少直接商业变现能力,导致机器翻译产业有些“鸡肋”。
近年来,基于神经网络的深度学习方法在自然语言处理领域的应用改变了这一局面,机器翻译进入了神经机器翻译阶段。使用分布式向量的神经网络具有强大的表示能力,可以让计算机对自然语言文字的描述更加准确和充分。Transformer是由Google 的Vaswani等人于2017年提出的一种适用机器翻译任务的模型结构。Transformer摒弃了循环神经网络和卷积神经网络框架,通过多头注意力机制对输入输出的全局依赖关系进行建模,是一种避免循环的模型结构,可以充分利用现代计算机的强大并行计算能力,大大提升了语言模型的能力和效率,并能有效解决翻译中的长程依赖问题。Transformer一跃成为目前最主流的神经机器翻译框架。
BERT (Bidirectional Encoder Representations from Transformers) 是Google 的Devlin等于2018年提出的面向自然语言处理任务的无监督预训练语言模型。BERT使用Transformer的Encoder部分为特征提取器,是近年来自然语言处理领域的里程碑模型。BERT出现之后,各种预训练语言模型如雨后春笋,且快速落地应用,自然语言处理领域有了突飞猛进的发展。预训练语言模型通过对无标签数据进行“预训练”,获得语言分布式表示之后,再用少量的标签数据进行微调即可应用于下游任务。借助预训练语言模型,自然语言处理模型进入了可以大规模复制的工业化时代。机器翻译作为自然语言处理领域的重要应用,正是在这种背景下取得了日新月异的进步。
2)计算机技术的发展和海量语料库的存在与不断累积
机器翻译工程合同能达到如此高的水平,除了自然语言处理技术和方法的进步和突破之外,还得益于计算机软硬件技术的持续发展。神经机器翻译依赖大量基于浮点数的矩阵运算,以前的计算机浮点计算能力无法满足相应的要求,甚至在21世纪初,大规模的矩阵运算仍依赖十分昂贵的CPU集群系统。随着GPU等相关技术的发展,已经可以在相对较低成本的设备上完成非常复杂的浮点并行运算。Google还专门为机器学习研发了TPU。Transformer所使用的多头注意力机制非常适合在GPU、TPU上进行快速并行化运算。
互联网已经深入到了人们生活的方方面面,传统纸质文字资料不断电子化,带来可用的源语言和目标语言,尤其是主流语种计算机可读的语料数据资源迅猛增加。机器翻译在基于规则之后的三个阶段都是数据驱动的,这使得机器翻译方法不再依赖于代价极高的人工书写的规则,机器可以通过训练和推断自动地从数据中学习和进化。不同语种机器翻译的质量除了受语言之间差异带来的翻译问题的影响之外,主要取决于该语种语料库的丰富程度。海量的语料数据结合高性能的计算机运算能力,使得包括神经机器翻译在内的很多基于深度学习的系统可以进行大规模实验,使自然语言处理相关研究和系统实验的迭代周期大大缩短。
3)合同语言本身的特征使得机器翻译工程合同条件比想象的要容易
从语言的角度看,工程合同中被人们认为最难理解的部分当属合同条件。由于法律语言的严谨性和大型国际工程项目的复杂性,合同条件有些条款的句子很长、条件句多,自然也是翻译的难点。因此,很多人理所当然地认为机器翻译合同条件部分一定非常困难,难以达到人工翻译的水准,其实并不尽然。
机器翻译工程合同的一部分优势恰恰来自复杂严谨的合同语言特征。工程合同起草者最主要的一个目标是尽量减少合同语言带来的歧义,会尽可能使用标准化、规范化的句式和用语。这也是国际工程行业权威合同范本、格式化合同大量存在的一个主要原因。机器翻译对情境依赖性高、可能有多种理解或译法的诗歌、散文很难像人工翻译的那样准确、典雅,但对于工程合同这种标准化程度高、重复性高、创造性不高的语言,反倒能发挥机器翻译的优势。
3. 机器翻译在国际工程合同管理中有何作用?
机器翻译在国际工程合同管理中主要有以下几个方面的应用。
1)国际工程承包企业招投标文件的翻译
在国际工程合同管理领域,招投标阶段是机器翻译最主要的一个应用场景。大型国际工程招投标文件的量往往很大。如果招标文件使用语言不是投标者的母语,这时对翻译时效性要求非常高,但对译文的质量要求并不是很高。如果投标文件用投标者的母语编制,需翻译成合同指定的语言时,则因为投标文件大部分将变为未来合同文件的一部分,这时需要由专业人员对机器翻译的投标文件进行认真的审核、修正。
2)正式国际工程合同文件的翻译
国际工程承包企业中标后,为了方便项目执行团队及企业级相关人员对合同文件的理解,有时需将双方签订的正式合同文件由合同起草使用的语言翻译成承包商的母语,这时只要翻译的合同文件不影响阅读者的理解即可。
3)国际工程合同执行过程中多语种订单等的翻译
国际工程合同执行过程中常伴有大量的采购订单、分包合同、设备租赁合同、保险合同、咨询合同等等。这类订单或合同的数量很大,如果是多语种的就需要翻译。这类文件要求合同管理人员及时理解并处理,对时效性的要求很高。对这类格式化、标准化、重复性高的文件,机器翻译更能显示其效率优势。
4)国际工程合同执行过程中其他文档的翻译
国际工程合同执行过程中,可能需要将部分外来文档翻译成项目团队熟悉的语言,有时还需要将项目团队用母语起草的文档翻译成合同约定的另一种日常交流用语言。这些用于日常交流文档的数量往往非常庞杂,为提升交流的效率,这类文档对翻译精度要求不高,但需要快速翻译。这时机器翻译亦能发挥其优势。
机器翻译在国际工程管理过程中至少有三方面的优势:机器翻译的效率很高、机器翻译的成本极低、机器翻译的稳定性、一致性高。
4. 机器翻译的工程合同还存在哪些主要问题?
虽说机器翻译工程合同在数量大、时间紧、准确度要求不是很高时,已显示出了人工翻译无可比拟的优势。但在工程合同的准确性、严谨性、专业性要求非常高的情境下,机器翻译仍不可能完全替代人工翻译。下面将分析机器翻译工程合同尚存在的问题及未来可能的解决途径。
1)机器翻译工程合同中常识性专业内容的准确性仍需提高
在国际工程实践中,业界常有一些对于专业人员来讲近乎常识性的专业词汇或习惯用语,目前机器翻译在这方面翻译得还不够准确,或不符合专业人员的使用习惯。如汉语“三通一平”被某机器翻译软件翻译为西班牙语时译成“tres pasos, un llano”(“三个通道,一个平地”)。
2)机器翻译还不能很好的翻译合同文件中所有不同介质的文档
工程合同文件除了合同条件等文本类型的文档之外,还有如图纸、技术规范、计算书、工程量清单等其他形态介质的文档,且这些文档在合同文件中占比很大。机器翻译整体工程合同文件时,对图或表格中的缩略词或短语的翻译还不够准确,对不同介质文档词汇的统一性做得还不够好。
3)我国自主研发的高水平中文机器翻译软件还很缺乏
目前市面上常用的机器翻译软件仍以西方国家为主,我国总体上还处于跟随状态。正因为此,有时机器翻译软件在其他大语种翻译成中文时质量不错,但在中文翻译成除英语之外的其他语种时准确性有所下降,甚至下降较多。这和我国在人工智能、机器学习领域的基础研究水平和投入不足有很大关系。
4)机器翻译小语种工程合同的质量有待提高
不同语种之间机器翻译的质量存在较大的差异,主要原因在于可供预训练语言模型训练语料的多少。对于常见的大语种,因为其使用广泛,语料库比较丰富,使得机器翻译的质量得到了很好的保障。
机器翻译工程合同虽然存在上述问题,随着自然语言处理技术和方法的进一步成熟和落地,这些问题将被逐步解决。机器翻译工程合同并不完美,我们不能因为人类的自尊而苛求机器,因为人工翻译由于人类自身的局限性同样不完美。
5. 结论
机器翻译的工程合同虽不完美,但已经在诸多方面达到甚至超过了很多人工翻译的水平,其主要原因是近年来自然语言处理技术和方法的突破、计算机技术的持续发展、可供预训练语言模型使用的海量语料库的存在与不断累积。这些因素的叠加使得机器翻译产品化落地,激活了沉闷的机器翻译市场,逐步形成了良性循环。Gartner在2020年发布的人工智能技术成熟度曲线显示自然语言处理预计还有5到10年才能进入生产成熟期,属于自然语言处理子领域的神经机器翻译的红利还远没有被用尽,近期仍有很大的提升空间。虽然机器翻译距离完美还有很长的路要走,但相信未来机器翻译一定比人工翻译进步的空间更大、进步的速度更快。
对于我国大多数国际工程企业而言,机器翻译工程合同更能发挥作用的是英语之外的其他几个大的语种,如西班牙语、法语、葡萄牙语、俄语和阿拉伯语等,这些语种之间机器翻译互译多达到了较高的水准。对于翻译国际工程招投标文件这类数量大、时间紧、准确度要求不是非常高的工作,机器翻译在同等译文质量的前提下,在成本、稳定性和一致性等方面,尤其是在时间效率上,有着人工翻译所无法比拟的优势。
我们撰写本文的主要目的是想和国际工程管理界的同仁们一起,以机器翻译工程合同为例,多多关注人工智能、机器学习、自然语言处理技术和方法等的最新相关研究和应用发展动态,乐于将最新的、突破性的成果为我所用,使专业人员从繁杂的事务性工作中解脱出来,将精力专注于不能被机器替代、更专业的事情。
主要参考文献
[1] 肖桐,朱靖波. 机器翻译基础与模型 [M]. 电子工业出版社,2021
[2] 邵浩,刘一烽. 预训练语言模型 [M]. 电子工业出版社,2021
[3] 陈勇强,吕文学,张水波. FIDIC 2017版系列合同条件解析 [M]. 中国建筑工业出版社,2019
[4] Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding [C]. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), Minneapolis, Minnesota, 2019, 4171-4186.
[5] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need [J]. Advances in neural information processing systems, 2017, 30.
[6] Goodfellow I J, Bengio Y, Courville A C. Deep learning [M]. MIT Press, 2016
往
期
推
荐
信息来源 / 全球工程经管 gipcenter公众号
底图制作 / 谷叶馨
图文编辑 / 王 慧
责任编辑 / 李 庚