查看原文
其他

宗成庆:机器翻译的梦想与现实

语标 语标 2021-03-18

原文载于:《光明日报》( 2019年03月16日 12版)


    2018年12月24日下午,由北京语言大学语言资源高精尖创新中心和中国中文信息学会联合主办的首届“语言智能与社会发展”论坛在北京语言大学举行。论坛的主题是“语言智能与外语教育的未来”,众多学者参与论坛并就主题交流观点。论坛发表了《语言智能与社会发展论坛之2018宣言:语言智能与外语教育协同发展》。什么?还不了解?快看这篇解读:语言智能VS语言教育:相爱? 相杀?| 光明日报



主持人语

  近年来,机器翻译等语言智能技术迅猛发展,并开始在舆论中对人工外语服务形成冲击。一时间,语言智能技术落地、机器翻译替代人工、外语教育存废、外语教学改革等,成为社会热议的话题。本期聚焦“语言智能与外语教育协同发展”,邀请多领域专家学者共同探究,外语教育如何将语言智能的挑战作为转型的契机更好发展,怎样理性认识语言智能技术的发展未来,全力适应人机共存的语言生活形态,努力过好智能时代的外语生活,从而推动语言智能和外语教育协同发展,共同进步,共同助力人类命运共同体的形成。




李宇明

北京语言大学语言资源高精尖创新中心主任、教授



宗成庆

中国科学院自动化研究所研究员


机器翻译的梦想与现实


  如何突破语言障碍,让机器完成不同语言之间的自动翻译,最终实现任意时间、任意地点、任意语言之间的无障碍自由通信,是人类长期以来的梦想。

  近年来,随着计算机性能的提高,云计算、大数据和机器学习等相关技术迅速发展,人工智能再度崛起,机器翻译重新成为人们关注的焦点。一时间,机器翻译系统如雨后春笋般涌现,各种报道随之呈井喷式爆发,“机器翻译将取代人类”的说法也时有耳闻。然而,机器翻译的真实水平如何,梦想与现实的距离到底有多远?

从低迷到兴盛

       机器翻译概念于1947年被提出,随后成为人工智能研究的核心问题。在70多年的发展历程中,机器翻译研究经历了几个不同的历史阶段:

从概念提出到1954年美国乔治敦大学(Georgetown University)在IBM公司的帮助下实现第一个机器翻译演示系统,可以认为是机器翻译的初创时期。

1966年,美国国家科学院语言自动处理咨询委员会(Automatic Language Processing Advisory Committee,ALPAC)发布题为《语言与机器》的报告,宣称“目前给机器翻译研究以大力支持没有太多的理由”,“机器翻译遇到了难以克服的语义障碍”,从而导致机器翻译研究在世界范围内走向低迷。

  20世纪70年代中后期至80年代前期,部分机器翻译系统在特定领域得到初步应用(如加拿大蒙特利尔大学研制的天气预报翻译系统TAUM-METEO)。欧洲共同体实施的欧洲翻译体系(European Translation System,EUROTRA)计划和日本对第五代计算机的研究都对机器翻译研究给予了支持,机器翻译研究开始复苏。

  20世纪80年代末期,IBM公司实现了基于噪声信道模型的统计机器翻译系统,并在美国国防部高级研究计划署(ARPA)组织的评测中取得了较好成绩,推动了机器翻译技术的快速发展。尤其进入2000年之后,GIZA++、Pharaoh、Moses等一批开源工具相继发布,2006年谷歌翻译正式上线运行,2011年百度翻译上线,各大公司陆续推出了自己的翻译系统,整个机器翻译领域呈现出蓬勃发展、遍地开花的大好局面。

  2013年基于神经网络模型的机器翻译(简称“神经机器翻译”)方法被提出,机器译文的质量得到大幅提升,并且很多开源工具被相继公布,机器翻译技术研究和系统推广应用均出现前所未有的盛况。统计机器翻译和神经机器翻译的基本原理都是基于已有的大规模句子级双语对照语料进行模型训练,建立最优的翻译模型,最终实现从一种语言到另一种语言的翻译。通常情况下,用于训练模型的语料规模越大,模型性能表现就越好。

被夸大的技术

       机器翻译技术的进步和系统性能的提升在为人们日常生活和工作带来更多便利的同时,也为该技术的产业化发展带来了更多商机。这种空前局面不仅让人们看到了梦想成真的希望,也点燃了部分人心中按捺不住的欲望。从传统媒体到新媒体,对机器翻译技术夸大宣传的声音不绝于耳,但一个不可否认的事实却是,目前的机器翻译技术尚不成熟,无论是文本翻译,还是口语翻译,机器翻译的质量远没有达到令人满意的水平。

  当前所有的商用文本机器翻译系统普遍存在的问题:

  一是错翻、漏翻和重复翻译比比皆是,尤其对成语、缩略语、专业术语和人名、地名、组织机构名称等的翻译更是招数无几。

  二是难以实现篇章范围内的指代消解,常常张冠李戴,例如,前面说的是美国与伊朗之间的事情,后面翻译“美伊两国”时却译成了美国与伊拉克。

  三是缺乏足够的在线优化能力,无法从译员修改译文的过程中自动学习和更新翻译知识,即使译员对系统给出的某个错误译文反复修改,系统依然照错不误。

  四是对口语而言,说话人的语气、重音、语调,甚至肢体语言无法得到充分利用,尤其当说话人的口音较重、用词过于生僻、话语主题超出先验知识范围时,译文的质量无法保障。

高端翻译不可取代

       我们并不否认机器翻译技术的进步,正如前文所述,机器译文的质量已有显著改善。在日常口语对话中,对于资源较为充分的语言(如英汉、日汉等),在说话场景不是非常复杂、口音基本标准、语速基本正常、使用词汇和句型不是非常生僻的情况下,口语翻译的性能基本可满足正常交流的需要。专业领域的文本机器翻译在训练语料较为充分时,译文准确率可达到80%以上。而对于资源匮乏的语言之间的翻译(如波斯语或达利语等与汉语之间的翻译),译文质量还十分有限。

  毋庸置疑,机器翻译可能替代那些任务重复性较大、翻译难度较低的低端翻译人员,如天气预报查询、旅馆预订服务、交通信息咨询等翻译,但不可能取代高端翻译(如重要文献、伟人著作、文学名著等翻译)人员,更不可能消除翻译职业。“信、达、雅”是翻译的终极目标,我们可以预期,未来的机器翻译系统能够辅助高端翻译人员提高翻译效率,但要实现无须人工干预的高质量全自动翻译恐怕还是一个愿望。

  不得不说的是,任何负责任的科学家和企业界都有责任和义务把技术或产品的真实水平和性能告知公众,而不是一味地宣扬,甚至为了利益而故弄玄虚。实事求是是一种态度,也是一种品格。


END



往期回顾


机器代替不了人!李生教授谈人工智能和机器翻译

多语种机器翻译真的靠谱吗?|《语言规划学研究》

昨天机器同传又败给了人工同传,那明天我们应该做什么?


“盘他”符合词汇规范吗?周祖谟谈词汇规范四大问题|大家小文

吕叔湘“研究人们怎样使用语言”的宏愿正在慢慢变成现实

说文解“绿”| 字里中国



本期责编:郭萌萌


无论风里雨里,语标都在这里守候着你~

(长按二维码,关注我们)



    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存