讲座纪要 | 冯志伟:机器翻译和它的四个类型
欢迎关注我们,一站式分享海量语言学术资源
来源编辑:THU人文研究生公众号
敬请星标应用语言学研习,喜欢请点赞,分享请转发⭐
冯志伟:
机器翻译和它的四个类型
2021年10月9日下午,清华大学语言学研究中心举办的语言学系列学术讲座于清华大学法图B105举行。教育部语言文字应用研究所冯志伟教授做了题为“机器翻译和它的四个类型”的学术讲座,来自线上、线下的百余师生共同参与了本次讲座。
冯志伟教授在讲座中
冯志伟教授是教育部语言文字应用研究所学术委员会委员、博士生导师,中国人工智能学会理事。先后在北京大学和中国科学技术大学获双硕士学位,是我国计算语言学最早的开拓者之一,长期从事语言学和计算机科学的跨学科研究。1978-1982年在法国留学,曾在德国特里尔大学语言文学系、韩国高等科学技术院计算机科学与电子工程系担任教授,主要研究方向为计算语言学、数理语言学、西方语言学流派,发表论文400余篇,出版专著38部。曾获中国计算机学会NLPCC杰出贡献奖、奥地利维斯特奖。
本次讲座,冯志伟教授首先从巴别塔的传说中强调了在多语言的世界中人类交流的困难性。而在中国古代,也存在着“象胥”的说法,用以指代“翻译”。可见,无论国内外,翻译都是打破人类交流壁垒的一项重要任务。目前,世界上的语言种类众多,分布复杂,解决不同语言人们交流的方法可以是找到一种通用语(lingua franca),如英语。但是这种方法可能会导致不同文化的消解。随着互联网的出现,英语的地位逐渐衰退,网络变成了一个多语种的世界。在如今的大数据时代,伴随着数据爆炸,我们更加需要一种高效、性价比高的翻译方式。因此,机器翻译的发展蓬勃而生。
冯志伟教授在讲座中
冯志伟教授指出,当今的人工智能中非常重要的一个领域就是自然语言处理NLP(Natural Language Processing),而NLP中最重要的两个问题便是智能问答和机器翻译。随后,冯志伟教授介绍了四种类型的机器翻译。
第一种类型名为基于规则的机器翻译RBMT(Rule-Based Machine Translation)。其基本思想是进行包括形态分析、句法剖析、浅层语义分析和概念分析在内的言语分析和概念生成,此时的机器翻译是与语言学密切相关的。RBMT主要根据词典和规则进行翻译,包含词对词翻译法、短语分析转换法和中介语法等方法,并取得了一系列成果。第二种类型名为基于实例的机器翻译EBMT(Example-Based Machine Translation)。其主要方法是结合翻译实例库和翻译词典进行翻译。第三种类型名为基于统计的机器翻译SMT(Statistical Machine Translation)。这种翻译方法将翻译视为破译密码,翻译变成了一种数学问题。它不需要语言学知识,完全根据统计学,可以在完全不懂某种语言的情况下进行翻译。SMT需要大型的平行双语语料库,通过语料库计算概率,并进行对齐,其中加入一定的短语、句法等规则知识。SMT的准确率高于RBMT,并且不需要很多的语言学知识。第四种类型名为神经机器翻译NMT(Neural Machine Translation)。这种翻译方法不需要词典、规则和语言学知识,让机器自动从语料库中学习知识,使用词嵌入、注意力机制、循环神经网络、卷积神经网络、Transformer等深度学习模型进行。NMT的准确率大大提高,使得机器翻译从梦想变成了现实,但是仍存在着多义词翻译不准确、漏翻、缺乏文化和常识知识等问题。
最后,冯志伟教授对四种机器翻译方法进行了比较,并进行了展望。与机器相比,人类大脑的翻译系统更加高效、耗能更低、需要的数据更少。因此,在未来的发展中,机器翻译还需要融入更多语言学知识中的规则,并且需要解决资源稀缺和能耗的问题。
会后,冯志伟教授回答了现场观众的提问。整场学术报告在热烈的掌声中落下帷幕。
文字、图片 | 朱述承
排版 | 杨宜霖
综合编辑:应用语言学研习
微信公众平台审核:梁国杰
文献延伸阅读(研习人指引)
本平台友情整理相关文献索引链接
欢迎感兴趣的朋友按需选购
扫码享限时特惠!
友情推荐
点击左下方阅读原文,发现更多语言学好书!
出版社官方直销包邮!扫码查看详情
扫码关注↑↑↑ 即可获取最新入群二维码!
目前已有 4.35 万语言文学、区域国别与
跨文化传播学研习者关注本公号
欢迎加入交流群,分享学习,共同进步!
亲爱的研习人,
一起来点赞、在看、分享三连吧!