讲座回放 | 宗成庆研究员:机器翻译现状与语料资源建设(北外人工智能与人类语言重点实验室主办)
欢迎关注我们,一站式获取海量语言学资源
本文来源:北外人工智能与人类语言实验室公众号
星标应用语言学研习,更新不迷路⭐
4月2日15:00,应实验室首席专家顾曰国教授之邀,中国科学院自动化所宗成庆研究员做了题为“机器翻译现状与语料资源建设”的专题讲座,此次讲座于我校图书馆圆满举办,近万名网友在线观看了讲座直播。
讲座中,宗成庆研究员对“自动评价得分与人工评价标准之间有什么关系?”、“目前的机器翻译真实水平如何?”、“机器翻译未来的研究方向是什么?”、“机器翻译技术的发展会对外语从业者带来什么影响?”、“语言研究人员如何融入人工智能技术研发?”等问题提出思考,并围绕译文质量评价方法、性能现状和语言资源建设三个方面展开详细且深入的分析与探讨。他特别指出,外语院校应该培养高水平的专业翻译人才,尤其是小语种、特定领域和国家重要部门的专业翻译人才。最后提出了五种未来机器翻译的研究方向,并表示高质量语言资源是众多自然语言处理任务赖以实现的基础。讲座之后,宗成庆研究员耐心细致地回复了师生们关于机器翻译未来五年有可能实现的突破等热点问题。顾曰国教授从专家视角高度总结了宗成庆研究员讲座的核心内容,并重申了实验室在人工智能和人类语言研究中的定位和学术宗旨。
机器翻译作为人工智能助力教育教学的一项重要技术受到公众的广泛关注。本次讲座在线上线下引发了热烈研讨,这充分说明抓住社会关切点的学术研究和学术分享对于提升大众认知、推动文化发展具有重要作用。 本场讲座是北京外国语大学人工智能与人类语言重点实验室举办的系列学术活动之一。为拓展学术视野,传播知识热点,促进优秀科研成果交流,实验室将隔周举办系列学术讲座,讲座主题围绕实验室五大研究领域,内容包括教研方法指引,科研动态分析、优秀成果分享等。欢迎关注实验室订阅号,我们将持续分享研究动态和学术活动!
供稿单位:实验室、网络教育学院
马丁·休伯特:历时语料库、文化和构式演变 | Linguists Online系列讲座(17))
马克·特纳|概念整合:语法、语言和交际的核心过程(Linguists Online系列讲座)
讲座视频 | 伊丽莎白·特劳戈特:话语标记的兴起——构式视角 (Linguists Online 11)
德克·希拉兹:词汇意义研究|Linguists Online系列讲座(8)
芭芭拉·帕蒂:形式语义学与语用学|Linguists Online 系列讲座(9)
埃弗里特:语言如何起源|Linguists Online 系列讲座第6期
托马塞洛:语言产生之前的沟通 |Linguists Online系列讲座第7期
阿黛尔·戈德伯格|Good Enough Language Production(Linguists Online系列讲座21)
世纪对话 | Krashen教授与 Chomsky教授 谈现代语言学的发展
圆桌谈| Halliday, Labov, Mey, Embleton谈功能、语用与社会语言学的融合发展
讲座回放 | 端木三“语音特征:如何构建完整的特征系统?”(北外人工智能与人类语言重点实验室)
Anna Mauranen教授访谈录 | 英语通用语研究:本质属性、研究路径与发展趋势
外一篇
语言、计算和密码:一段虚拟对话中的图灵
原创脑洞很大的小刘来源:汉语堂微信公众号
本文作者系北京语言大学20级硕士研究生。
【堂主说】
2021年《电影中的语言学》在北语完成了第二轮授课,现开始陆续刊发同学们撰写的语言科普推文,欢迎关注。
此次访谈是根据影片《模范游戏》和影片中涉及到的语言学相关内容诞生的“脑洞”产物,旨在对语言现象和计算语言学进行常识性的科普。参与访谈的对象为本文作者(来访者L)、影片中图灵先生学生时期的爱慕对象男孩克里斯托弗以及图灵先生创造的机器——以克里斯托弗命名的“计算机”(为从文字上进行区分故使用Christopher)。因访谈以回顾影片的视角展开,所以Christopher不再是影片中的巨型机器,而近似于今天的人工智能。
×年×月×日 天气 阴
第一部分
阿兰图灵与他“直白的小缺陷”
来访者L(下简称L):您好,克里斯托弗先生吗?我是L,之前跟您提过的……抱歉打扰了。
克里斯托弗:您好,很高兴见到您。/Christopher:下午好L女士,请问您需要什么帮助?
L:下午好Christopher,但是抱歉今天先要进行的是我与克里斯托弗——“男生”克里斯托弗的访谈,所以请你稍等一会儿,而且提个小建议,以我的年纪我还不想被称作“女士”。
Christopher:好的L女士,您的建议将会储存在我的系统中,不日加以改进。在您的访谈开始前请允许我提问,您如何区分克里斯托弗和Christopher?我的系统暂时无法根据您进门时的语音分辨您称呼我与主人的区别。
L:……我想我不会称呼你为“先生”。
Christopher:好的女士,非常感谢。当您需要我时请使用“嘿,Christopher”,我将很乐意为您服务。
(Christopher进入短暂休眠状态)
L:(小声)我觉得它是故意的。
克里斯托弗:(笑)但它很可爱不是吗?无比聪明却又有些笨拙,和阿兰一模一样。
L:您说得没错,图灵先生在制作它的时候也因为这一点遇到了一些麻烦,我记得他似乎一直不太擅长与人交流,万幸有您能够理解他。值得一提的是,图灵先生也正是通过您接触到了密码学知识,相信这对他后来在数学等领域的发展带来了不少益处。您还记得这张照片吗?您是如何理解图灵先生对密码的看法的呢?
克里斯托弗:阿兰很聪明,他对数学的敏锐超出常人,也许是因为数学直接、严谨、逻辑性强、可推导,显然语言在阿兰眼中是“难以推导”甚至“不可推导”的。
L:没错,至少数学不会“拐弯抹角”。看来图灵先生是在语言编码和解码环节中遇到了问题,导致语言的输出与接收过程中存在的信息差影响了他和别人的交际,我想对他来说理解话语中的言外之意在他眼里或许比理解一门加密过的密码语言更加困难吧。
克里斯托弗:但是相对的,阿兰这种“直白的小缺陷”也让他变得比一般人更单纯易懂了不是吗?
L:或许是的,如果和他交往的人足够聪明的话(笑)。
第二部分
阿兰图灵与“恩尼格玛”
L:嘿,Christopher,现在是你的主场了,下面的部分我需要在你的帮助下完成。
Christopher:好的请说。
L:请先向我们简要介绍一下图灵先生接到的破译工作。
Christopher:先生的工作内容是破解德国人的恩尼格玛机,我为您找到了一张恩尼格玛机的图片。下面为您简要介绍恩尼格玛机的工作原理:主体键盘共有26个字母按键,键盘上方为标示了同样字母的26个小灯泡,当键盘上的某个键被按下时,该字母被加密后的密文字母所对应的小灯泡亮起。显示器上方是三个转子。按下键盘上的字母键时,相应的灯泡闪亮,转子就自动转动一个字母的位置。举例说明:当第一次键入A,灯泡B亮,转子转动一格,各字母所对应的密码发生改变。第二次再键入A时,它所对应的字母就可能变成了C;同样地,第三次键入A时,又可能是灯泡D亮起。为防止连续键入26个字母后转子回到初始位置,“恩尼格玛”又增加了一个转子,当第一个转子转动整整一圈以后,机器上的齿轮拨动第二个转子,使得它的方向转动一个字母的位置,字母对应的加密后字母将发生改变,而被用于二战时期的恩尼格玛机甚至有三或四个转子,这种“复式替换密码”为当时的破译工作带来了很大的困难。
L:这样复杂的加密方式如果通过人工演算破解确实难如登天,所以图灵先生就创造了你——Christopher,作为破解恩尼格玛机的武器。
Christopher:没错。
L:但是你被创造出来以后的破译工作也不是那么顺利对吗?
Christopher:是的女士。虽然先生发现了恩尼格玛机诸如字母A无法加密成A本身以及两段分开发送的文字之间连接语有重复这样的缺陷,大大简化了破译工作,然而最初的破译工作仍然因为运算量过大而陷于僵局。
L:Christopher,我想……虽然恩尼格玛机的加密方式非常复杂但是依旧是有规律可循的对吗?恩尼格玛机使用的加密符号仍然是拼音文字,且虽然信息的表面形态并非普通单词,但每个单词的字符数、句子的语法顺序、语法标记等等始终和原本的语言相对应,这样想来恩尼格玛似乎也并不像“外星文字”那样神秘,正如图灵先生所说,到更像是个“拼字游戏”了,虽然这个“游戏”的难度着实令人咋舌。
Christopher:我想是的。虽然先生并不会德语,但是印欧语系的语言总不可避免地存在诸多相似性,且不论印欧语系,人类语言在某些方面不可避免地存在共性,这一点柴门霍夫先生已对此进行过阐释。
L:你的意思是说像汉语这样使用表意文字的语言,在加密之后也能够被使用拼音文字的人们根据共性的规律成功破译吗?
Christopher:(短暂停顿)难度较大,暂未搜索到相关数据。
L:如果不提供加密方式,用汉字字符加密汉语不光难以破解,连寻找与原文对应的合适字符都是个非常困难的工作吧,字符难以选定编译也就难以进行了。如果使用汉语拼音代替字符,相较26个字母还涉及到声调问题,将拼音字母和声调数字都进行编译替换,那破解的工作或许比破解表音文字的密码困难许多。话说回来,战争期间军事密码的广泛使用使得密码破译工作也变得尤为重要,这场斗智斗勇的博弈将往什么方向发展真是难以预测。
Christopher:但是根据现有的资料显示,使用单一语种进行加密的方式似乎并不保险,至少生造词或许可以帮助编译者们提高密码的有效性。
L:说的没错,谁能想到最后成为破解密码关键的竟是某个德国倒霉鬼军官女朋友的名字、天气预报之类这样毫不起眼的内容呢?在获得固定重复词语以后就可以推导出当天用来编译密码的字母,获得了这把“钥匙”,恩尼格玛密码也不过是有序排列的字符串了。Christopher,这一特征应该是属于语言学范畴的对吗?你说如果图灵先生没有把两位语言学家从研究队伍中开除,研究的进展速度会不会发生改变?
Christopher:(停顿)抱歉,我好像不明白你在说什么。
第三部分
阿兰图灵与计算语言学
L:虽然图灵先生的主要研究方向并不是语言学,但是他在《论可计算数机器在判定问题中的应用》提出的“图灵机”模型以及关于算法计算模型的研究,对于计算语言学而言是重要的基础性理论及研究,他也曾提出检验计算机智能高低的最好方法是让计算机来讲英语和理解英语,进行“图灵测试”。Christopher,你现在已经能通过测试了对吗?
Christopher:是的女士。
L:但是为了让我们的读者朋友们能够更好地理解,抱歉,需要麻烦你“装一回傻”。用图灵先生使用过的例子,图灵先生在面对提问时作出了如下回答,那么作为一台“机器”的回答理论上应该是怎样的呢?
L:这是图灵先生的回答,那么同样的问题,Christopher二战期间你在做什么?
Christopher:我在一个无线电公司工作。
L:你在战争期间到底在干什么?
Christopher:我在一个无线电公司工作。
L:感谢你的配合Christopher,通过这个简单的示范我们可以发现,显然机器对两个问题的回答并不具有太大的关联性,而人的回答则会根据上下文发生变动,比如在被问到同样的问题第二遍时,语气或用词会发生改变,如图灵先生所回答的“你在认真听吗?”避开了正面回答提问,而是强调问题的重复并带上了语气。当然现在发达的人工智能已经不能用简单的测试去判断。
在“图灵测试”这一点上,图灵先生预见了计算机和自然语言之间存在的某种微妙联系。基于上述研究,图灵先生也被认为是计算语言学发展过程中的重要人物。Christopher,下面能请你简要介绍一下计算语言学的相关内容吗?
Christopher:俞士汶先生在于1993年发表的论文中给计算语言学做了定义:计算语言学是植根于计算机科学、数学与语言学等多学科沃土而成长起来的一门新兴学科。它的研究内容主要是自然语言信息处理,也就是人类语言活动中信息成分的发现、提取、存储、加工与传输。冯志伟先生(2011)指出计算语言学有着明确的应用目标,语音合成、语音识别、信息检索、信息抽取、机器翻译等,都是计算语言学的重要应用领域。邵泽国先生(2013)提到,其中机器翻译是人类最早用计算机来处理非数值运算的应用,它首次将自然语言与计算机联系在一起。但是很快人们发现语言的计算机处理过程不是一个简单的机械过程,应该注意对自然语言的理解。随后人们开始尝试用计算机来理解语言的含义。
L:正是由于现实中的自然语言极为复杂,不可能直接作为计算机的处理对象,为了使现实的自然语言成为计算机可直接处理的对象,在这众多的应用领域中,我们都需要根据处理的要求,把自然语言处理抽象为一个“问题”,再把这个问题在语言学上加以“形式化”,建立语言的“形式模型”,使之能以一定的数学形式,严密而规整地表示出来,并且把这种严密而规整的数学形式表示为“算法”,建立自然语言的“计算模型”,使之能够在计算机上实现,成为适用于计算机的“语言”。那么计算语言学的主要研究方法又是什么呢?
Christopher:邵泽国先生将计算语言学的研究方法归纳为基于规则的方法、基于统计的方法以及规则与统计相结合的方法。基于规则的方法(简称规则法)通常是先由语言学家撰写“规则库”(例如“词典”),再由计算机科学家编写算法程序,对“规则库”进行解释和执行。基于统计的方法(简称统计法)是通过对语料库中的训练数据来估计统计模型中的参数,从而建立统计性的语言处理模式。而规则统计相结合的方法(简称规则统计法)则是规则法与统计法的融合,充分吸收两者的优点,这也使得这一种方法弥补了单独使用上述两种方法带来的不足,将逐渐被学界采纳为主流研究方法。
L:高深的理论性研究似乎离我们有些遥远,但在语言习得领域已被广泛使用并为师生提供了巨大便利的各类电子字典、语料库及辅助软件同样也属于计算语言学的研究范围内,这些电子信息资源在语言教学和研究中发挥着重要作用。在外语教学关注学习者对非母语的听说读写能力培养的同时,计算语言学则在尝试让计算机具备相似的“语言能力”,虽然目前计算机对人类语言的识别与反馈并不能做到100%的准确率,但随着计算语言学的发展,它的研究成果必然会为外语教学提供新的教学资源和教学思路,这正是从事教学工作的人们热切期盼的。
写在最后
L:首先要感谢两位访谈对象的配合,他们在图灵先生的人生轨迹中都留下了浓墨重彩的一笔,克里斯托弗见证了天才的“诞生”,而Christopher则见证了天才的陨落,他们都是天才不再孤独的理由。虽然图灵先生常作为“计算机科学之父”为人们熟知,但他为计算语言学做出的贡献同样是为人称道的。由于本文为基于电影作品的常识性科普,且因为作者才疏学浅无法很好地兼顾娱乐性和学术性,在文字和理论阐释方面也许有不够严谨科学的方面,欢迎大家批评指正。对文中涉及内容感兴趣的同学可以自行阅读相关文献资料。再次感谢。
【参考文献】
百度百科
俞士汶 关于计算语言学的若干研究,语言文字应用1993,第3期,55-63
冯志伟 计算语言学的历史回顾与现状分析 ,外国语2011,1,第34卷第1期,9-13
邵泽国 计算语言学刍议 ,微型机与应用,2013,第32卷第6期,1-3
俞士汶 柏晓静 计算语言学与外语教学,2006,10,第111期,3-10
本期责编:公子小白
综合编辑:应用语言学研习
微信公众平台审核: 梁国杰
文献延伸阅读(研习人指引)
本平台友情整理相关文献索引链接,
欢迎感兴趣的朋友按需选购。
精选推荐
精选 | 应用语言学研习丛书(13种)一览:回顾经典 分析热点
扫码关注↑↑↑ 即可获取最新入群二维码!
目前已有 3.33 万语言文学、区域国别学
研习者关注本公众号
欢迎加入交流群,分享学习,共同进步!
亲爱的研习人,
一起来点赞、在看、分享三连吧!