查看原文
其他

热烈祝贺冯志伟先生荣获NLPCC2018杰出成就奖

热烈祝贺冯志伟先生荣获NLPCC2018杰出成就奖



CCF 自然语言处理与中文计算国际会议 (NLPCC)是由中国计算机学会主办的中文信息技术专业委员会年度学术会议,是专注于自然语言处理及中文计算领域的国际会议。会议旨在为来自学术界、工业界和政界的学者和研究者提供一个交流平台,促进学者和研究者分享研究和应用成果及创新思维。

NLPCC2018正于内蒙古呼和浩特举行,致力于推动相关领域学术界和工业界研究、创新与应用的发展,成为覆盖全国、具有国际影响力的学术与创新交流平台。会议上,国内资深自然语言处理和计算语言学专家冯志伟先生荣获NLPCC2018杰出成就奖。


冯志伟先生获奖感言


各位来宾,各位代表:

今天我获得CCF-NLPCC卓越贡献奖,非常高兴,谢谢中国计算机学会中文信息技术专业委员会(CCF-TCCI)给我这样的荣誉,谢谢CCF-TCCI诸位专家的提名,谢谢在公示过程中各位同行专家对于我的热情鼓励和有力支持。我希望与我的同事们和学生们来共享这个荣誉,是他们60年来一直给我有力的支持,给我热情的鼓励,给我无私的帮助。作为一个语言工作者,我非常珍惜这个荣誉。

美国著名计算语言学家马丁•凯伊(Martin Kay)在2005年获得ACL终生成就奖的答谢辞中曾经说过这样的话:“计算语言学正在试图用计算的方式来研究语言学家们研究的问题”。我非常赞同马丁•凯伊的这种看法,我们应当把语言学与计算机科学紧密地结合起来,进一步推动自然语言处理的发展。

我是一个历尽沧桑的自然语言处理研究者,早在1957年我才18岁的时候,就对于语言的研究发生了浓厚的兴趣,梦想着打破人类的语言障碍,后来我知道了美国在1954年就研制成功俄英机器翻译,受到极大的鼓舞,决心投身自然语言处理研究,实现自己的科学梦想,于是我在北京大学从地球化学专业转而学习语言学,走上了自然语言处理研究的漫漫长途。文革中我被迫改行,经过十年之久的磨练和周折之后,才得以重新归队。

这60年来,不论如何艰辛,不论怎样困难,我始终坚定不移地走在自然语言处理的道路上。60年前,我还是一个不谙世事的毛头小伙,而自然语言处理也才初露新芽。现在我已经是年近80岁的垂垂老人了,可是,我们从事的自然语言处理仍然还是一门新兴学科,她仍然还显得非常年轻,仍然充满了青春的活力,仍然有着无比广阔的发展前景。

我们个人的生命是有限的,而科学研究的发展却是无限的,我们个人的有限生命与科学研究这棵枝叶茂密的参天大树相比,是显得多么地短促,多么地渺小,多么地微不足道啊!鲁迅先生说得好,“我倘能生存,我仍要学习!”我一定继续努力,不断地进行更新知识的再学习,坚持终生学习,活到老,学到老,努力赶上自然语言处理学科发展的步伐!自然语言处理是计算机科学与语言学的交叉学科,是跨学科研究的最好范例。我希望计算机科学界和语言学界联合起来,共同促进这门学科的发展。谢谢大家!



冯志伟先生曾在《语言战略研究》(2016年第2期)发表《汉语拼音国际标准化的新进展》一文,全文如下:

汉语拼音国际标准化的新进展


冯志伟


教育部语言文字应用研究所 北京 100010

 

 本文叙述了国际标准ISO 7098的修订过程,指出这个国际标准修订的两大特点:一是把汉语拼音按词连写的规则引入国际标准,二是把汉字—拼音转写的自动译音方法引入国际标准。


关键词 拼音;国际标准;单一罗马化;自动译音

 

1979 年,中国代表周有光在华沙的 ISO/TC 46(国际标准化组织信息与文献标准化技术委员会)第18届全体会议上,提出把《汉语拼音方案》作为国际标准的建议。

1982年在南京召开的ISO/TC 46第19届全体会议上,正式通过了《ISO 7098文献工作——中文罗马字母拼写法》(ISO 7098 Information and Documentation-Chinese Romanization)。澳大利亚、加拿大、法国、日本、韩国、德意志联邦共和国、苏联等国投了赞成票,英国弃权,由于技术上的原因,美国投了反对票。从此,汉语拼音成为国际标准。


一、国际标准 ISO 7098 的修订过程


1991年,在巴黎召开的ISO/TC 46第24届全体会议上,对国际标准“ISO 7098”进行了技术修改,成为《ISO 7098信息与文献——中文罗马字母拼写法(1991)》,简称“ISO 7098(1991)”。中国代表王均出席了这次会议。

20世纪90年代初制定ISO 7098(1991)的时候,正是世界进入信息时代的关键时刻。为了适应信息时代的要求,中国开始研制计算机汉字输入输出。使用汉语拼音,可以通过拼音—汉字转换的方法输入输出汉字。由于汉语拼音是中国初等教育必不可少的内容,每一个受过教育的中国人都会使用,这样,ISO 7098(1991)就成了汉字输入输出的一种便捷的手段。

国际标准ISO 7098(1991)是在《汉语拼音方案》的基础上制定的,为了在国际范围内进一步扩大《汉语拼音方案》的影响,有必要修改ISO 7098(1991)。

ISO 7098(1991)对于全世界的信息与文献工作具有重要的意义,为了满足国内外对汉语拼音实际应用的迫切需要,也有必要修改ISO 7098(1991)。

2011年3月,教育部成立了ISO 7098修订工作组,由语言文字应用研究所研究员冯志伟担任组长,李志江、傅爱平、黄伟、颜伟四位语言文字专家为工作组成员,启动了ISO 7098(1991)的修订工作。

2011年5月6 日,ISO/TC 46第38届会议在澳大利亚悉尼召开,受教育部的派遣,我国代表冯志伟出席并在会上提出了修改ISO 7098(1991)以便反映当前中文罗马化的新发展和实际应用需要的建议。会后,我国国家标准化委员会(SAC)正式向ISO国际标准化组织提出了修订ISO 7098(1991)的新工作项目(New Working Item Proposal,简称NWIP)的提案,提案的国际编号是:N 2358。

2012年5月6日至11日,ISO/TC 46第39届全体会议在德国柏林举行,教育部派遣冯志伟出席这次会议。会议接受了我国的N 2358号提案,并将这个提案直接作为ISO 7098的工作草案(Working Draft,简称WD),成立了ISO 7098国际修订工作组,并任命冯志伟担任国际工作组组长,由美国、俄罗斯、德国和加拿大四国各派一位专家参加,这样,ISO 7098(1991)的修订便正式列入了国际标准化组织的工作日程。

2013年6月3 日至7日在巴黎召开ISO/TC 46第40届全体会议,教育部派遣冯志伟出席这次会议,冯志伟在会议上正式向ISO/TC 46秘书处提交了ISO 7098的委员会草案(Committee Draft,简称CD)。

2014年5月5日至9日,ISO/TC 46第41届全体会议在美国华盛顿召开。教育部派遣冯志伟出席这次会议,在5月7日的第三工作组(Working Group 3,简称WG3)会议上,就ISO 7098(1991)的修订问题重申中国的立场。会后向ISO/TC 46秘书处提交了ISO 7098的国际标准草案(Draft of International Standard,简称DIS)。

2015年6月1日至5日的ISO/TC 46第42届全体会议在北京召开。教育部派遣冯志伟出席这次会议,在6月2日的大会专题报告会上做了《ISO 7098国际标准及其在人机交互中的应用》的报告(Feng 2015)。6月3日的WG3会议上,冯志伟又介绍了各国对于ISO 7098的DIS稿提出的意见以及我国对于这些意见的处理情况,向与会人员出示了DIS的修改稿。

会后,冯志伟把经过修改的DIS稿正式提交ISO/TC 46秘书处,根据ISO/TC 46第41届全体会议的决议,ISO/TC 46秘书处于2015年7月27日把DIS的修改稿分发给ISO/TC 46的各成员国,进行委员会内部投票(Committee Internal Balloting,简称CIB),CIB投票于2015年9月18日结束。ISO/TC 46秘书处的N 2526号文件公布了投票结果:ISO/TC 46委员会中没有弃权的19个国家全都投了赞成票,获得全票通过。至此,ISO 7098形成了新的修订稿,叫作ISO 7098:2015。2015年12月15日,ISO总部正式出版ISO 7098:2015,作为新的国际标准向全世界公布。

2015年12月15日由ISO总部正式出版的ISO 7098:2015有两个最为引人注目的特点,一是把汉语拼音按词连写的规则引入国际标准,二是把汉字—拼音转写的自动译音方法引入国际标准。


二、汉语拼音按词连写的规则引入国际标准


汉语中大多数常用词都是多音节词,因此,在国际文献和信息工作中,有必要把按词连写的规则引入国际标准。

在汉语拼音中,单个的音节是有歧义的。如果不计声调,基本的汉语音节只有405个,这405个汉语音节可以表示全部汉字的读音。《通用规范汉字表》包含8105个通用汉字,一般使用中一个汉语音节平均要表示20个以上的汉字(8105/405=20.01),不可避免会出现歧义。如果把几个单音节连接起来构成多音节词,歧义指数就会大幅度减少。为了给拼音音节排歧,必须把不同的单音节连接起来构成多音节的汉语单词。

《汉语拼音正词法基本规则》(GB/T16159-2012)中包括了分词连写规则,人名和地名的拼写规则,大写规则,移行规则,等等。

汉语的专有名词中,单词的界限还是相对清楚的,由于汉语中多音节的命名实体的界限根据有关的规范和标准比较容易确定,因此,把不同的几个单音节连接起来构成多音节的专有名词就不是很困难。

由于这样的考虑,国际标准ISO 7098:2015增加了命名实体(naming entities)按词进行音节连写的规定:在汉语拼音中,对于人名、地名、语言名、民族名、宗教名这五种命名实体,都要按词进行连写。这样就把“按词连写”这个重要的方法引进了国际标准中。

在中文罗马字母拼写的发展过程中,曾经使用过与《汉语拼音方案》不同的罗马字母拼写形式来拼写中文地名。威妥玛式(Wade Giles)、国语罗马字(Guoyeu Romatzyh)、耶鲁拼音(Mandarin Yale)等,根据“单一罗马化”原则,在对中文地名进行罗马字母拼写时,选择了《汉语拼音方案》。


三、汉字拼音转写自动译音的方法引入国际标准


ISO 7098:2015还把汉字—拼音转写自动译音的方法引入国际标准,提出了在计算机辅助文献工作中,对命名实体进行自动译音(automatic transcription)的两种方法:一种是按音节全自动译音,一种是基于规则的按单词半自动译音。

按音节全自动译音的方法能够把汉字文本自动地译音为彼此之间由空白分开的单音节的拼音。使用这样的方法,“北京市”这个地名可以全自动地译音为/bei/、/jing/和/shi/三个音节。这种方法很容易用计算机程序来实现,但是译音出来的音节的歧义指数较高。

另一种是基于规则的按单词半自动译音的方法。在目前的技术条件下,全自动的单词切分难以达到很好的质量,可以采用基于规则的按单词半自动译音的方法。

命名实体基于规则的按单词半自动译音可以使用如下的资源:1.一套译音规则:ISO 7098:2015提出了命名实体译音的一般规则,这些规则可以用作命名实体半自动译音的资源。2.一个相关的译音词典:最近出版的《汉语拼音词汇:专名部分(草案)》(董琨 2015)包含了大多数的命名实体的拼音译音,可以用作命名实体半自动译音的另一个资源。

ISO 7098:2015提出,如果在按词译音过程中出现歧义或问题,后编辑人员可以根据译音词典,使用人机交互找出合适的命名实体的译音。所以,这样的方法是半自动的。这种半自动方法的译音质量很高,音节的歧义指数较小甚至可以减少到零。

24年前制定的ISO 7098(1991)把《汉语拼音方案》提高到国际标准的地位,是汉语拼音走向世界的第一步,现在我们修订的ISO 7098:2015,进一步提出了在罗马字母拼写时对命名实体按词连写的规则和自动译音的方法,迈开了汉语拼音走向世界的新步伐。

 

参考文献(略)


作者简介:


冯志伟,男,1939年4月出生。冯志伟教授是资深的自然语言处理和计算语言学专家,从事机器翻译、自然语言处理和计算语言学等基础理论研究和系统开发几十年,学术成就斐然,著作等身,已在多家著名出版社出版了二十余部专著,翻译国外重要论著数十篇(部),并用汉、英、法、德文等撰写了有代表性的重要学术论文百余篇,在国内外许多著名刊物上发表。

冯志伟教授年近八十,仍笔耕不辍,活跃在科研第一线,积极推动计算语言学的发展。不仅在国际上担任很多知名组织、会议的委员、学术期刊的编委,也在国内计算机领域重要的学会中担任会长、理事、标准制定成员、评审委员、多所著名大学、研究所的兼职教授,以及核心期刊的编委等。

冯志伟教授是一位极为罕见的文理兼通、跨学科的研究型专家。他既懂得理科中的数学、物理、化学和计算机科学,又懂得语言学中的古代汉语、现代汉语、文字学、音韵学和普通语言学,深研过汉、英、法、德、俄、日等语言的语音、词汇和语法的自动处理,并把各方面的知识紧密地结合起来综合应用,在计算机上加以实现,完成各种研究任务。他在不同学科、不同语言研究中都取得重要的成就,分别成为这些学科的学术带头人。


——————


官方微信 

 官方微店

  联系方式:

  电话:010-65219060  65219062

  网址:http://yyzlyj.cp.com.cn 
  邮箱:yyzlyj@cp.com.cn
  地址:北京市东城区王府井大街36号
  邮编:100710

服务国家社会需求  研究现实语言问题

促进学术成果转化  构建和谐语言生活


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存