讲座报道|国际标准ISO 7098-2015的研制
https://v.qq.com/txp/iframe/player.html?vid=t0530an42bf&width=500&height=375&auto=0
2017年7月8日北京时间下午两点半,著名计算语言学家冯志伟教授应邀参加国际汉语教师微信群主办,北语社协办的微信学术系列讲座,主讲了国际标准ISO 7098-2015《中文罗马字母拼写法》的研制,通过视频直播的方式,为全球国际汉语教师和研究者们实时传递了关于新标准的修订过程,及其国际传播意义的介绍。直播地点位于北京语言大学的梧桐书屋内,在古色古香的环境当中,北京语言大学的张宝林教授主持了这次讲座。
冯志伟先生(右)与张宝林教授(左)合影
冯志伟教授是我国语言学界跨学科奇才,其学术研究领域横跨了语言学科、自动化学科、计算机学科、汉语学科和外语学科。他曾在法国研制开发过世界上第一个汉语到多种外语的机器翻译系统,而后在德国建立世界上第一个中文术语数据库。在德国大学任教时他对汉字的数学结构感兴趣,用德文发表过《汉字的历史和现状》。在韩国大学执教期间,他出版了译著《自然语言处理综论》。冯教授是汉语拼音推广和应用的重要贡献者,被国家语委选定主持ISO7098的修订工作,后来又被ISO组织任命为ISO7098国际修订组的组长,使得我国在国际标准的修订中取得了主动权。
这次讲座首先谈谈ISO 7098修订的背景和迫切需要。ISO(国际标准化组织)是当前世界上最重要的标准化组织,1982年,ISO/TC 46(国际标准化组织——信息与文献技术委员会)会议正式通过了《ISO 7098 信息与文献——中文罗马字母拼写法》,使《汉语拼音方案》(1958)有了国际标准的地位。修订版ISO 7098(1991)在世界上大多数图书馆的中文编目、检索、分类中得到广泛使用,在汉语国际教学中也得到普遍的使用。为了适应信息与文献工作的时代发展需求,2011年,国家教育部成立了 ISO 7098(1991)修订工作组,由冯志伟担任组长。
修订工作历时5年,先后通过了工作草案、委员会草案、国际标准草案,最后通过了ISO/TC 46成员国进行的委员会内部投票,获得全票通过。2015年12月,ISO正式出版了《ISO 7098 信息与文献——中文罗马字母拼写法》2015年修订本。研制工作并非一帆风顺,美国曾提出反对意见,德国、日本和英国先后投过反对票和弃权票。冯教授通过向各国代表询问了解,对问题进行多方沟通与协调,最终在修订稿中做出相应的修改,使之顺利地在最后阶段获得全票通过。
ISO 7098-2015的特色是:一、将汉语拼音按词连写的规则引入国际标准;二、提出把汉字文本自动译音为拼音的方法;三、进一步完善汉语拼音的音节形式总表;四、给声调和标点符号补充16进制unicode代码,扩充罗马字母的字符集。讲座接下来从罗马字母传播的历史,文字体系转换的语言学原理,和分词连写的国际协调三个方面分别阐述ISO7098:2015的国际意义。
冯教授首先从世界三大字母体系讲起,介绍了罗马字母的起源和传播与发展,大小写体系的完善,文本中出现分词连写的年代。他接着详细罗列了世界罗马化浪潮沿着历史时间轴席卷欧洲、美洲、大洋洲、撒哈拉大沙漠南面地区、和亚洲的各个国家地区。相反,世界范围内仍然有一些国家使用非罗马字母的文字。冯教授指出汉字就是非罗马字母文字中的非字母文字。在全世界的信息与文献工作中,有必要对非罗马字母进行转换。中国顺应了罗马化大浪潮的背景,从地名的单一罗马化到ISO7098的推出,目前进一步做出ISO 7098-2015的研制。
教育部语言文字信息管理司提出过,把《汉语拼音正词法基本规则》中按词连写的规则加入到ISO 7098-2015的修订稿中,缘于分词连写规则能有助于减少拼音音节的歧义。但是冯教授通过调查发现,普通词语的按词连写应用在世界大图书馆中较难操作。目前国内语言学界对于什么是一个词的定义尚不明确,因此很难判定汉语单词的界限(分割线)。为了得到大多数成员国的支持,修订组最终提出了只增加有关人名、地名、语言名、民族名、宗教名等5种命名实体的分词连写的规则。德国投了反对票,因其现行中文字符译音都不按词连写,自动处理为音节与音节之间使用空白分开。经过国际协调,新标准最终采纳了这个修订。
在文字体系转换中,中文罗马化属于字符译音(transcription)的范畴,而非字母转写(transliteration)的范畴。ISO 7098-2015从文字体系转换的语言学原理上解释其成立的科学性。字母转写(transliteration)过程可逆,能够把经过字母转写过的单词恢复成其原来的形式。但是字符译音(transcription)过程不可逆,举个例子,汉字中有大量的字符,如果仅拿《通用规范汉字表》中的8105个通用汉字和405个基本的汉语拼音音节(不计声调)做计算,一个汉语拼音音节平均要表示20个以上的汉字。因此存在了歧义,导致中文的字符译音是不可逆的。基于这一点,拼音的按词连写规则却能明显减少歧义的出现,有些多音节汉语单词的“歧义指数”甚至达到零的水平。此外,通过文字体系的两类转换中各国实例的对比,并且参考其他非罗马字母文字转换的国际标准, 我们得知ISO 7098-2015是目前世界上唯一采用字符译音转换方法的国际标准,它在罗马化国际浪潮中犹如一朵惊奇耀眼的浪花。
ISO 7098-2015不仅要在中国使用,也要在国际语言生活中使用。它的意义重大:在于进一步规范汉语拼音的规则和用法;也在于体现中文罗马化的新发展和新应用方法;更在于巩固汉语拼音文化在国际语林中的地位和影响力。汉语拼音的发展之路任重道远。
(现场听众与专家合影)
https://v.qq.com/txp/iframe/player.html?vid=j053039nvqe&width=500&height=375&auto=0
特别感谢冯志伟教授不辞辛劳为本场讲座做出的倾情演绎!讲座结束之后,张宝林教授做出了三点精要总结,指出ISO7098对语料库建设和对外汉语教学很有意义。会后还有一些提问环节,国际汉语教师500强微信群内的老师们积极参与了讨论:
1、 ISO 7098-2015修订版最大的意义是否就是面向信息处理?方便计算机的语义消歧?
答:不完全是。主要考虑了面向信息处理的问题,更多是面向文献处理工作(比如图书馆、博物馆、人事档案的管理)。另外,还包括设法让汉语拼音在国际上代替别的汉语罗马化方案,强调它的国际地位,这同时有利于对外汉语教学(五种命名实体的转换)。
2、ISO 7098-2015修订版和之前版本最大的区别是否就是五类命名实体(人名、地名、语言、民族、宗教)进行了分词连写?
答:不完全是。比之前的版本有了大幅度的提高,其他方面的工作包括:理论上提出字母转写transliteration和字符译音transcription的区分,论证拼音属于字符译音的范畴;另外提出自动转换的方法,对汉语拼音音节表做了说明,修改了词典中不足的地方。
3、在分词问题上,国际汉语教学课本中/实践中经常把一个词语的拼音连写,这就关系到什么时候是一个词什么时候可以分开一个很长的词的问题。您赞成汉语课本中的词语拼音连写方式吗?
答:早期的拼音读本是一个汉字下面注一个音节,后来汉语拼音正词法出来后开始做分词连写,我发现近年有些教材开始不按分词连写来做,这对编者和出版来说确实有些困难,但实行标准需要慢慢来。我们正在编写一部汉语拼音词汇,尽量收录各类汉语单词,词典对专有名词的分合问题将有一定的规范。我们可以在正词法规则的基础上,把现代汉语词典,汉语拼音词汇作为参考规范。放弃课本中的词语拼音连写的做法是不对的。
4、在中文语料库建设中,目前的实践也总是要分词,可是一分词就会有错误率,您认为我们有一天是否可以不再分词?
答:目前分词不可能做到百分之百,有些单词在词典上查不出来(比如新闻文本中的人名、地名),因此难免会出现分词错误。随着全民文化的提高,我们在输入上可以一步步做到分词。分词在信息处理中必不可少,这是一种习惯的养成,韩文有分词,日文的科技文开始出现分词,中文的分词需要我们慢慢养成习惯。
5、歧义指数的计算是否可以用信息熵的方差来替代?因为有的同音字的熵差别极大,这种歧义指数语感上应该比较小,有的同音字的熵差别较小,则歧义指数应该比较大,以信息熵的方差,或将其考虑在内来衡量歧义指数,应该会比目前更准确。采用这种计算方法的意义在于,可以相对客观量化地衡量分词连写到底在多大程度上实现了消歧,从而为哪一类词进行分词连写必要性提供理据。
答:在信息处理上有这个做法,但在国际标准中不适宜写进去,复杂化不利于普通人的理解和接受。使用歧义指数对外国专家比较好接受。
6、可以利用语料库来研究汉语句型,譬如说主谓谓语句吗?
答:语料库需要做词性标注和句法分析,然后检索出主谓谓语句,进行句型研究。
7、我曾尝试在分词、词性标注、短语标注、句子成分标注基础上自动提取各类句子。思路应该没有问题,但标注十分繁琐,大规模进行困难。您认为此法如何?有没有更为便捷的方法?
答:自动句法分析难度大,精度低,自动分析之后要做人工校对。否则无法检索有用的结论。我做机器翻译必须先做自动句法分析,正确率不高。正确率百分之七十,最后承认自己智慧不高,放弃了。这里没有捷径可走。最简便的方法是使用Stanford的自动句法分析软件,分析出结果之后再人工修改。这需要比较熟悉编程的人才来做。当然,统计方法和神经网络方法的分析效果好一些,难点在于我们要看懂其分析的表达结果。自动句法分析练习人的智慧,有空可读一读我的新著《自然语言计算机形式分析的理论与方法》,便可以知道其详情了!练一练本领可以避免空谈!
(专家与北语社工作人员合影)
入夏以来,北京连续高温,冯老师以及张宝林老师、陈维昌、葛宝俊老师等,为这次讲座出力流汗,他们的精神非常令人敬佩。让我们再次向无私奉献的老师们表示感谢。
总策划:王维群(英国诺丁汉大学)
撰稿人:李嘉婉(汕头大学)
技术支持:北京语言大学出版社《国际汉语教学研究》编辑部
国际汉语教师500强
International Forum of Chinese Language Teachers
2017年 · 6月号
顾 问
白乐桑(法国 巴黎东方语言学院)
李宇明(中国 北京语言大学)
总主编
王维群(群主,英国 诺丁汉大学)
栏目主编
李红印(中国 北京大学)
刘海燕(中国 中国传媒大学)
美编总监
侯昕(中国 武汉大学)
版式/美编
吴叶莉(中国 武汉大学)
“国际汉语教师微信群”之学术公众号。
所有文章欢迎转发至朋友圈。
公众号、报刊等转载请联系授权:
teaching.chinese@outlook.com
本群和公众号常年法律顾问:
田明(中国 北京天悦专利代理事务所)
微信号:gjhyjs500q
长按或扫描二维码关注本号