冯志伟:从汉字信息处理到自然语言处理 |《语言战略研究》
2019年第4期
中华人民共和国成立70周年
新中国的语言学事业,今年走进第70个年头。我们邀请了语言学界德高望重的前辈,讲述他们亲身经历的一些标志性事件,为中国语言学史留下宝贵的记录。回首我们走过的道路,并不只是恋旧,而是为了更好地面向未来,使我们在继续前行的征途上,眼界更为开阔,目光更为敏锐,方向更为精准,步履更为坚定。
——陈 平
《语言战略研究》| 陆俭明:汉语言文字走向规范化、标准化、信息化的起点
《语言战略研究》| 戴庆厦:为少数民族创制文字是中国民族语文工作的一大创举
本期嘉宾
冯志伟
教育部语言文字应用研究所
从汉字信息处理到自然语言处理
早在1956年,自然语言的计算机处理就被列入中国科学工作的发展规划,成为其中的一个重要课题——“机器翻译、自然语言翻译规则的建立和自然语言的数学理论”,在国家规划的层面,正式启动中国自然语言处理的研究。
电子计算机是西方人发明的,使用西文打字机键盘。而用电子计算机来处理汉字,就会遇到巨大的困难,就要解决汉字的代码化、数字化以及汉字输入输出计算机的问题。
因此,中国在20世纪60年代末期就开始了探索和实践。
* | 1968年研制成汉字电报译码机 |
* | 70年代中期明确提出“汉字信息处理系统”的研究课题,叫作“七四八”工程 |
* | 接着,中国开始广泛应用大规模集成电路存储器和成套的微处理机芯片,为汉字输入计算机提供了物质条件,研制成了一些新型的汉字输入设备,并配制成各种应用系统 |
* | 70年代估测出汉字的熵 |
* | 80年代制定了《信息交换用汉字编码字符集基本集》(国家标准GB2312–80),采用双字节对6763个常用汉字进行了编码,实现了汉字的代码化 |
* | 接着,又制定了第一辅助集(GB12345–90)、第二辅助集(GB7589–87)、第三辅助集(GB13131–91)、第四辅助集(GB7590–87)、第五辅助集(GB13132–91)。其中,基本集和第二、第四辅助集是简体字集,第二辅助集收简体字7237个,第四辅助集收简体字7039个,三个字集一共对21034个简体字进行了编码;第一、第三、第五辅助集是繁体字集,分别对应基本集和第二、第四辅助集中的简体字。 |
国际标准化组织(ISO)于1984年开始研制《信息技术通用多八位编码字符集(UCS)》(即ISO/IEC10646),1993年公布了该标准的第一部分(体系结构与基本多文种平面),在UCS的表意文字部分,共收汉字字符20902个。这些国家标准和国际标准的研制实现了汉字的代码化、数字化,有力地保证了汉字输入研制的顺利进行。汉字输入的研制成果在中国的现代化建设中发挥了重要作用。
汉字输出也是中国自然语言处理研究的特殊问题之一。为了解决这个问题,“七四八”工程把能够输出高质量汉字的汉字照相排版编辑系统作为重点攻关项目,经过多年的艰苦奋斗,取得了令人瞩目的成就,全面取代了传统的铅字排版,在印刷技术上结束了“铅与火”的时代。
随着计算机汉字输入输出问题的解决,中国的汉字信息处理技术得到了多方面的发展,在汉字信息压缩、汉字自动识别、汉字信息通讯等多项技术上,也取得了显著的成就。今天,一个高度信息化的计算机汉字文化新时代已经到来,古老的汉字又重新焕发出蓬勃的青春活力。
除了汉字信息处理之外,中国在自然语言处理的其他方面也取得了很大的成绩,部分自然语言处理技术已经达到或者基本达到实用化水平,如机器翻译系统、语音合成系统、语音识别系统、搜索引擎、智能问答系统、各种类型的汉语语料库等。
在实际应用的驱动下,自然语言处理技术不断与各种新技术相结合,开发出越来越多的实用技术。例如,网络内容管理和监控的实用技术研究,不仅与自然语言处理技术有关,而且与网络技术、情感计算、图像理解等技术有关;语音自动翻译的实用技术涉及机器翻译、语音识别、语音合成、语音通讯、人机交互等多种技术。
自然语言处理研究已经发展成了一个名副其实的多边缘的交叉学科,我们可以通过语言学与数学、计算机科学、心理学、认知科学、人工智能、生物学等多学科的通力合作,把人类的语言知识与计算机的计算能力结合起来,从而解决自然语言处理中的各种困难问题,并进而揭示人类大脑处理自然语言的奥秘。语言学将成为自然科学、思维科学和人文科学之间的桥梁。一向被视为冷门的语言学,现在已经成长为一门带头的学科,成为现代科学技术研究的一个热点。语言是人类智能的重要组成部分,自然语言处理为人工智能技术提供了语言学支撑,成为了人工智能皇冠上一颗璀璨的明珠。
相关推荐
我知道你在看哟