查看原文
其他

热点聚焦 | 国家语言智能化建设

iResearch 外研社外语学术科研
2024-09-09

语言文字既是一个国家智能化建设的基础性资源,同时也是智能化建设的重要对象。在21世纪,语言文字智能化水平已经成为衡量国家现代化进程与国家语言能力发展水平的重要标志。文秋芳教授于2011年提出国家语言能力构成新框架,将国家语言智能化作为国家语言核心能力的一部分。随着大数据、人工智能等新兴领域的发展,国家语言智能化的地位也日益重要。本期热点聚焦关注中国、意大利、罗马尼亚三个国家语言智能化建设的历程,内容摘选自“国家语言能力研究丛书”中的《新中国国家语言能力研究》《意大利国家语言能力研究》《罗马尼亚国家语言能力研究》。


新中国国家语言智能化建设的三个阶段

中国语言文字智能化建设大致经历了三个阶段:第一阶段为前期准备阶段(从新中国成立到“文革”结束);第二阶段为全面启动阶段(从改革开放到20世纪90年代初);第三阶段为高速发展阶段(20世纪90年代中期至今)。

语言文字信息处理技术的历史可划分为手工时代、机械化时代和自动化时代。中国语言文字智能化建设起步晚、基础差,汉字处理直到20世纪初仍停滞于手工或半机械化的低水平阶段,这也意味着新中国国家语言智能化建设同时面临着机械化和自动化两个时代的历史重压(许寿椿 2009)。


为迅速跟上世界语言文字信息技术的发展潮流,新中国成立后政府积极统筹国内各方面资源,首先在国产计算机的研制上投入了大量的人力物力。在“先集中、后分散”“先仿制、后创新”方针的指导下,中国于20世纪50年代制成了第一代电子管计算机,60年代研制出了第二代晶体管计算机,并于60年代末到70年代中期先后成功研制了小规模和大型集成电路通用数字电子计算机(陶建华等 2016)。这为新中国语言文字信息处理技术的发展提供了必要的“硬件”支持。借助国产计算机的研发,中国政府组织专家学者尝试性地开展了自动翻译、汉字信息输入输出、中文编辑排版等语言文字信息处理技术的研究。如1959年,中国借助自主研发的大型数字电子计算机104机研制出了俄汉翻译系统;1974年8月,在国家计划委员会的领导下,第四机械工业部组建了“748”工程办公室,专门负责汉字情报检索、汉字通信和汉字精密照排等研究工作,这是中国政府首次组织多部门合作的大规模语言文字信息化工程(闵大洪 1994)。此外,新中国成立后政府有序开展了一系列语言规划活动,不仅有效地提升了国民语文水平,同时也为下一阶段中国语言信息处理技术的发展提供了统一规范的语言文字信息资源。自20世纪50年代初,政府开始在全国范围内推广普通话、简化汉字和《汉语拼音方案》,相关部门和研究机构还联合地方政府提出了十余种少数民族文字创制或改革方案。这些活动的开展,极大地促进了国家通用语言文字和少数民族语言文字的规范化,为后一阶段信息处理标准的确立奠定了基础。


改革开放后,新中国社会经济迎来了高速发展,与世界各国信息技术交流的速度明显加快,语言文字智能化建设迎来了前所未有的发展契机。政府在这一阶段开始制定国家通用语言文字和其他几种少数民族语言文字的编码标准,并取得了显著成效。从1980到1991年,国家技术监督局先后发布了《信息交换用汉字编码字符集 基本集》和五个辅助集,其中基本集与第二、第四辅助集是简化汉字编码字符集,第一、第三、第五辅助集是繁体汉字编码字符集,较好地解决了简繁体汉字在计算机中的存储、交换和处理问题(国家语言文字工作委员会 2017:36-37)。另外,少数民族语言文字编码标准也开始陆续推出。这一时期,中国共颁布了蒙古文、朝鲜文、维吾尔文和彝文四种少数民族语言文字编码字符集国家标准,为推动少数民族语言文字智能化建设创造了良好条件(金星华 2005:164-172)。


在文字编码标准不断丰富的基础上,新中国语言文字信息处理软件的研发得到了迅速发展,其中最具有代表性的成果是推出了以中文和少数民族语言为操作语言的计算机系统。1983年中国研发出第一个汉字操作系统CCDOS1.0,之后又推出了CCDOS、GWDOS等多个系列(张双圈、周拴龙 1994);蒙古文、藏文、朝鲜文、彝文等少数民族文字DOS操作系统也陆续研发成功,极大地推动了计算机在中国的使用(金星华 2005:164-172)。借助自主研制的操作系统,这一阶段中国还深入开展了面向中文自动分词、汉字键盘输入、手写与印刷体汉字识别、汉字打印输出、语音识别与语音合成等方面的基础技术研究,研发了各类机器翻译系统、电子排版印刷系统、检索软件等(苏东庄、袁琦 1990)。少数民族语言文字应用软件的开发也取得了重要进展,在DOS操作系统下研发出了蒙古文、藏文、维吾尔文、彝文等多个少数民族语言文字处理系统,其中包含了印刷排版、文档编辑、图书管理等多种应用软件(金星华 2005:164-172)。发展阶段的语料库建设主要用于专业领域情报资料的检索。以中文语料库的建设为例,截至1992年底,中国已建成中文语料库655个,涉及文教、科技、交通运输等各个领域,其存储形式也逐渐从磁带、磁盘发展到光盘(张双圈、周拴龙 1994)。


自20世纪90年代中期开始,新中国语言文字智能化建设正式进入了高速发展期。1994年,中国全功能接入国际互联网,这一年因此被称为“中国互联网元年”。之后,中国科学院高能物理研究所设立了国内第一个WEB服务器,推出了中国第一套网页。随着互联网时代的开启,中国信息技术与产业的发展开始与国际接轨,语言文字智能化建设迎来了前所未有的繁荣发展。这一阶段语言文字信息处理标准取得的进展主要表现在以下两个方面。一是中国按照ISO/IEC10646国际标准制定了相应的编码标准,实现了语言文字编码标准与国际标准的统一。二是面向信息处理技术的多种规范、评测标准不断完善,为中国占据相关信息技术的研发高地创造了良好条件。进入21世纪后,中国制定了多项面向中文信息处理的词处理技术标准、语音技术标准、技术评测标准,对包括中文语音识别、机器翻译和语料库系统建设在内的语言信息化工作起到了基础性的指导作用(国家语言文字工作委员会 2017:36-43)。少数民族语言信息处理技术标准的研制也取得了一定进展,《信息技术信息处理用蒙古文词语标记》《信息处理用藏语词类标记集》《信息处理用藏文分词规范》等国家标准相继颁布,为推动少数民族语言信息处理技术实现更快发展奠定了基础。


互联网络的发展还带来了信息爆发式的增长,直接推动了这一阶段大规模语言文字资源库的建设。除了传统的文献数据库外,中国还研制了面向信息处理的语言参数库(如词汇数据库、语音数据库)、语言知识库、语法信息词典数据库等各种资源库,为语言文字基础研究和信息处理技术研发提供了系统化的语言信息资源。


互联网及大规模语言文字资源库的出现,又进一步为语言文字智能化建设由文字信息处理层面向更高技术要求的语言信息处理层面发展提供了契机。在中文信息处理领域,如今国内流行的中文输入软件均可通过搜索引擎技术将互联网变成支撑文字输入的“活词库”,同时还能将用户输入时产生的数据随时传送到网络词库中,从而大大提高了中文输入的便捷度和准确度。机器翻译不再借助语言学的短语规则,依靠大规模的真实语料库和互联网络、支持中文与数十种常用语言互译的“互联网机器翻译系统”已经研发成功,同时基于深度学习的机器翻译系统研究也开始启动(冯志伟 2019)。机器声学模型的训练需要语料库尽可能地覆盖所有的语言语音现象,互联网络的发展和大规模语音语料库的建成为中国语音识别与合成软件的研发提供了客观全面的数据。


以上内容摘选自《新中国国家语言能力研究》5.3节“国家语言智能化”,略有删减。

(文秋芳、杨佳著,点击图片了解图书详情)


意大利自然语言的智能处理

自然语言处理包括机器翻译、语音处理和信息检索等。意大利自然语言处理研究可以追溯到20世纪50年代。1949年,罗伯托·布萨与国际商业机器(意大利)有限公司合作,开始着手通过计算机技术辅助编辑《托马斯著作索引》;该索引包含托马斯·阿奎纳著作所使用的约1,000万拉丁文单词,远远超出原先手写或打字机制作的索引卡处理水平。


20世纪60年代,安东尼奥·赞波利和布萨合作,在创建索引和文本对齐的基础上拓宽文本处理研究领域,于1969—1970年在意大利众议院支持下创建了用于法律信息提取系统的意大利语电子词典。赞波利于1968年在比萨创立了大学电子计算国家研究中心,后改名计算语言学协会(ILC),隶属于意大利国家研究理事会(CNR)。70年代欧盟委员会启动了EUROTRA项目,旨在联合欧洲的大学与研究机构在自然语言处理领域深入研究,创建多语言机器翻译系统,这一理念促进了文本提取的发展。


意大利最初的两个国家级自然语言处理项目皆由计算语言学协会设计和提议建立。1999—2001年,意大利教育、大学与研究部出资开展了“国家自然读写语言处理领域语言资源的基础建设”(TAL)项目,研发团体由比萨研究协会(CPR)、威尼斯研究协会(CVR)、通信实验室和研究中心(CSELT)等13个机构组成。TAL项目研究成果包括:建立意大利语语义–词汇网站ItalWordNet;创建标注不同语言层级的语料库意大利语句法语义树库TreSSI La Treebank Sintattico Semantica dell’Italiano;设计用于自然语言应用软件模板创建的辅助工具SiSSa;创立不同语言层级标注的对话语料库;研发高级语音识别命令装置。


2000—2003年,意大利教育、大学与研究部又出资开展“计算语言学:单语和多语搜索”国家研究项目。该项目共包含8个项目,每个具体项目由不同的研究机构独立运行。其中的二号项目创建了意大利语口语和书面语料库CLIPS,采集了意大利具有语言和社会经济代表性的15个地区100个小时的口语录音;六号项目创建了意大利语–阿拉伯语双语语料库,由那不勒斯东方大学负责;七号项目研究阿拉伯语形态学的自然语言处理,由比萨大学古代历史系开展。2002年在意大利通信部的提议下,意大利自然语言处理论坛(Forum TAL)成立。该论坛旨在协调意大利自然语言处理领域研究和开发,尤其是促进TAL项目在公共行政服务领域的应用,目前有21个合作机构,主体涉及政府部门、学术机构、社会组织。在教育、大学与研究部和国家研究理事会的支持下,由计算语言学协会主导的意大利自然语言处理研究形成了全国网络,并与国内外的大学、企业、研究组织开展合作。


以上内容摘选自《意大利国家语言能力研究》3.3.1节“意大利自然语言的智能处理”,略有删减。

(董丹著,点击图片了解图书详情)


罗马尼亚国家语言智能化的起步

早在20世纪70年代后期,欧共体就意识到了语言科技对于促进欧洲统一的重要性,开始资助研发EUROTRA系统。该系统被设想为能翻译所有欧洲共同体国家语言的多语系统(逐对翻译),“此项设计的基本原理是由模块化设计来实现多语之间的翻译,使多语转换模块跟单语分析模块和单语生成模块严格分开”(King、刘敏 1985:18)。


到20世纪80年代初,罗马尼亚学者在计算语言学和自然语言处理领域产出了一些研究成果,但未能在国家层面引起重视(Trandabăţ et al. 2012:2)。1992年,欧共体委员会(欧盟委员会的前身)对多个欧洲国家的语言状况开展调研,分析了各国对语言的开发利用能力。调研报告指出,在未来社会,如果一门语言无法在数字化、信息化领域被自由使用,就会迅速降格为一种方言,并最终衰亡(罗马尼亚信息化委员会 2001)。这一判断颠覆了罗马尼亚学界和相关政府部门对语言危机的认识:此前人们只担心英语在日常生活中的广泛使用会对罗语构成威胁,却没有意识到在数字化进程中,特别是在学术、法律、金融等领域,罗语正被日益边缘化(Trandabăţ et al. 2012:2)。在此背景下,罗马尼亚政府开始对语言信息化、数字化问题予以关注。1994年,罗马尼亚科学院“米哈伊·德勒格内斯库”人工智能研究所(RACAI)成立,将自然语言处理、机器学习和知识获取、计算机辅助教学、综合信息管理等列为其重点研究内容。


2000年可被看作罗马尼亚语言智能化元年,相关问题被正式纳入国家信息领域研究和发展规划之中,政府出台了一系列支持语言信息化、数字化建设的举措。例如,教育部启动了“信息社会”(INFOSOC)项目,项目组成员包括来自微软罗马尼亚公司的代表和罗马尼亚科学院的成员。同年,布加勒斯特大学罗马尼亚语教研室在全国率先招收计算语言学硕士。一年后,雅西“亚历山德鲁·约安·库扎”大学计算机系开设了计算语言学硕士专业。这两个研究生培养项目均是在罗马尼亚科学院的倡议下启动的,并得到了教育部的资助。2001年10月,科学院成立了罗马尼亚语信息化委员会,这是该国语言智能化建设的重要标志。创立之初,该委员会的职责较为宽泛,包括为罗语信息化创造必要的社会环境、为高等院校提供接触学科前沿的机会、在虚拟世界为罗语的使用清除障碍等。从国家层面制定语言智能化规划并建立相应机构,既是顺应全球科技发展的需要,也是民间科研“倒逼”的结果。语言智能研究具有明显的跨学科特点,既要有计算机专家开发适用的语言处理工具,又需要一定的语言学知识储备。当时罗马尼亚已有众多计算机爱好者开始研制语言处理标准和工具,并尝试对一些词典进行数字化处理,但其使用的语言资源未经授权,对语言学问题的处理和解释也缺乏专业性。因此,罗马尼亚语信息化委员会也承担着整合跨学科资源,并对相关工作加以引导和规范的职责(罗马尼亚信息化委员会 2001)。2002年,RACAI成为人类语言技术欧洲卓越网络成员,国际合作渠道进一步拓展。


以上内容摘选自《罗马尼亚国家语言能力研究》3.3.1节“国家语言智能化起步的背景”,略有删减。

(董希骁著,点击图片了解图书详情)


►►►

相关阅读


“国家语言能力研究丛书”(总主编:文秋芳)新书出版

六分钟带你了解国家语言能力研究

国家语言能力建设的挑战


点击“阅读原文”,购买系列丛书~

继续滑动看下一个
外研社外语学术科研
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存