李宇明:中国语言资源的理念与实践 (三) | 《汉语国际教育研究论集·数据资源卷》面世
“汉语国际教育研究论集”是北京语言大学汉语国际教育研究院策划、商务印书馆出版的一套丛书,丛书分为教学卷、数据资源卷、语法卷、词语与文字卷、汉语国际传播研究卷。北京语言大学的学者在前人研究的基础上力求突破,使之成为汉语国际教育研究方面的集大成之作,其研究成果反映了当前国内汉语国际教育研究所达到的水平。这套丛书对于作者们来说是汗水的结晶、经验的总结,对于新一辈的汉语国际教育研究人员来说又何尝不是一场新鲜可口、令人向往的精神盛宴呢?
在此向读者推介《汉语国际教育研究论集·数据资源卷》。本书由北京语言大学汉语国际教育研究院教授郑艳群主编,将近年来反映汉语国际教育的部分代表性研究成果以及对未来发展有启示作用的论文结集成书,为该领域的专家学者提供教学参考。
书中收录了北京语言大学教授李宇明的《中国语言资源的理念与实践》。该论文论述了语言资源的认识史、中国有关语言资源的实践和研究,分析了语言保护、语言信息处理和语言学习等语言资源的三大功能域,还提出了“语言知识观”。
我们将此文分为三期刊发。今刊第三期,献予读者。
【往期可戳→李宇明:中国语言资源的理念与实践 (二)
李宇明:中国语言资源的理念与实践 (一) | 《汉语国际教育研究论集·数据资源卷》面世
汉语课堂语法教学容易出现的失误有哪些?(一) | 《汉语国际教育研究论集·教学卷》面世
汉语课堂语法教学容易出现的失误有哪些?(二) | 《汉语国际教育研究论集·教学卷》面世】
北京语言大学教授李宇明
中国语言资源的理念与实践*
文丨李宇明
三、中国有关语言资源的学术研究
关于语言资源的学术研究,前面已有多处涉及。下面就几个问题做些专门讨论。
3.1 语言规划实践与语言资源研究
知网是一个很好的科技文献数据库,利用知网做文献分析是当前可选的一条路径,尽管知网的文献检索也可能有缺陷,比如有些文献未必被收录,有些文献因关键词标注也未必适合检索。在知网中用“语言资源”作为主题和关键词精确匹配检索,截至2019年3月31日,检索到文献403篇①,涉及作者370余人。从图1看,1981年最早有文献出现,到2003年论文年发表量还在5篇以下,22年来总共发表论文只有17篇,这是学人较少涉足之地。2004年出现一个研究的小高峰,年发表论文达到7篇。2007年研究热度明显升高,年发表论文达到16篇;这一趋势持续到2011年,年发表论文达到26篇;2007—2011年形成第二个高峰区;2015—2017年出现第三个高峰区,峰巅在2016年,年发表论文达到55篇。
① 本检索是梁京涛在知网上操作的,梁京涛还帮助做了数据分析,并为本文提供了一些文献支持。主题与关键词双匹配检索,比只用关键词检索要严格一些,所得文章数量与同类报告的数据比,可能偏精偏少。本查询一开始检索到文献405篇,但在点击生成检索报告时,总文献数减为403篇,原因不详。也许是排除了某两篇文章重复计数的情况。
这种情况表明:第一,在20世纪,“语言资源”领域几乎还是一片处女地,它是21世纪才开始开发的学术领域。第二,语言资源研究与语言规划实践密切相关。2004年的小高峰,对应于国家语言资源监测与研究中心成立;2007年到2011年,正是“中国语言资源有声数据库”从酝酿到正式建设的时期;2015年到2017年,是语保工程开始建设的时期,也是语言资源高精尖创新中心的创立时期。研究高峰与实践活动的关节点大致对应,是因为实践活动开始前总要做些研究,开始后又能带动研究。在中国,的确是语言规划的实践在推动语言资源的研究,为研究提供需求、材料和用场;语言资源研究也为实践提供了学术支撑;学术与实践相互推动,是因为在政界、社会、学界之间建造有一个现代化的“智力旋转门”。可以预测,2019年也会是语言资源研究的大年,因为2018年在长沙召开了首届“世界语言资源保护大会”,2019年春季正式发布了《岳麓宣言》。
3.2 语言的资源性质与语言资源类型
我国早期的语言资源研究,主要是论证语言是否具有资源的性质,确立语言资源的合理性。张普《论国家语言资源》(2007)用较大的篇幅论证语言是资源。先从资源说到资源科学,再谈自然资源和社会资源,绕这么大的弯子就是为了说明语言也是资源,是社会资源。可见当时要说“语言是资源”这么个道理还是多么困难。陈章太(2008)《论语言资源》也用了不少笔墨,来说明“语言是一种特殊的社会资源”。
在论证语言具有资源的性质之后,研究者的精力便集中在列举语言资源、为语言资源分类上。陈章太(2008)从广狭两个方面来看待语言资源:狭义的语言资源是指“语言信息处理用的各种语料库和语言数据库,以及各种语言词典等”;广义的语言资源是指“语言本体及其社会、文化等价值”。而他要讨论的是广义的语言资源,这可能说明两个问题:第一,“语言资源”这一概念在当时语言信息处理学界有较多使用;第二,把语言资源推及语言本体,还具有较大新意。
张普(2007:204)把语言资源分为三类②:语言资源类、言语资源类、语言学习资源类。把语言学习资源划出一类,是考虑到了语言资源的用途。从学界开始关注语言资源,如邱质朴(1981),就比较关注语言资源在教学中的应用。张普先生又是数字化教学的研究者、提倡者,语言学习资源更易进入他的研究视野。但是他把语言资源分为“语言资源类、言语资源类”表面上符合“语言、言语”的“抽象—具体”这一学界思维习惯,特别是慧眼独到地强调了语言运用所产生的语言资源,但实际上就语言数据库建设来说,不可能拿“语言”来建库,文字的或音频的材料都只能是具体的“言语”。
② 张普说“语言资源可以分成如下四类”,而下文只有三类。“四类”可能是笔误。
王世凯的《语言资源与语言研究》(2009)是中国第一部论述语言资源的专著,在提出建立“语言资源学”的同时,在着力探讨语言资源的多种性质的同时,还把语言资源看作由底层资源(语音资源、词汇资源、语法资源、语义资源、文字资源)和高层资源(修辞、语体、风格)构成的体系。这基本上是根据语言的结构要素来划分语言资源,同时考虑到文字和修辞、语体、风格等。
魏晖(2015)认为语言资源包括四大类:(1)语言本体(知识)资源,由语音、词汇、语法和语义等构成;(2)语言应用资源,包括各种通用的、专用的、静态的、动态的、多语的、平行的语料库,还包括与语料的加工处理相关的知识库、数据库、规范标准(库)等;(3)语言学习资源;(4)人力资源,即掌握不同语种(包括外语)的人才。魏晖(2016)重申这一观点,并再次强调“人力资源是最核心的语言资源,也是最具能动性的语言资源”。
很显然,在语言资源的认定和分类方面,学界意见至今并不一致,甚至还没有建立语言资源的认定标准,也没有找到一个较为合适的分类体系。本文认为,语言资源基本属性是其“有用性”,语言及其相关的事物有哪些作用,亦即哪些东西可以成为语言资源,还是一个需要探索的问题,特别是语言智能的发展一日千里,很多我们意识不到的东西都可能进入语言资源的行列。综合时贤的研究,就当前的认识水平看,语言资源可以包括3类③:
(1)口头语言资源;
(2)书面语言资源;
(3)语言衍生资源,包括语言知识、语言技术、语言艺术、语言人才等。
③ 李宇明(2009)曾经把语言资源分为3类:第一类是自然语言及其文字,包括汉语、汉字及汉语方言,各少数民族语言文字及其方言,外国语言文字等;第二类是自然语言的衍生品,如辞书、各种检字法、利用语言文字进行的信息检索法、语言文字教科书、语言文字的各种规范标准、语料库、语言知识库、计算机字库、各种键盘输入法、处理语言文字(包括语言翻译)的各种软件技术等;第三类是语言能力,包括母语能力和外族语能力。语言能力优秀者便是各种语言人才。本文是对2009年划分的“三类”的优化,即把2009年的第一类语言资源分为两类,把其后两类整合为“语言衍生资源”,“语言能力”可在第三类中单列,或可与“语言人才”归为一个次类。
自然语言的存在形态主要是口语和书面语,它们是最为基本的语言资源。就资源的收集、整理、建库、保护而言,不存在语言和言语的对立,接触到的都是言语类的语言资源。“言语”是现实存在,“语言”存在于语言学中,存在于语言学家的大脑里和学术抽绎的操作中。就此而言,没有必要区分“语言资源”和“言语资源”,或者说,只有“言语资源”没有“语言资源”。
“口头语言资源”和“书面语言资源”是对自然语言资源的再分类。在许多文献中语言资源也就只指这两类资源。其实“语言衍生资源”也非常重要:
其一,语言知识、语言技术、语言人才等,在语言资源的收集整理、标注入库、分析研究、开发应用等各个环节都在发挥作用;
其二,语言艺术(包括书法、文学,还有主要凭借语言的艺术,如话剧、相声、小品、笑话)本身就是很有价值的语言资源。
故而,语言资源应当包括语言衍生资源。
3.3 语言资源的功能视角
语言资源的社会意义在于功能。看待语言资源必须建立“功能视角”,应从功能的角度去认识语言资源,去评价语言资源的建设工作,去开发利用语言资源。语言资源的功能是随着社会的进步而逐渐被开发、被认识的。在我们的文化传统中,文字和书面语比口语更受重视。但在近来以语言保护为首要任务的语言资源研究与实践中,口语的语言资源意义得到了较多关注,而书面语的语言资源意义则反而关注较少,研究较少,至于语言知识、语言技术、语言艺术、语言人才等衍生性的语言资源,虽不同程度地被涉及,但尚缺乏认真梳理。
就当前语言资源利用的实践来看,语言资源的功能域主要有3个方面:语言保护、语言信息处理和语言学习。
3.3.1 语言保护
语言保护是当今全球的热点话题,据专家预测,21世纪末90%的语言将濒危甚至消亡。若从交际的角度看,这些语言的濒危或消亡也许并不是严重问题;但是若从文化的角度看,语言的濒危或消亡却是文化的灾难,因为每种语言都记载着某民族(部族)的历史、经验及世界观,而这些精神财富绝大多数还没有被现代人类社会所了解,没有成为现代人类知识的一部分。语言保护就是与时间赛跑,抢救失而不可复得的人类精神资财。中国的百余种语言以及大量的汉语方言,也有许多处在濒危状态或是出现濒危态势,语言保护的任务也是急迫而沉重的。
语言保护有3个层次:第一个层次是“语言保存”。即通过书面记录方式和录音录像方式,将语言(包括方言)记录下来,并建立起数据库、博物馆,把这些“语言标本”保存下来。当前学者进行的多是语言保存层面的工作。语言保存所涉及的语言资源,主要是口语资源,特别是濒危语言的口语资源。其实古代书面文献、民间语言艺术等,也具有重要的语言保存价值。进一步研究会发现,作为“语言样本”的语言资源可以再分为两种,一种是“展示本”,一种是“全息本”。展示本主要用于语言展示、语言教学、基本研究等,要求语言资源能够反映出某语言的基本特征,比如基本的结构特征、交际运用特征和文化特征。全息本要求尽可能多地保存某语言的语言信息和文化信息,一旦有需要,可以在虚拟技术的帮助下利用这些信息“复活”该语言。这是语言保护最为浪漫的理想。
第二个层次是“语言活态保护”。即通过各种措施来延长语言的生命,维护语言的活力。由于语言活态保护必然会对语言使用者的生存、生活方式及生活环境进行不同程度的干预,伦理学上的要求很高,工作的难度很大。国内外在语言活态保护方面都做了一些探索,积累了一些经验,比如北美地区对印第安语的活态保护,大洋洲对毛利语的活态保护,中国对裕固语、贵州苗语的活态保护等。但总体上看成效并不明显,前景并不清晰。
第三个层次是“语言资源的开发利用”。即对语言保存、语言活态保护的成果进一步开发,获取语言保护的社会“红利”。“红利”意识十分重要,它可激发语言保护的动力,及时发挥语言保护的效力,不断增加语言保护的实力,保证语言保护事业可持续发展。需要注意的是,语言保护“红利”的获取者,首先应考虑语言资源的提供者,包括发音合作人及其所属社团。
3.3.2 语言信息处理
语言信息处理是当前语言资源的最大用户,也是当下语言资源理念的积极提倡者和语言资源的积极建设者。在中国,中文语言资源联盟的建立便是上述认识的最佳“背书”。语言信息处理绝不只是科学技术之事,而是推进社会进步的重要力量;正是它的发展进步,使当今社会正在向“智能时代”迈进。人工智能是智能时代最主要的技术力量,其核心是语言智能。机器获取语言智能主要靠语言大数据的训练。语言大数据也就是语言资源,从语言智能的视角看,语言资源是生产资料的范畴,对人类的意义就更加不一般了。
语言保护所涉及的语言资源,主要保存的是以往的人类世界,是人类的历史,是人类已有的经验及世界观;而语言信息处理所涉及的语言资源,是用于创造新的知识、发现新的世界的。语言保护是面向过去的,语言信息处理是面向未来的,但是认识既有世界对发现新世界会有帮助。
用于语言信息处理的语言资源,还可以进一步划分为两种:一种是帮助解决“语言通”的,一种是帮助解决“信息通”的。语言通是让机器能够理解和使用语言,包括机器翻译、机器写作等。信息通是让机器对各领域信息能够加工处理,包括“社会计算”、科技文献的二次加工等。当然,语言通也需要机器有一定的专业知识和社会常识,亦即需要信息通的支持,信息通更需要在语言通的基础上来进行。用于语言通的语言资源和用于信息通的语言资源是有不同要求的,因此可以把用于语言信息处理的语言资源再行划分。
3.3.3 语言学习
语言学习是人类最为重要的语言生活之一。随着社会的发展,语言学习的任务越来越重,不仅要学习母语(特别是书面语),还要学习外语,甚至是多门外语。即使语言智能发展到相当的高度,机器翻译可以满足基本的翻译需求,外语学习仍然是需要的,因为它是人类全面发展的素养。
语言学习必须依靠语言资源才能进行,语言学习资源是语言资源研究者较早进入的学术领域。传统的语言学习资源有教科书、工具书、课外读物、语言教师、必要的语言环境等。而今进入信息化的时代,智能学习、智慧学习、慕课、微课等新概念炫人耳目,构建适合于“互联网+”的语言学习资源,成为教育改革的时代命题。语言知识、语言技术、语言人才、语言课程、语言学习环境等,是新时代语言学习资源中的重要组块。这方面的实践已经很多,但是真正的研究和应用还是比较有限的。
3.4 语言知识观
语言资源的功能还有很多,但是有此三者,已经足以说明语言资源的重大价值,足以说明语言资源建设的意义及其急迫性,足以说明语言资源研究及建立语言资源学的意义。
自从索绪尔建立了现代语言学之后,“语言是一个符号系统”便成为公理性的学术常识。但是,从语言资源的视角,特别是语言资源功能的视角看“语言”,语言就不只是一个“符号系统”,而更是一个“知识系统”。比如语言保护,不应只是记录、保护语言符号,而是记录、保护人类的语言知识体系及文化体系。语言学家传统的语言调查,目的主要是揭示语言的符号系统,而在揭示语言的知识系统、文化体系方面明显不足。从“语言知识观”的立场出发,词汇、语法、语用、篇章最为重要,人类的知识和思维运作主要贮存、表现在词汇、语法、语用和篇章之中。由此来看,语言保护工作必须在语言调查方法、语言调查内容等方面进行大幅度改进。
如果从语言信息处理的角度看语言,计算机理解人类语言,只理解语言的符号系统是完全不够的;计算机从语言大数据中学到的也不应该仅仅是语言的符号体系,而是语言的知识体系,甚至也包括文化体系。这也许就是计算机只学习语言学家给它的“规则”并不能够实现语言通的原因。语言信息处理也可以通俗地表述为“机器语言学习”,人类语言学习也是如此,现在人们强调外语学习要从“学外语”变成“用外语学”,也包含着这个道理。
四、结 语
语言的社会资源性质,是人类从20世纪70年代才开始逐渐认识到的,澳大利亚在20世纪80年代率先把语言资源意识落实到国家语言规划中。中国的语言信息处理学界2003年开始筹建“中文语言资源联盟”,是语言资源建设最早的行动者。2004年国家语委成立“国家语言资源监测与研究中心”,语言资源理念开始进入国家的语言规划。之后,随着“中国语言资源有声数据库”和“中国语言资源保护工程”的相继开展,中国成为世界上在国家层面大力提倡语言资源理念、开展语言保护的最为突出的国家。2018年,中国与联合国教科文组织在长沙共同召开首届“世界语言资源保护大会”,并形成《岳麓宣言(草案)》,中国的语言规划又一次为国际社会提供了公共产品。
中国语言资源研究是在语言规划的实践推动下展开的,并与语言规划的实践形成了良性互动。1981年到2003年可以看作语言资源的学术酝酿期,2004年、2007—2011年、2015—2017年出现3次学术高峰或高峰区,语言资源已经发展为重要的具有魅力的学术领域,语言资源学的学科建设提上日程。
早期的研究主要确定语言的资源属性,之后较多地研究语言资源的类型。语言资源有哪些类型,学界认识还很不一致,本文尝试把语言资源分为口头语言资源、书面语言资源和语言衍生资源(语言知识、语言技术、语言艺术、语言人才等)三类,并认为要较好地解决语言资源分类问题,必须建立语言资源的功能观。当前语言资源最为重要的功能域是语言保护、语言信息处理和语言学习,应当根据这些功能来考虑语言资源的分类、建设规格和评价标准。
从语言资源的角度,特别是语言资源功能的角度来看语言,语言就不仅仅是一个符号系统,它更是一个“知识库”,里面贮存着人类的语言知识体系及文化体系。只有树立了“语言知识观”,语言资源建设才能满足语言保护和机器语言学习、人类语言学习的需要。
最后需要指出的是,语言资源的保护与集聚需要人类社会的合作,包括不同地区、不同国家、不同国际组织的合作,不同社会部门和不同学科的合作。为了保证这种合作的顺利开展,需要制定一系列国际标准,包括技术标准、工作标准和社会伦理标准。语言资源关涉人类的知识库存、精神家园和生产资料的集聚管理,必须加强学术研究,加大加快社会行动。
参考文献从略,如有需要请参照原论文。
* 原文发表于《语言战略研究》2019年第3期。
图书信息
《汉语国际教育研究论集·数据资源卷》
郑艳群 主编
识别二维码,即可购买
本书以面向汉语国际教育教学和研究的数据资源问题为主要内容,将近年来反映汉语国际教育的部分代表性研究成果以及对未来发展有启示作用的论文结集成书。收录的论文包括:(一)数据资源对学科发展的意义和作用;(二)数据资源的类型及建设和加工;(三)数据资源的管理和应用;(四)基于数字资源平台的教学创新。数据资源正在成为汉语国际教育发展的动力和保障。本书可以为汉语国际教育领域、外语教学领域专家学者提供参考,供汉语国际教育、语言学及应用语言学、课程与教学论专业研究生使用。
本书主编
郑艳群,北京语言大学汉语国际教育研究院教授。研究方向为汉语国际教育、第二语言教育技术、语言信息处理。著有《计算机技术与世界汉语教学》《虚拟词语空间理论与汉语知识表达研究》《多媒体和语料库驱动的汉语教学研究》等,主编《多媒体汉字字典》(光盘)等。曾应邀赴美国、澳大利亚、新西兰、爱尔兰等地讲学及合作研究。
目 录
<上下滑动查看目录>
<上下滑动查看目录>
往期回顾
李宇明:中国语言资源的理念与实践 (一) | 《汉语国际教育研究论集·数据资源卷》面世
李宇明:中国语言资源的理念与实践 (二) | 《汉语国际教育研究论集·数据资源卷》面世
汉语课堂语法教学容易出现的失误有哪些?(一) | 《汉语国际教育研究论集·教学卷》面世
点击“阅读原文”,进入购买链接