查看原文
其他

李宇明:中国语言资源的理念与实践 (二) | 《汉语国际教育研究论集·数据资源卷》面世

李宇明 商务印书馆汉语中心 2022-07-15
点击上方蓝字可以订阅哦!



“汉语国际教育研究论集”是北京语言大学汉语国际教育研究院策划、商务印书馆出版的一套丛书,丛书分为教学卷、数据资源卷、语法卷、词语与文字卷、汉语国际传播研究卷。北京语言大学的学者在前人研究的基础上力求突破,使之成为汉语国际教育研究方面的集大成之作,其研究成果反映了当前国内汉语国际教育研究所达到的水平。这套丛书对于作者们来说是汗水的结晶、经验的总结,对于新一辈的汉语国际教育研究人员来说又何尝不是一场新鲜可口、令人向往的精神盛宴呢?

在此向读者推介《汉语国际教育研究论集·数据资源卷》。本书由北京语言大学汉语国际教育研究院教授郑艳群主编,将近年来反映汉语国际教育的部分代表性研究成果以及对未来发展有启示作用的论文结集成书,为该领域的专家学者提供教学参考。

书中收录了北京语言大学教授李宇明的《中国语言资源的理念与实践》。该论文论述了语言资源的认识史、中国有关语言资源的实践和研究,分析了语言保护、语言信息处理和语言学习等语言资源的三大功能域,还提出了“语言知识观”。

我们将此文分为三期刊发。今刊第二期,呈献给读者。

【往期可戳→李宇明:中国语言资源的理念与实践  (一) | 《汉语国际教育研究论集·数据资源卷》面世

汉语课堂语法教学容易出现的失误有哪些?(一) | 《汉语国际教育研究论集·教学卷》面世

汉语课堂语法教学容易出现的失误有哪些?(二)


北京语言大学教授李宇明



中国语言资源的理念与实践*


文丨李宇明

二、中国有关语言资源的实践活动

中国的语言资源理念及其学术发展,是由语言规划的实践带动的。了解21世纪中国有关语言资源的实践活动,可以从一个侧面更好地了解中国的语言规划,也可以更好地了解中国的语言资源研究。


2.1 国家语言资源监测与研究中心

国家语言资源监测与研究中心的工作,是通过它的分中心完成的。各分中心依照共同的理念和技术规范,采录、经营着“平面媒体有声媒体网络媒体民族语言教育教材海外华语”的语料库。采录、维护这些语料库就是对语言资源的保存。中心还通过语料库发现语言使用特点、新的语言现象和一些重要的“实态”统计数据,比如每年的汉字使用频率、词汇使用频率、新词语、流行语、网络语言状况等,许多数据常通过教育部新闻发布会和“汉语盘点”活动向社会发布,并成为每年的《中国语言生活状况报告》(绿皮书)的重要篇章。这些数据对于《通用规范汉字表》的研制、中小学语文课标和汉语国际教育有关标准的制定、语文教材的编写等,都发挥了一定作用

① 详情可见2005年以来的《中国语言生活状况报告》和张普、王铁琨主编(2009)。


“汉语盘点2020”揭晓仪式在北京举行


《中国语言生活状况报告(2021)》(绿皮书)

2007年9月,语信司与北京语言大学共同主办了“国家语言资源与应用语言学”的高峰论坛,这也是国家语言资源监测与研究中心的几个分中心共同邀请国内外学者参加的学术会议。这是国内首次召开的语言资源的大型学术会议,讨论议题除“国家语言资源建设、监测与研究”之外,还有国家语言资源与语言服务、语言规划、语言文字规范、语言文字社会应用、母语教学、国际汉语传播、民族地区汉语教学、语言信息处理的关系,研究范围比较广泛。会议收到论文50篇,择28篇结集为《中国语言资源论丛》,由商务印书馆出版。这也是中国第一部讨论语言资源问题的论文集,至今仍发挥着学术影响。

《中国语言资源论丛(一)》


2.2 中国语言资源有声数据库

2006年前后,不少学者认为,要保护国家语言资源,就需要了解语言资源的国情,语言普查是了解语言资源国情的最好举措。1956年,根据国务院指示进行了汉语和少数民族语言调查。1999年,教育部等11部委联合开展了中国语言文字使用情况调查。这两次调查对于了解语言国情起了较大作用,但都没有达到“语言普查”的水平,特别是没有采录语料,不能了解语言及方言的话语情况。这一时期,还有学者专门了解国际上某些国家语言普查的情况,着手设计我国语言普查的方案

② 参见李宇明(2008a)。

后与有关部门协商,被告知在全国进行语言普查的时机尚不成熟,于是国家语委另辟蹊径,组织课题组研究“中国语言资源有声数据库”的建设问题。名为“有声数据库”,就是要强调口语与音频,强调数据库技术;嵌入“语言资源”四字,是要彰显、传播语言资源理念;将语言普查的一些内容体现在调查项目中。

参加研究的专家主要有曹志耘、戴庆厦、郭龙生、何瑞、黄行、李如龙、刘丹青、潘悟云、乔全生、魏晖、谢俊英、徐大明、张振兴等。中国语言资源有声数据库建设领导小组办公室,根据这些研究成果编写了《中国语言资源有声数据库调查手册》的汉语方言部分,曹志耘执笔,顾黔、侯精一、刘俐李、孙茂松、汪平、杨尔弘、赵晓群等也参与了讨论。这些研究成果反映在手册中,也反映在李宇明的《论中国语言资源有声数据库的建设》(2010)论文中。

根据《中国语言资源有声数据库调查手册》规定的管理规范和技术要求,2008年国家语委正式启动中国语言资源有声数据库建设先试点,后铺开,江苏承担了有声数据库建设的试点工作,历时年余。2009年江苏正式启动有声数据库建设,之后上海、北京、辽宁、广西、山东、河北、福建、湖北等地,也陆续开展调研、建库工作。中国语言资源有声数据库建设,在学界和社会上普及了语言资源理念,培养了一支骨干队伍,形成了一套管理规程和技术标准,积累了一批语言资源数据。


2.3 中国语言资源保护工程

③ 感谢王莉宁教授提供了一些关于语保工程的数据。

在中国语言资源有声数据库建设的基础上,2015年,教育部、国家语委印发了《关于启动中国语言资源保护工程的通知》,开启了中国乃至世界最宏大的语言保护工程(以下简称“语保工程”)。到2018年底,语保工程在全国34个省域全面展开,参与高校和科研院所超过350所,参与专业人员达4500余名,进行了1495个调查点的调查,所获数据包括所有汉语方言和120多个语种。

语保工程在《中国语言资源有声数据库调查手册》汉语方言部分的基础上,制定了《中国语言资源调查手册·汉语方言》,同时又制定了《中国语言资源调查手册·民族语言》(按语族分册,共计8册)、《中国方言文化典藏调查手册》等,设计了“语保摄录机”“语保标注软件”等语言调查加工软件,陆续推出“中国语言文化典藏”(20册)、“中国濒危语言志”(30册)等标志性成果。


中国语言资源有声数据库调查手册·汉语方言


《中国语言文化典藏》

《中国濒危语言志》

2018年9月,中国政府与联合国教科文组织在长沙联合召开首届“世界语言资源保护大会”。会上,联合国教科文组织及各国政府、相关学术机构代表和与会专家学者讨论并通过了《保护和促进世界语言多样性岳麓宣言(草案)》。会后,联合国教科文组织按照程序广泛征求意见并形成宣言的最终文本,于2019年1月18日通过其官网正式公布。2019年2月21日,中国教育部、联合国教科文组织驻华代表处、中国联合国教科文组织全国委员会、中国国家语委在中国共同举行发布会,正式发布《岳麓宣言》。首届“世界语言资源保护大会”能够在长沙召开,是因为中国语保工作得到了国际社会的认可;《岳麓宣言》能够制定,是得到了中国语言资源有声数据库和中国语保工程的理念及经验的支撑

④ 2014年6月,中国政府与联合国教科文组织在苏州共同举办“世界语言大会”,来自100多个国家和地区的官员、学者,就语言能力与社会可持续发展、语言能力与教育创新、语言能力与国际交流合作等议题进行讨论,达成了《苏州共识》。《苏州共识》融入了中国语言规划界数年来关于语言能力的研究成果和实践经验。如果说《苏州共识》是中国语言规划成果首次促成的国际共识的话,那么《岳麓宣言》就是中国语言规划成果第二次促成的国际共识。


2.4 中文语言资源联盟

⑤ 感谢孙乐、杨尔弘、饶高琦三位提供相关信息。

大规模的语言资源是计算机进行语言信息处理的基础。根据徐波、孙茂松、靳光瑾(2003:218—224)的介绍,2003年,在“973计划”的特别专项“中文语料库建设”支持下,中国科学院自动化所、清华大学、北京大学、中国科学院计算所、山西大学、上海交通大学、教育部语言文字应用研究所等单位,共同承担了“中文语言资源联盟”(Chinese Linguistic Data Consortium,缩写为 CLDC)的首批资源建设。之后,中国中文信息学会专门成立“语言资源建设和管理工作委员会”,负责CLDC的资源建设及数据库的运行。

中文语言资源联盟的建立,是借鉴美国“语言资源联盟”(Linguistic Data Consortium,缩写为 LDC)的经验,目的是共建共享中文资源、促进语言信息处理的技术进步。提供资源者计有36家。中文语言资源联盟的成立与发展,是面向语言信息处理的语言资源汇聚实践,是语言资源共建共享模式在中国的实践,反映着语言信息化的科学需求。

⑥  LDC由Advanced Research Projects Agency 和美国国家自然科学基金资助,由宾夕法尼亚大学主持,目的是建造、收集和分发语言资源,用于语言信息处理领域的研究、教学和开发。据徐波、孙茂松、靳光瑾(2003:218)介绍,在2003年,LDC就有共计100多个大学、公司政府部门加盟,拥有英文、德文、法文、西班牙文、中文、日文、阿拉伯文等多种语言的220种资源,并向700多个单位提供了资源。LDC在语言资源大规模建设和广泛分享等方面提供了全新的机制,促进了相关领域的研究和开发水平的提高。


2.5 语言资源高精尖创新中心

2015年10月,“北京高等学校高精尖创新中心建设计划”正式启动。2016年5月,北京语言大学语言资源高精尖创新中心成立。这是中国第一家以世界语言资源的收集整理、开发利用为目的的研究机构,其主要学术目标是:让全世界的语言(7000 余种)都在中国有一份保有本,帮助机器理解人类语言。

语言资源高精尖创新中心重点收集A、B两类语言资源:

A类是面向语言库藏和展示的语言资源,主要是自然语言资源;

B类是面向语言智能的语言资源,包括各种生语料、经过加工标注的熟语料、语言知识、社会常识等。

就A类语言资源来说,目前语言资源高精尖创新中心正在实施“第三圈”战略,即在中国语言资源有声数据库和语保工程的基础上,在中国基本完成了方言圈(第一圈)、民族语言圈(第二圈)语料采集的情况下,集中精力采集中国跨境语言和边境语言(第三圈)语料,并期望在不久的将来,完成“一带一路”60余国的200余种主要语言的采集。

除了以上介绍的5项重大语言资源实践活动之外,中国还有许多语言资源库的建设项目。例如,20世纪末侯精一先生主持的《现代汉语方言音库》,收录了40种现代汉语方言音档,由上海教育出版社于1995—1999年出版。钱乃荣(1995)评价说:

现代汉语方言音库的建立结束了我国汉语方言的出版物仅停留于书面描写各地方言现象的历史。

再如内蒙古也建有蒙古语和鄂温克语、鄂伦春语、达斡尔语的语言资源库。例子难以一一枚举,可以说时至今日,中国已经成为世界上推进语言资源建设的最重要的国度。

⑦ 这40种方言都是具有代表性的:北京、天津、济南、青岛、南京、合肥、郑州、武汉、成都、贵阳、昆明、哈尔滨、西安、银川、兰州、西宁、乌鲁木齐、太原、平遥、呼和浩特、上海、苏州、杭州、温州、歙县、屯溪、长沙、湘潭、南昌、厦门、福州、建瓯、汕头、海口、台北、广州、南宁、香港、梅县、桃园。每种音档含100多页小32开的文本及约60分钟的配套胶带录音。

*   原文发表于《语言战略研究》2019年第3期。



图书信息

《汉语国际教育研究论集·数据资源卷》

郑艳群    主编

识别二维码,即可购买


本书以面向汉语国际教育教学和研究的数据资源问题为主要内容,将近年来反映汉语国际教育的部分代表性研究成果以及对未来发展有启示作用的论文结集成书。收录的论文包括:(一)数据资源对学科发展的意义和作用;(二)数据资源的类型及建设和加工;(三)数据资源的管理和应用;(四)基于数字资源平台的教学创新。数据资源正在成为汉语国际教育发展的动力和保障。本书可以为汉语国际教育领域、外语教学领域专家学者提供参考,供汉语国际教育、语言学及应用语言学、课程与教学论专业研究生使用。



本书主编

郑艳群,北京语言大学汉语国际教育研究院教授。研究方向为汉语国际教育、第二语言教育技术、语言信息处理。著有《计算机技术与世界汉语教学》《虚拟词语空间理论与汉语知识表达研究》《多媒体和语料库驱动的汉语教学研究》等,主编《多媒体汉字字典》(光盘)等。曾应邀赴美国、澳大利亚、新西兰、爱尔兰等地讲学及合作研究。


目    录

<上下滑动查看目录>


<上下滑动查看目录>




往期回顾


李宇明:中国语言资源的理念与实践  (一) | 《汉语国际教育研究论集·数据资源卷》面世

汉语课堂语法教学容易出现的失误有哪些?(一) | 《汉语国际教育研究论集·教学卷》面世

汉语课堂语法教学容易出现的失误有哪些?(二) | 《汉语国际教育研究论集·教学卷》面世

透过文明的过往历史,看到怎样的今日世界?《文明的逻辑——中西文明的博弈与未来》给您带来新的启发和洞见!

新书速递丨《语言学新视野》面世

商务印书馆语言学出版基金2021年度评审工作启动

《冬奥会体育项目名词》发布暨冬奥术语平台V3版交付仪式在京举行

为国际中文教育专业研究生打造的专著型教材——《汉语教学理论探索》

国际中文教育学科建设高端论坛(2021)在京举行


点击“阅读原文”,进入购买链接

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存