查看原文
其他

中心成果 |《中国周边(6国)语言资源库建设》项目成果介绍

高而杰 语言资源高精尖创新中心 2022-06-09

 导 语 


自2016年成立至今,语言资源高精尖创新中心(以下简称“中心”)已经走过近五年的建设发展历程,并将于2021年4月迎来五年建设终期评估。近五年来,中心签约23个在研项目,着力建设“语言资源库”、“语言文化博物馆”“‘语言通’智能服务”三大工程,取得了诸多丰硕成果,具体包括18个语言数据库(集)、11个应用系统。其中,18个语言数据库(集)包括:世界语言基本信息库、一带一路国家语言文化核心资源集、中国周边国家(6国)语言资源集、用于语言识别的世界语言资源集、海外华语资源库、俄汉大规模语汇库与句对库、中阿语言资源集、中俄日韩英对齐4000词汇库、用于句法分析的大规模汉语语料库、汉语国际教育优质学习资源集、全球汉语中介语语料库、面向智能语音教学的汉语中介语语音库、中俄经贸合作信息库与双语合同文本库、冬奥会多语言术语资源库、面向冬奥会的机器翻译资源库、大规模冬奥项目知识图谱资源集、中华经典诗词资源集、汉学研究文献库和人才库等。中心开发的应用系统包括:冬奥术语库系统、冬奥机器翻译系统、智能化冬奥项目问答原型系统、中俄语商通系统、海外华语资源系统、SAIT汉语智能发音教学系统、“文心”智能作文批改系统、全球语言文化资源采录展示系统、《疫情防控外语通》在线查询系统等。本公众号自2020年12月17日起,推出“中心成果”系列文章,陆续介绍中心各项目的资源、系统成果。今日,我们推送《中国周边(6国)语言资源库建设》项目成果。





 项目介绍 


《中国周边(6国)语言资源库建设》项目由语言资源高精尖创新中心特聘研究员、北京语言大学郭风岚教授主持。项目于2017年4月立项,2021年1月开展结项工作。

中国周边国家国情不一,发展不同,文化有别,语言资源丰富且复杂,但目前仍未得到全面系统有效的开发和利用,周边外交在中国外交布局中处于重要位置,汇聚周边国家语言资源无疑属于国家重大需求,无论从政治经济文化还是国家安全角度说都具有重要的战略意义、应用价值和深远的历史意义。《中国周边国家(6国)语言资源数据库建设》项目,旨在:

(1)满足国家战略需求,为国家安全服务,为中国周边外交发展服务;

(2)满足语言学习需求,面向“一带一路”沿线语言交流,提供语言学习基础资源;

(3)满足语言生态保护需求,系统性调查摄录各类语言,濒危语言方面特别关注处于极度濒危状态的语言;

(4)满足语言研究需求,为语言类型、语言关系等语言学理论研究服务。



 资源成果 


(1)规范标准类项目以中国语言资源保护工程开发的规范标准为基础,研制完成了中国周边国家语言资源调查用《中国周边国家(6国)语言资源调查手册》(11个语种)和《中国周边国家语言资源调查技术规范》,两个成果是本项目数据库建设必不可少的规范标准,可直接用于后续周边国家语言资源建设。①《中国周边国家(6国)语言资源调查手册》     根据调查所需,将周边国家语言分为国家通用语、地区通用语和濒危语言三种类型,每一种语言调查都包括词汇、语法、话语、口头文化等内容。根据语言调查特点,本手册包含了6个周边国家11个语种的词汇和语法调查材料,老挝国家通用语老挝语、濒危语言西拉语;越南国家通用语越南语和濒危语言哈尼语;缅甸国家通用语缅甸语和地区通用语景颇语;哈萨克斯坦国家通用语哈萨克语和濒危语言东干语;吉尔吉斯斯坦国家通用语吉尔吉斯语;乌兹别克斯坦国家通用语乌兹别克语和地区通用语卡拉卡尔帕克语。  ②《中国周边国家语言资源调查技术规范》  本规范为摄录语言资源而制订的统一的技术标准,对调查程序、技术路线、设备型号等等都做了详细规定,使得调查记录、摄录的语料技术路线完全一致。(2)资源类①中国周边国家6国语言资源数据库该数据库按照统一的规范,完成了周边6个国家11个语种的语言资源采录工作,采录内容如下表:②中国周边国家(6国)语言文化多媒体数据库 按照统一设计,以拍照、摄录方式获取目标国语言文化图像和视频。语言文化图片分房屋建筑、日常用具、服饰、饮食、日常活动、婚育丧葬、节日、说唱表演等10类。③中国周边国家(6国)语言文化文献数据库按照统一设计,建立语言文化研究成果和语言政策文献信息库,语言文化研究成果分为辞书、专著、论文和语言文化资料。除编目外,尽可能搜集实物、原件。项目资源样例展示视频

(3)专著《老挝语言状况》(待出版)

《老挝语言状况》一书首次对老挝国家语言文化状况展开调查研究,不仅可以认识周边国家语言特征、语言文化特征等等,而且对中老教育、外交发展发挥了桥梁纽带作用,受到老挝方高度重视。



 项目意义 


项目的成功实施,具有示范、助力、引领意义,在多个方面填补了空白。
第一,本项目为世界首次建立多模态多功能中国周边国家语言资源库,我国尚未进行过如此大规模的周边国家语言文化调查并建立相关数据库,本项目的实施具有创新引领和填补空白的意义。第二,“一带一路”沿线很多国家并没有自己的语言资源库,例如:老挝、乌兹别克斯坦,本项目是新中国成立以来两国携手首次完成的成果,填补了中老、中乌文化交流方面的空白。本项目语言资源调查均为第一手材料,这些成果将有效助力“一带一路”建设和中国周边外交,在促进中国与周边国家文化、教育等多方面的友好交流和合作方面将发挥重要作用,进一步实践了习近平总书记提出的周边外交“亲诚惠容”思想,为推动“一带一路”语言文化命运共同体和责任共同体建立做出了独特的贡献。    第三,本项目创新“语保+”标准,在语言调查材料设计、语言调查技术规范设计等方面,推动中国学术标准国际化,提升文化自信力,助力中华学术“走出去”。第四,本项目选择的部分语种,如老挝的西拉语、哈萨克斯坦的东干语、乌兹别克斯坦的卡拉卡尔帕克语等为首次系统性进行调查记录,具有开创性意义。第五,本项目数据库建设达到一流水平,语料标注方面多所创新性探索,为部分语言资源建设提供了可行性新标准。例如:张定京教授在哈萨克语、吉尔吉斯语和乌兹别克语语言资源汇聚中,提出在实体语法理论的框架内确定语素(词素、法素)、语位(词位、法位)二级语位(语法单位),以5行语位标注法修正了语料的“莱比锡语素标注法”的缺陷,用此法转写标注语料,一是可做到整体意义等于各语位意义简单相加(解决了原切分出的语素相加有时得不出整体意义的问题),二是可以直观地展示一种语言语音中的语流音变现象。在语法观和标注法方面达到领先水平,对各种语言语料标注具有普遍指导意义。




延伸阅读

中心成果 |《面向北京冬奥会的机器翻译》项目资源和系统成果介绍中心成果 |《汉语中介语语料库建设创新工程》项目成果介绍中心成果 |《基于知识图谱的北京冬奥智能问答系统》项目成果介绍
中心成果 |《新选中国名诗1000首:当代诗学名家经典选释系列》项目成果介绍中心成果 | 《中文句法语义分析及其应用》项目成果介绍
中心成果 |《海外华语资源库建设》项目成果介绍中心成果 |《中俄经贸合作数据库及俄汉语智能化综合服务平台》项目成果介绍


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存