查看原文
其他

世界最大语言资源库是如何建成的?


点击上方蓝字可以订阅哦!


4月19日,中国语言资源保护工程建设推进会在北京召开。当前,语保工程一期建设已完成预期目标,并建成了世界上最大规模的语言资源库和展示平台。8月1日,《文汇报》第7版专版介绍《世界最大语言资源库是如何建成的?》,今天与大家分享这篇文章。本文转载自“语宝”公众号。

《世界最大语言资源库是如何建成的?》

中国是当今世界上语言资源最丰富的国家之一,“五里不同音,十里不同调”“殊俗问津言语异”说的正是我国语言方言的丰富多样。

打开“中国语言资源采录展示平台”,首页上是一幅中国地图,一个个红色、蓝色的圆形标记点密密麻麻地交织、遍布于整个中国版图,它们代表了中国语言资源保护工程历时5年完成的1712个调查点的语言资源调查采集。红色代表汉语方言调查点,蓝色代表少数民族语言调查点,涵盖123个语种和全部汉语方言,点击进去,就进入到一个丰富多彩的语言方言世界。2015年,中国语言资源保护工程(下简称“语保工程”)启动。历经五年建设的一期工程,产出了这项最重要的成果——世界上最大规模的语言资源库和展示平台。这个覆盖全中国各地区、各语言的大数据库,凝结着全国350多家高校和科研机构4500多名专家学者以及9000余位语言方言发音人的心血和汗水,一大批濒危汉语方言和少数民族语言得到科学系统的调查保护。方言和母语是祖先一代一代流传下来的声音,连接着过去、现在与未来。不久前,语保工程二期正式启动,在新的五年周期,将利用现代化技术手段,对采集的语言资源进行全面深度的开发应用,全面提升我国语言资源保护和利用水平乡音,是刻在我们身体里的思乡密码。这些来自田野调查的珍贵语料将被永久保存、被开发利用。哪怕在更遥远的未来,人们都能从如此丰富的语言中,感受到在这片土地上生活过的人们的喜怒哀乐。

 “语言抢救”与时间赛跑 

一支古老的阿侬语歌谣响起,浑厚沧桑的男性嗓音、优美的曲调,瞬间把人带到苍翠的山谷中,天边是悠悠的白云,脚下是流淌不息的江水,农田里是劳作的阿爸阿妈,在这动听的歌谣里,有世代生息繁衍的泥土的气息,有老屋上的袅袅炊烟……这歌谣,正是来自语保工程的田野调查。

阿侬人是怒族的一个支系,分布在云南省怒江傈僳族自治州中缅边境地区。2015年秋天,语保工程启动不久,81岁的中国社会科学院荣誉学部委员、少数民族语言专家孙宏开先生第10次来到怒江傈僳族自治州,对阿侬语开展深入的田野调查。回望1960年第一次调查阿侬语,那时他还是一个血气方刚的小伙子。在半个多世纪中,他对这个支系语言长时间地跟踪观察,亲历了阿侬语由濒危走向严重濒危的全过程。

中国社会科学院民族研究所研究员孙宏开先生及夫人刘光坤编审在四川甘洛调查尔苏语时与当地群众合影

孙宏开先生清晰记得,第一次调查时,这个支系一共有5000多人,有800多人还使用自己的母语。但当他1983年调查的时候,只有500人能够使用自己的母语,而且大部分都是50岁左右的中老年人,小孩则根本不会。1987年、1995年、1999年,他连续6次进行跟踪调查,最后一次去的时候,只有380多个人还能讲母语。

“以前多次调查的发音人,有的已经去世。这次语保工程需要重新物色发音人,但是好不容易找到的发音人,有些词和句子就不如年龄大的发音人知道的多,最后是几个人在讨论中才完成了3000词词表的调查。”孙宏开先生说,使用人口不足1000人的弱势语言,陆续消失是社会发展的趋势,不可逆转,这是人类共同的损失。如果不进行视频记录,这些口头语言很可能就会消失在历史长河中。上世纪50年代,中国进行了历史上第一次大规模汉语方言和少数民族语言普查工作。孙宏开先生和今年84岁的语保工程湖南省首席专家、湖南师范大学教授鲍厚星,以及89岁的语保工程山东省首席专家、山东大学教授钱曾怡,都参加了第一次全国普查。时隔60年,当语保工程启动,他们再次“出征”,带队奔赴田野,进行全面系统的抢救性调查记录。许多语种、方言今天趋于濒危或面临消亡。语保工程宣传片里有一组触目惊心的数据:“在我国现存的130多种语言中,有68种使用人口在万人以下,有48种使用人口在5000人以下,其中有25种使用人口不足千人,赫哲语、苏龙语等使用人数不足百人。”语言保护”更像是在与时间赛跑的“语言抢救北京语言大学教授、中国语言资源保护研究中心常务副主任王莉宁介绍,语保工程一期完成了1712个调查点的语言资源调查采集,涵盖全国所有省区市,调查收集到123种语言和全国各地方言的原始文件数据超过1000万条,其中音频数据超过560万条,视频数据超过500万条。一大批濒危汉语方言和少数民族语言得到科学系统的调查保护。“这项工作是不可重复的,如果不抓住机会进行调查、保存,下一次也许要再等几十年。语言学家们都非常珍惜语保工程的机会。”王莉宁说。

云南师范大学余金枝教授在湖南湘西土家族苗族自治州花垣县吉卫镇腊乙坪村调查苗语

深入田间地头、深山老林,语言学家的田野调查要克服难以想象的困难。比如,新疆塔什库尔干塔吉克语调研点分布于海拔4千至5千米之间;门巴语和西藏墨脱、仓洛、阿里藏语及其方言调研点处偏远地区,交通极度不便。调查团队不仅要在村里搭建临时摄录场所,甚至还要驱赶飞禽走兽,以保证对环境噪音的控制。

然而最大的困难并不是条件恶劣,而是符合要求的发音人“太难找了”。主要发音人必须是55-65岁之间方言老年男性,必须在当地出生和长大,能说地道的当地方言,没有在外地长住,唯如此,才能保证语言面貌具有代表性。“做了这么严格的学术规定以后,语言的衰亡直接体现在调查团队去找发音人的时候,发现满足所有条件的发音人太难找了。”王莉宁说,语言学家们各显神通,有的通过当地媒体进行海选,有的发动居委会挨家挨户上门走访,有的“潜入”当地的公园、街道、微信群,物色发音人。学者们感叹:“调查保护的速度远远赶不上语言资源衰亡和流失的速度。”

2015年3月,中国语言资源保护工程首席专家曹志耘(左四)带队赴云南独龙江开展语保工程试点调查

安徽祁门军话、广东连南石蛤塘土话、贵州晴隆喇叭话、广东电白旧时正话等濒危汉语方言,贵州六枝仡佬语、云南玉溪撒都语、云南兰坪普米语、海南保亭加茂黎语等少数民族语言……经过不懈努力,这些濒危语言被采集收录进《中国濒危语言志》丛书第一批30卷,呈现出我国既有多样性、又有统一性的语言面貌。

 科学性和社会化互补 

研究显示,我国拥有130多种语言,从语系和语族的角度来看,我国的语言主要分属汉藏、阿尔泰、南岛、南亚和印欧5大语系。在5大语系下,共有13个语族,28个语支。这在世界九大语系中占据了相当大的比例。汉语拥有官话、晋语、吴语、闽语、粤语、客家话、赣语、湘语、徽语、平话土话等十大方言,内部又可分为成百上千种小方言土语,其方言的丰富性堪称世界之最,语保工程的难度可见一斑。

在幅员辽阔、语言种类繁多的条件下,中国是如何组织起世界上规模最大的语言资源保护项目语保工程首席专家、核心专家组组长曹志耘介绍,国际上的语保项目大多由基金会、科研机构甚至个人组织实施,力量零散,难成规模。而我国的语保工程在启动之初,就确定了国家工程的定位。教育部和国家语委组织专家进行全面论证和顶层设计,建立了自上而下的“工程—项目—课题”三级管理体系。北京语言大学设立中国语言资源保护研究中心,中央民族大学设立中国少数民族语言资源保护研究中心。迄今为止,参与到语保工程的高校和科研机构达350多家,专家学者4500余人,语言方言发音人9000余人。王莉宁介绍,在“国家工程、社会化和科学性”的三大定位下,语保工程一期取得了以“中国语言资源采录展示平台”“中国语言文化典藏”“中国濒危语言志”为代表的重大成果,并总结出开展大规模语言资源调查的有效经验

语保工程一期出版的20卷《中国语言文化典藏》

百色学院吕嵩崧教授等在广西乐业调查农事活动

语保工程湖北省首席专家、华中师范大学教授汪国胜在文章中写道:“语保工程是一项迫在眉睫、史无前例、功在当代、利在千秋的浩大工程。我们想借这次难得的机会,全面记录和系统保存湖北方言的实态,为学界、为历史留下一份有价值的方言文化资料,不至于因方言调查点的缺失而留下永远的遗憾。”

早在1936年,赵元任、丁声树等语言学家对当时湖北64个市县的方言进行了大规模调查,于1948年出版了《湖北方言调查报告》,为汉语方言的调查研究打造了成功范例。汪国胜教授对比了语保工程与赵元任先生当年的调查,总结了四方面进步一是更全面,赵元任先生调查了64个市县,语保工程调查了80个市县,实现了湖北方言调查全覆盖;二是更系统,赵元任先生的调查偏重语音,语保工程调查了1000个单字,1200条词汇,50条语法例句以及相当数量的话语材料;三是更地道,受当时条件限制,赵先生的调查都在武昌进行,发音人大多是武昌读书的高中学生;四是更先进,赵先生的调查做了录音,语保工程音像摄录更好地保留了方言的原生状态。2020年9月,中国语言资源采录展示平台上线,不仅可满足专业调查人员的检索、对比、分析等需求,还面向普通公众提供在线采录、字幕编辑、互动分享等功能,实现了科学性和社会化的互补。

语保专家在对语言方言发音人进行摄录,语保工程的音像摄录更好地保留了方言的原生状态

语保工程得到了联合国教科文组织的关注和重视。2018年9月,中国政府和联合国教科文组织在湖南长沙联合举办“首届世界语言资源保护大会”,并最终通过成果性文件《保护和促进世界语言多样性岳麓宣言》。这是联合国教科文组织首个以“保护语言多样性”为主题的永久性重要文件,提供了中国开展语言资源保护可资借鉴的经验、模式和路线图。

 “多语分用”可消除“语言紧张” 

“茅檐低小,溪上青青草。醉里吴音相媚好,白发谁家翁媪?”辛弃疾的《清平乐·村居》描绘了800多年前的吴地风情。但是,如今诗中这美好的“吴音”正面临着危急。

学者张泓铭撰文表达了自己的忧虑:“差不多十多年的光景,吴言方言区的上海、苏州、无锡、杭州、宁波,6岁到15岁的少年,大体可以听懂方言,但基本不说。15岁以上的青年,有时会说说方言,但说得结结巴巴,不地道,没有‘土味’。如此下去少则十几年、多则几十年,方言将在南方许多城市消亡。乡音不再,乡愁何所寄托?”语言资源危机已成为世界性课题,研究表明,全世界6700种语言中的40%正处于消亡的边缘。2000年10月,我国首次濒危语言问题研讨会在中国社会科学院举行,此后,中国的语言方言保护工作从无到有,发展迅猛。然而,仅靠专家学者调查记录的方法来抢救保存,无疑是杯水车薪。语言保护工作远非个人、团队所能完成,它呼唤着每一位中华儿女的参与和践行“当青藏铁路穿过可可西里时,大家会为藏羚羊感到忧心忡忡,当一座古廊桥被冲走、一个古村落被推倒,很多人会感到痛惜。然而,当看到下一辈不会说方言的时候,人们不会感到忧虑,更不会产生痛感。因此,在学术界和社会之间、学者和社会大众之间,存在着一条鸿沟。”曹志耘教授说。语言使用者放弃自己的母语方言,语言保护就无法推动。”王莉宁举了个例子,国家非物质文化遗产,会把传统戏曲纳入非物质文化遗产名录,但是昆曲的根基是苏州话,湘剧的语言来自长沙话,如果没有人说苏州话、长沙话了,昆曲、湘剧等注定将成为博物馆里的艺术形式。唯有“固本培元”,才能让这些戏曲艺术枝繁叶茂。语言越使用才越有活力。曹志耘教授认为,保护方言与推广普通话并行不悖,“多语分用”可消除“语言紧张”局面。市民在政府机关和学校使用普通话,在家可说方言、少数民族语言,让不同的语言在不同的场合发挥不同的作用。

中央民族大学李锦芳教授(右三)等在广东吴川调查吉兆话

跨越鸿沟需要来自民间的力量。2015年7月,著名节目主持人汪涵发起了“響應”计划,出资465万元,对湖南境内57个点展开方言调查。“響”是“响”的繁体,由“鄉音”两字组成,乡音就是最响亮的声音。

“方言是一种我说,你懂,他不明白,被时间浸润出来属于当地人的情话。”汪涵认为,乡音是一个人不可替代的文化符号。但是,当他看到身边的晚辈不再熟悉当地方言,感到十分遗憾。他希望让年轻人有继续讲方言的意愿,了解到方言背后深厚的文化支撑和巨大的趣味性。他还利用自身影响力,策划了方言文化综艺节目《多彩中国话》 《十三亿分贝》,受到年轻观众的欢迎。据不完全统计,两个节目的网络累计点击量超过3.5亿次。随着语保工程的启动,与方言有关的文艺娱乐、文创产品、科技产品不断涌现并受到欢迎,用上海、河南、重庆、南宁等地方言演绎的方言话剧不断上演,语言资源保护志愿者行动得到年轻人的响应。为了跨越学术与大众间“鸿沟”,语保工程在“中国语言文化典藏”等成果中下足了功夫。在首批推出的澳门、潮州、杭州、衡山、怀集、江山、金华等20卷方言文化图册中,每册平均收录600幅方言文化图片,一图一文。“说唱表演”等条目后附有二维码,读者用手机扫描,即可播放相关音频或视频。人们从中可以感受到,保护语言的多样性,就是保护以语言为依托的思维方式、口传文化和民俗民风。在教育部、国家语委的指导下,目前典藏第二辑30卷方言文化图册的编写出版正在进行。

 语保事业,在每个语言使用者中间 

2020年初,新冠肺炎疫情在武汉蔓延,全国各地医疗队驰援武汉,但在救治过程中发现了一个棘手问题——语言不通造成了沟通障碍。

山东大学齐鲁医院援鄂医疗队自编《医患沟通本》,这刺痛了语言文字工作者的心:抗击疫情的语言服务本应由语言文字工作者承担。2020年2月10日,教育部指导北京语言大学、武汉大学、华中师范大学等高校及商务印书馆等单位,迅速成立40余人的“战疫语言服务团”,突击研制《抗击疫情湖北方言通》。团队通宵达旦,仅用一天多时间就完成了武汉、黄石、孝感、咸宁等9市方言文本的编制和方言音频的录制任务。2月12日“方言通”上线,这款可听、可学、可检索、可更新的“有声”产品,最大程度发挥了语言应急服务功能。微信版累计访问数3.2万人次,录音累计播放量逾39万次。在这背后,正是历经5年建设周期的语保工程所提供的学术资源、人才储备和技术支撑。在一期工程圆满完成后,今年4月底,语保工程二期建设正式启动。二期工程,又是一个5年,将利用现代化技术手段,对此前调查收集的语言资源进行科学系统的整理加工和全面深度的开发应用,建成准确权威、开放共享的语言资源公共服务平台,全面提升我国语言资源保护和利用水平。

中国传媒大学李大勤语保团队尔龚语课题组成员在四川省甘孜自治州丹巴县格什扎乡做尔龚语丹巴方言田野调查

一期的重点是调查,二期的首要任务则是如何在语言资源库的基础上,推进深度开发应用。原始数据1000万条,我们要把这些‘宝贝’进行开发应用,发挥服务国家、服务社会的功能。”王莉宁介绍,目前中科院软件所在承担语保工程的一个专项,基于平台和前期采录的语料,研制中国语言的知识图谱。

语言资源有哪些开发路径?中央民族大学教授、中国少数民族语言资源保护研究中心常务副主任丁石庆认为,语保工程尤其是“后语保”时期,须充分利用飞速发展的互联网和迅猛发展的通信技术,为语言资源开发应用提供条件。如编撰各种音像同步、图文声并茂、多语言对照的教材、数字词典、手机词典等,开发自然语言理解、人工智能、智慧系统建设等语言服务产品,构建涵盖民族学、人类学、语言学、宗教学、教育学、文化学等多学科的知识图谱,实现多领域知识的关联与共享。语保工程二期,还有望建立一座中国语言资源博物馆。语保工程湖南省首席专家鲍厚星先生说:“我们一直热切期盼的工作,就是建设语言博物馆,为此申报的专项课题《面向博物馆建设的湖南汉语方言文化资源开发应用研究》已获得语保工程支持。我们要如期完成课题任务,为建设中国语言资源博物馆提供专业支撑。”王莉宁介绍,当前仍有一些“空白点”亟待开展调查;此外,如何与企业合作,让语言资源库的语料“活”起来、发挥作用,需要新的机制和模式来推动,这需要社会大众广泛参与、集思广益,为语言资源开发应用献计献策。“语保事业,不应仅限于语保工程,地方普通话和方言是我们每个人的声音身份证。语保事业需要每一个语言使用者共同参与、共同思考。我们希望通过应用,进一步跨越鸿沟,让大家看到乡音的美,方言有不可替代的一面。”王莉宁说。“问渠那得清如许,为有源头活水来。”语保事业不在“象牙塔”里,而在社会大众中间,在每一位语言使用者中间

文章来源:《文汇报》2021-08-01

图片来源:中国语言资源保护研究中心

题图来源:中国语言资源采录展示平台


相关图书信息

《中国语言文化典藏》(第一辑)

曹志耘 主编


识别二维码,即可购买


“中国语言文化典藏” 项目旨在对全国各地的方言文化进行抢救性的调查和保存。本项目调查点以汉语方言为主,也包括少数民族语言。汉语点主要以方言分布情况为依据,同时兼顾地域因素。少数民族语言选择比较重要并有研究力量的点。现已开展调查的点有40个左右。调查方法采用文字和音标记录、录音、摄像、照相等多种手段。除了传统的记音方法以外,还采用先进的录音设备和录音软件,对所有调查条目的方言说法进行录音。采用高清摄像机,与录音同步进行摄像;此外,对部分方言文化现象本身(例如婚礼、丧礼、春节、元宵节、民歌、曲艺、戏剧等)进行摄像。采用高像素专业相机,对所有调查条目的实物或活动进行拍照。

本套丛书是“中国语言文化典藏”项目成果中的分地系列图册。图册以调查点为单位,以调查条目为纲,收录方言文化图片及其方言名称(汉字)、读音(音标)、解说,以图带文,一图一文,图文并茂。每册收图600幅左右。


《中国语言文化典藏》(第一辑)

《中国语言文化典藏·澳门》 

《中国语言文化典藏·潮州》 

《中国语言文化典藏·杭州》 

《中国语言文化典藏·衡山》 

《中国语言文化典藏·怀集》 

《中国语言文化典藏·怀集(标话)》 

《中国语言文化典藏·江山》 

《中国语言文化典藏·金华》 

《中国语言文化典藏·井陉》

《中国语言文化典藏·连城》 

《中国语言文化典藏·泸溪》 

《中国语言文化典藏·清徐》 

《中国语言文化典藏·寿县》 

《中国语言文化典藏·苏州》 

《中国语言文化典藏·濉溪》 

《中国语言文化典藏·遂昌》 

《中国语言文化典藏·藤县》 

《中国语言文化典藏·屯溪》 

《中国语言文化典藏·宜春》 

《中国语言文化典藏·永丰》 


【相关链接】

《中国语言文化典藏》(第二辑)出版推进会在京召开

这些年俗民谣,你都知道吗?

春节必备的美食是……? 


《中国濒危语言志》

曹志耘 总主编

一批鲜活的田野调查语料

一份珍贵的语言文化遗产


“中国语言资源保护工程”标志性成果
用一本书记录濒危语言
用一本书保留濒危语言
留住乡音,记住乡愁


荣获第五届中国出版政府奖提名奖

入围2019商务印书馆人文社科好书,位列其首

“中版好书”2019年度榜人文社科榜单第7位


识别二维码,即可购买

“中国濒危语言志”项目是语保工程的重要组成部分,获得国家出版基金资助。项目分为濒危少数民族语言调查保护、濒危汉语方言调查保护两大部分。规划调查濒危少数民族语言点100个、濒危汉语方言点100个,按照统一的规范,采用现代化技术手段进行系统调查记录和加工保存,并编写濒危少数民族语言志、濒危汉语方言志。2019年出版首批中国濒危语言志30册,其中含汉语方言10本,少数民族语言20本。

《中国濒危语言志》

汉语方言(10册) 

《安徽祁门军话》  

《广东电白旧时正话》

《广东连南石蛤塘土话》

《广西钟山董家垌土话》

《贵州晴隆长流喇叭苗人话》

《湖南道县梅花土话》

《湖南泸溪乡话》

《湖南宁远平话》

《湖南通道本地话》

《浙江江山廿八都话》

 

少数民族语言(20册)

《甘肃东乡唐汪话》

《甘肃肃南西部裕固语》

《甘肃文县白马语》
《贵州六枝仡佬语》
《海南三亚回辉语》
《黑龙江同江赫哲语》
《内蒙古敖鲁古雅鄂温克语》
《内蒙古库伦蒙古语》
《四川道孚尔龚语》
《四川康定贵琼语》
《四川冕宁多续话》
《四川松潘羌语》
《西藏察隅达让语》
《西藏察隅格曼语》
《西藏察隅松林语》

《西藏察隅义都语》
《云南兰坪普米语》
《云南兰坪柔若语》
《云南芒市潞西阿昌语》
《云南玉溪撒都语》


【相关链接】

《中国濒危语言志》:用一本书记录濒危语言,用一本书保留濒危语言

喜讯!《古音汇纂》《中国濒危语言志》荣获第五届中国出版政府奖!

中国濒危语言志|《浙江江山廿八都话》调查手记

中国濒危语言志|《安徽祁门军话》调查手记

中国濒危语言志 |《湖南宁远平话》调查手记

中国濒危语言志 |《湖南泸溪乡话》调查手记

中国濒危语言志 |《云南芒市潞西阿昌语》调查手记

中国濒危语言志 |《云南兰坪柔若语》调查手记

中国濒危语言志 |《云南兰坪普米语》调查手记

中国濒危语言志 |《西藏察隅格曼语》调查手记

中国濒危语言志 |《西藏察隅松林语》调查手记

中国濒危语言志 |《西藏察隅达让语》调查手记

中国濒危语言志 | 《西藏察隅义都语》调查手记

中国濒危语言志|《四川松潘羌语》调查手记

中国濒危语言志 |《云南玉溪撒都语》调查笔记

中国濒危语言志 | 《贵州六枝仡佬语》调查笔记


往期回顾

《中国语言生活状况报告》(绿皮书)历年目录(2005—2021)
李宇明 | 好风凭借力 送我上青云——序《粤港澳大湾区语言生活状况报告(2021)》
《粤港澳大湾区语言生活状况报告(2021)》概况
暑假来了!《新时代学生字典》等多本工具书等你来挑选!
喜讯!《湘语益阳(泥江口)方言参考语法》荣获“暨南大学詹伯慧语言学奖”二等奖!
学习写对联的“入门”小书——《对联写作入门》面

点击“阅读原文”可进入购买链接


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存