中心成果 |《海外华语资源库建设》项目成果介绍
导 语
项目介绍
《海外华语资源库建设》项目由语言资源高精尖创新中心特聘研究员、暨南大学郭熙教授主持。项目于2017年立项,2021年1月开展结项工作。
海外华语是全球华人共享的社会资源,它既是经济资源、文化资源,也是个人资源;它是汉语传播、传承的重要组成部分,也是语言智能研发的重要数据基础。本项目从全球视角构建全球华语资源库。项目意义重大:
1.构建海外华语语料库,和国内汉语语料库一起,构成全球汉语的语料库一体化系统;
2.海外华语资源库是全球华语视野下汉语研究新突破的重要数据基础;
3.海外华语资源库是汉语国际教育和汉语国际传播的重要支撑;
4.描写、展示海外华语面貌,抢救性记录和保存华语语言资源,是保护民族语言文化遗产的历史使命,是践行保护人类语言资源的实际行动;
5.海外华语资源库对社会语言学、人类语言学、语言地理学,甚至文化学、人类学、传播学、文学研究都有重要的数据支撑意义;
6.海外华语资源库等基础信息库将为国家语言战略尤其是“一带一路”语言规划提供数据和信息参考,是建设“全球华语学”的前期基础工作;
7.在语言经济学视野下,海外华语资源库的基础信息有利于规划华语传播和华语市场,培育、带动全球华语经济。
海外华语资源库建设层级体系
资源成果
(1)华侨华人华语基础信息库
(2)华语传承口述史资料库
调查提纲涉及华语传承40大类重要问题,调查样态包括口语、图像、影像、实物等多模态数据,第一次全面、系统、深入、真实地记录海外华语传承口述历史。访谈对象包括华社团体领袖、华文教育行业精英、一线华文教师、主流华文媒体管理者等代表。受访者年龄以70岁以上为主,其中多位年龄超过80岁,最长者已有92岁。目前,第一批访谈资料已经完成文本转写,校对工作也在开展中。项目有幸保留了很多弥足珍贵甚至鲜为人知、不曾公开的资料。在项目开展过程中,有三位高龄重要受访者陆续辞世,抢救工程是在和时间赛跑!
郭熙教授在印尼泗水访谈爪哇前华文教育协调机构主席符福金先生
(符福金主席于2021年1月3日辞世)
2017年在台北访谈台湾世界华语文教育学会理事长董鹏程先生
(2018年在广州再次访谈,2019年9月,董先生辞世)
(3)多模态华语语料库
包含9个子语料库,目前语料规模如下:(1)海外主要华文媒体(网站、报纸)语料库,约7亿字;(2)华裔学习者汉语口语语料库,约400万字;(3)小学初中华文教材语料库,约100万字;(4)华裔学习者口语语料库,约20万字;(5)海外华语口语语言生活的录音录像,约20G;(6)海外华语语言景观图片20000余张;(7)完成东南亚华文媒体特殊用字数据库建设;(8)海外华语文学作品语料库,已完成约500万字;(9)华侨华人访谈录口语语料库,已完成约60万字(人工校对)。
系统成果
项目建设了全球华语语料库在线检索系统,包括(1)海外华语例句网络检索系统;(2)海外华语字词网络检索系统。网络版的在线语料(华文报纸、网络、教材、作文、口语、有声)检索系统,可以检索任意字串或符号,可以利用规则进行高级检索,例如“与、或、非”的检索、距离检索等等。
东南亚华文媒体语料库单个关键词例句检索示意图
东南亚华文媒体语料库多个关键词例句检索示意图
网络版的语料库用字用语检索系统,可以检索任意汉字或词语在各个媒体子语料库中的详细使用情况,例如汉字在各个媒体中的类别(规范字或繁体字、异体字等)、频序、频次、频率、覆盖率、使用率、文本数、文档频率以及该汉字在中国大陆语料库中的详细使用情况。
口语语料库字词检索示意图
全球华语语料库在线检索系统网址
中心成果 |《新选中国名诗1000首:当代诗学名家经典选释系列》项目成果介绍中心成果 | 《中文句法语义分析及其应用》项目成果介绍