作者 | 王楠
项目 | Language Codes
中国一共有多少种语言?你可能想不到,答案远远多于民族数量,130多种。但这130多种语言,“活力”却不尽相同,除了几种使用人口较多的语言外,大部分语言都在走向濒危。
在全球化背景下,少数民族族裔的语言文化受到的冲击越来越大。中国社科院汉藏语专家孙宏开经过多年调查发现,中国有15种语言的使用人口为100到1000人;有7种语言的使用人口在100人以内;而有的语言则已经消亡,如满语、羿语、木佬语和哈卡斯语。以海南岛上的最古老的民族黎族所使用的黎语为例,相关研究表明,黎语使用者的人数在相对和绝对的减少。五十年代使用黎语的海南黎族人口高达90%,而现在能够流利使用自己的母语黎语进行交际的已不到总人口的一半,如果不对黎语的保护和传承加以重视,那黎语也将面临消失的危险。幸运的是,文明创造了科技的土壤,而科技也没有忘却养育之恩。由于计算机技术在数据存储和学习方面的优势,所以它为保护少数民族濒危语言带来了希望。因此,小牛翻译对在GitHub上刚上线的Language Codes项目进行了升级,除项目之前包含的维吾尔语、蒙古语、彝语、壮语、藏语等少数民族语言外,现又加入30种少数民族语言,如布依语、哈尼语、黎语、北部侗语、南部侗语、水语等少数民族语言。(Language Codes项目中部分少数民族语言信息)项目中,对这30种少数民族语言的基本信息也进行了介绍,如中英文名称、ISO 639代码、所属语系、书写系统等信息。值得一提的是,在这30种少数民族语言中,不仅包含了使用量锐减的黎语、布依语、傈僳语等语言,还包括了如畲语、苦聪语、东乡语等即将面临消失的语言。以供大家获取和查阅少数民族语言的基本信息,帮助研究人员开展濒危少数民族语言研究工作,实现对语言的完整记录,助力开发者开发多语机器翻译系统。以下是项目链接,点击阅读原文即可跳转,欢迎大家访问~https://github.com/NiuTrans/LanguageCodes专注于机器翻译技术基础研究48年,拥有百余人的机器翻译产学研团队,自主研发以中文为核心的NiuTrans机器翻译系统,支持304种语言随心互译。通过丰富的应用与功能,为用户提供机器翻译服务全栈式解决方案,致力于为机器翻译产业化应用提供基础平台,帮助企业级用户在国际业务中消除语言障碍。
520众生相 | 打工人,因为 “AI 擎” 我们相遇