查看原文
其他

中国少数民族语言信息化现状如何?| 赵小兵教授访谈

黄善清 语标 2021-03-18

(本文转自:AI科技评论)

AI 科技评论按:近年来,我国在国际自然语言处理领域的表现较为活跃,多个自然语言处理顶级会议上都能见到我国学者的身影,论文的发表数量也在逼近美国。然而这仅仅就少数语言而言。在我国境内许多的少数民族地区,当地许多语言文字还处在低信息化状态,连最基础的工具如搜索引擎、门户网站等都不具备,使得原本就处在偏远地区的少数民族进一步被「边缘化」。

少数民族语言信息化是一项庞大工程,非一人一时之力所能解决。以云南为例,作为一个多民族、多语言、多文种的边疆省份,云南省人口在 6000 人以上的世居少数民族一共有 25 个,这 25 个世居少数民族中,除回、水、满 3 个民族通用汉语外,其他 22 个民族共使用 26 种语言,14 个民族使用 22 种文字,语言文字资源丰富且使用情况复杂。

我们好奇的是,如今少数民族语言的信息化工作究竟进展到了哪一步?学界/业界有哪些值得被记录的成果?研究在转化落地成为产品的道路上遇到了哪些棘手的问题?带着这些疑问,我们采访了中央民族大学国家语言资源监测与研究少数民族语言中心主任、中国中文信息学会理事、民族语文信息处理专委会副主任、博士生导师赵小兵教授。(采访:岑峰、黄善清 ;整理:黄善清)

赵小兵、女、蒙古族、1967 年 2 月生、内蒙古呼和浩特市人,二级教授、博士生导师,北京市第十五届人大代表。1988 年 7 月毕业于内蒙古大学电子系计算机科学与技术专业,获学士学位;2003 年 1 月毕业于韩国青云大学信息产业大学院, 获硕士学位,专业方向为人工智能;2007 年 6 月毕业于北京语言大学应用语言学研究所, 获博士学位,专业方向为计算语言学。现任中央民族大学「国家语言资源监测与研究少数民族语言中心」主任,受聘为北京外国语大学、新疆师范大学、呼和浩特民族学院、内蒙古师范大学等机构研究中心学术委员会委员或名誉教授。兼任「中国中文信息学会」理事,「中国中文信息学会民族语言文字信息处理专委会」副主任、「中国语文现代化学会少数民族语文现代化专委会」副主任,「中国少数民族语言文字标准化委员会」秘书长、「国家自然科学基金项目评审委员」等。

曾任第三届「中国学生计算语言学学术研讨会」大会主席;「第 11-16 届中国少数民族语言信息处理学术研讨会」学术委员会委员兼组织委员会副主任。曾主持国家自然科学基金重点项目《跨语言社会舆情基础理论与关键技术研究》等科研课题 28 项;获「中国第二届钱伟长科技进步一等奖」、「北京语言大学优秀博士论文」等奖励 18 项;发表 SCI、EI 等学术期刊及会议论文 72 篇,出版学术专著 8 部,获国家发明专利 2 项、软件著作权 2 项。

AI 科技评论:请简单介绍少数民族语言信息化工作的基本情况。

赵小兵:国内目前认定的少数民族语言种类有 80 多种,而联合国科教文组织认定的则多达 120 多种,尽管在认定标准上存在差异,实际上两者的数量并没有本质的区别,因为联合国科教文组织考虑是否将一个民族的某种方言视作独立的一种语言,还会考虑语言之间能否交流。

我们判断一个语言的社会化使用程度,一个关键指标是看该语言是否进入大众媒体流通语言中,当然包括网络等新媒体。在中心的长期跟踪下,总结出网络上使用的少数民族语言一共有 14 文种(来自 12 个民族),当中以蒙、藏、维、哈、朝、彝、壮、傣和柯尔克孜的用户基数相对较多。网站数量方面,中心在 2011 年的统计是 1030 个,最近(2018 年底)的核对结果是 680 个,之所以数量上有所变化,一个重要原因是由于网站创建者兴趣转移、经费不继等问题关闭,这当中以个人网站居多,而由政府机关、企业以及社会团体创建的网站则相对稳定。

AI 科技评论:少数民族语言的信息化工作一共经历几个阶段?

赵小兵:大体来说,经历了 3 个阶段。每个阶段均以这个阶段的主体任务作为标志,但由于少数民族语种多,发展并不均衡,三个阶段也是交叉融合的。

第一个是字处理阶段(上世纪 70 年代末、80 年代初开始),这个时期的主体任务是保证民族语言文字的字符在计算机及关联设备上的显现,也就是解决字符编码、输入法和字处理软件的问题。这时候面临的问题主要有两个:一是少数民族语言文字字符的编码及输入,需要解决字符编码的不统一等问题,比如拥有多种编码体系的蒙古文,需要进行字符编码的统一转换;比如不同地域方言区所使用的彝文,是一种典型的「表意文字」,不同区域使用的文字字符存在较大差异,也就意味着其字符编码需要收录处理庞大的字符集。二是文字字符的字处理及排版问题,这一阶段北大方正与「潍坊」华光在这方面扮演着重要的角色,特别是潍坊华光专门针对少数民族语言开发了排版软件。

第二个阶段是词处理阶段(上世纪 90 年代末开始),这个时期的主体任务可分为前期和后期:前期是构建语料库,对语料进行不同层次的加工标注如分词、词类标注、语法信息词典、句法树、语义标注等,为计算机理解少数民族语言并进行后期自动加工处理打下基础;后期是在标注语料库的基础上搭建和训练各类计算机自动加工处理模型,使计算机在满足精确度标准的情况下对语料进行处理。

第三个阶段是智能化产品及应用阶段(近 10 年),近年来机器学习,特别是深度神经网络技术的成熟与应用,语言的智能应用也逐步由实验室模型开始走向了实用化的民用产品,包括机器翻译、舆情分析、搜索引擎、智能教育等一批民族语言应用,科大讯飞的藏维语音识别合成智能应用产品便是近年来的一个标志性产品。

AI 科技评论:少数民族语言的国际编码处理与英语有哪些异同?

赵小兵:字处理阶段,两者的处理是比较类似的,因为这个阶段主要处理的是字形,只要按照字形的拼音等的输入规则给出一套完整输入方案即可。到了词处理阶段,使用什么方法来进行语言分析和理解,构建语言翻译模型等应用变得至关重要。进行语言分析,构建语言模型主要有基于规则或者经验的方法。应用规则进行语言分析,依赖于语言的词法、句法等规则描述,与语言语种强相关,规则建构庞杂、工作量大,很难建立实际应用,只适用于目标单一或受限领域的应用。近年来,基于经验的语料库统计方法,特别是深度学习在人工智能语言信息处理技术的逐步成熟,其应用领域范畴不断扩大并走向实用化,这类方法的主要目标是构建语言无关的模型,所以无论是英语、汉语,还是少数民族语言均采用相似的语言分析及处理模型。少数民族语言智能信息技术在这个阶段的主要研究任务除进行机器翻译、语音识别等应用研究外,针对低资源、跨语言目标的模型训练亦成为近期的研究热点。

总的来说,学界未绝对地选择经验或者规则一条道路走到底,而是把两者结合起来,根据不同任务目标和训练语料的实际情况,灵活地调整处理模型和方案。

AI 科技评论:国家推动少数民族语言信息化的目的是什么?

赵小兵:一个是促进民族之间的沟通交流。在我国少数民族自治区域,当地的主体民族语言文字和国家通用语言文字共同在当地社会及家庭中普遍使用。当地的政府公文、牌匾、学校等都是双语或多语共同使用,我国每年「两会」的政府工作报告等也会发行蒙藏维哈朝彝壮等七种少数民族文字翻译单行本,另外地方民语委也会设立翻译机构来进行日常的公文及文件翻译,所以民族语言智能化应用不仅是少数民族群众日常进行信息交流的需要,也可以辅助干部下乡时与少数民族群众的沟通交流,使少数民族群众切实感受到国家的发展给他们生活带来的信息交流的便利,同时提供个性化的、跨语言智能技术服务,满足民族地区群众信息检索与自身能力提升的需求。

另外,少数民族语言智能信息处理的应用近期还有两个热点,一个是进行社会舆情监控。通过结合情感分析技术和社交平台数据,可以让政府及时了解民众的情绪与关注话题,为政府的政策制定提供量化的参考依据。

另一个是打造少数民族语言的领域知识图谱。由于少数民族语言属于典型的「低资源语言」,网络上可供使用的资源和工具都非常少,知识图谱等于在为少数民族群体未来的信息获取服务打基础。

AI 科技评论:少数民族语言成为「低资源语言」的原因是什么?

赵小兵:少数民族语言在早期信息化过程中出现了一批应用工具,由于用户在使用上习惯了这些工具,导致网络上的少数民族语言文本许多时候都处于编码不统一的状态。以蒙古文为例,网上既存在国际标准的 Unicode 编码,也存在蒙科立、赛因等多种编码。

这种编码混乱的状态让后期的信息化工作遇到很多困难,是导致少数民族语言成为「低资源语言」的原因之一。其二,类似百度、必应、谷歌这些主流搜索引擎都只处理 Unicode 标准编码的文本,少数民族语言「百花齐放」的编码标准导致了信息剥落。其三,即便收录的是 Unicode 标准编码的内容,由于前期的录入错误等问题,导致目前网上检索到的少数民族语言文本不一定百分之百准确。这些情况都导致少数民语言的网络资源一直上不去,对后来的人工智能应用模型训练造成了很大影响。

AI 科技评论:面对「低资源语言」问题,学界采取了哪些措施?

赵小兵:一方面我们会尽可能地去采集更多资源,同一时间我们也在强调预处理流程,避免出现前期编码录入工作不到位的问题。更重要的是,我们将根据少数民族语言现状构建「低资源语言训练模型」,通过引入迁移学习或零资源语言模型训练等技术,由大规模的语料库资源中学习的语言模型迁移训练低资源的少数民族语言,在此过程中对参数进行调优。这是当下学界的研究热点,尤其在机器翻译这块。

此外,我们也重视跨语言检索技术的应用,在构建知识图谱时,先从其他主流语言的数据库中挖掘知识之间的层次关系,进而迁移到少数民族的应用中来。这是一个庞大的工程,需要多方机构组成联盟来促进,尤其是在教育和医疗等专用领域上,能为身处偏远地区且教育资源有限的少数民族群体提供更理想的服务。

AI 科技评论:目前在「低资源语言」研究这块做得比较好的团队有哪些?

赵小兵:高校上来说,清华的孙茂松老师和刘洋老师在做少数民族语言的机器翻译,从他们这里走出了大量的少数民族语言信息化人才;北大有计算语言学研究所的俞士汶老师等,特别是蒙藏维等语言跟随俞老师的汉语语法信息词典而建构的民族语言语法信息词典,为少数民族语言未来的信息化工作奠定了基础;中科院自动化所的宗成庆老师,在他承担的机器翻译项目中,涉及蒙藏维吾等少数民族语言,一些地方民族院校的学生也跟着他在做机器翻译软件;东北大学有朱靖波老师与民族翻译局合作,开发针对小语种的「小牛翻译」,得益于民族翻译局常年积累的文本优势,让他们在语料训练上占有一定优势。

国内少数民族语言信息处理技术最初的带头人包括维吾尔文的吾守尔院士、吐尔根教授、玉素甫教授,蒙古文的嘎日迪、敖其尔教授、确精扎布教授,藏文的赵晨星教授、于洪志教授、江迪研究员、欧珠教授、尼玛扎西教授、才让加教授,哈萨克文的古丽拉教授、彝文的沙马拉毅教授等前辈。今天在少数民族语言文字信息处理的应用成果是他们辛勤耕耘的结果,而活跃在今天国内民族信息技术领域的人才队伍也大都来自于这些前辈所在的单位和机构,他们为国内少数民族语言智能信息技术的发展做出了重大贡献,应该被历史记忆!

另外,少数民族语言信息处理技术的发展一直以来得到中国中文信息学会的重视与大力扶持,学会在 1980 年成立了民族语言文字信息处理专委会,组织国内民族语言信息处理的学术交流,推动了民族领域人才培养和技术发展。

这些是我目前所了解到的,不一定能够百分之百准确概括学界的情况。

AI 科技评论:目前哪个少数民族语言的信息化程度是最高的?

赵小兵:蒙、藏、维这三种少数民族语言的信息化程度基本上是同步的,主要有两个原因:一个是这几种语言的信息化工作得到了国家发改委的大力支持,这三种语言相继得到国家发改委、信息产业部等上亿元的专项投入,另外还获得了国家自然科学基金项目、科技部专项课题等的持续支持;一个是这几种少数民族语言的发展历史相对较长,因此科研队伍也相应比较成熟。即便如此,这里还是要强调一点,既懂少数民族语言又懂信息处理的人才依然是非常稀缺的。

AI 科技评论:少数民族语言的信息化产品在具体落地时面临了哪些挑战?

赵小兵:目前承担人工智能/自然语言处理国家课题的主要还是以科研院校为主,而科研院校的成果更多还是通过论文发表等形式呈现。随着近几年国家对科研成果转化的引导,科研院校开始有意识和企业做联动,推动技术转化、产学研结合,然而目前依然存在一些障碍:其一,科研院校需要调整传统延续下来的做事模式,这种认知与习惯上的转变不是一件那么容易的事情。其二、虽然国家针对科研院校制定了引导政策,却缺乏相应的约束机制,科研院校对人才成果的评价及工作量的核定,需要更加多元化。

此外,少数民族语言的受众少,在应用的落地上需要获得更多来自国家政策的支持。比如青海玉树那次大地震,当地明显存在语言交流的问题,类似预警系统的建设需要国家的大力投入,不能只靠产品受众的购买力来推动这件事情。

在选题申报上,国家应该将项目课题分成两类,一类是追求技术领先的,一类是针对民用的,不能仅仅因为技术上的优势而将所有项目给到同一类型的申报者。目前民用相关的课题在高校中普遍不被认可,导致高校老师在申报这类型项目的积极性上普遍不高,更别说转化了。

AI 科技评论:怎么理解「约束机制」的缺乏?

赵小兵:目前高校老师的主体任务还是教学,在保证教学质量的前提下,可以进一步选择产出科研成果,包括论文、出书、专利等,至于这些成果有多少转化,产生多大的经济效益,都不做硬性要求,技术转化成了可选可不选的 B 项。我们知道技术转化工作需要很大的投入,研发的东西在到达用户手上以前实际上只完成了 30% 的工作量,然而人的精力毕竟有限,如果没有配套的激励政策,高校老师不会主动去做这件事情。

AI 科技评论:在未来的 3—5 年里,您认为少数民族语言信息化工作会在哪些地方有所突破?

赵小兵:首先,做研究还是要与国家的整体规划保持步伐一致。涉及到少数民族这一块的话,第一点是要打通语言这一关,尤其是一带一路沿线国家的语言关,由于翻译非常依赖语言模型和语料库建设,这一点因而显得尤其重要。此外,不能只把眼光局限在境内,要考虑到许多境内的少数民族语言和周边国家的官方语言其实属于同一种语言,要基于这一点进行顶层统筹布局。

第二点,要意识到许多少数民族群众如今早已不是「面朝黄土背朝天」的生活状态,而是从传统的生活区域范围逐渐向城市迁移,在走出去的过程中,他们特别需要来自知识层面的支持,只是这些推送服务他们要从哪里获取?典型的比如说搜索引擎、门户网站等工具服务的建设。

第三点,少数民族语言信息化还涉及到家安全层面,我们依然需要通过舆情分析技术来了解民心民意。

如果说突破的话,我想会体现在这几个方面。


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存