戴曼纯:数字时代的语言技术与语言保护:以欧洲为例
2022年第4期
专题研究
语言数据与数字经济
作者简介
戴曼纯
北京外国语大学教授,主要研究方向为语言政策、二语习得、理论语言学。
数字时代的语言技术与语言保护:以欧洲为例
戴曼纯
(北京外国语大学 中文学院 北京 100081)
提 要 语言技术影响语言的未来,关系到数字时代的语言多样性和语言保护。虽然欧洲奉行多语主义,尊重语言文化多元,但是不同语种的语言技术开发参差不齐。良好的语言技术使英语获得数字语言生活(尤其是网络语言生活)的优势地位,渗透进其他语言使用者的网络空间,而薄弱的语言技术或技术缺位则使一些语言在网上被边缘化,甚至陷入数字化消亡困境。从长远看,语言技术不但能解决跨语言交流问题,还有助于语言保护,但语言技术面临一系列问题,需要克服许多困难。在这方面,多语欧洲技术联盟十多年来的努力值得借鉴,其代表性成绩是出版了数字时代的32种欧洲语言白皮书。不过,从目前取得的成绩来看,通过语言技术破除交际障碍、保护所有欧洲语言,依然任重道远。
关键词 数字时代;语言多样性;语言技术;语言保护;多语欧洲技术联盟网
一、引 言
21世纪信息技术飞速发展,将人类带进了数字时代,微信聊天、收发电子邮件等,已成生活常规。人们的生活,尤其是语言生活,发生了显著变化,交往模式、信息分享方式以及看待世界的眼光都随之而变。数字技术创造出语言的另一种生存空间,影响着语言的命运。因为不同语言的数字化技术受制于诸多因素而发展不平衡,现有语言很难平等、同步进入数字时代。有的语言随着数字技术的发展扩大了使用范围,增强了活力;有的语言则因资源有限、技术落后而无法分享互联网等数字语言生活,极有可能走向数字消亡。数字时代的语言保护任务非常艰巨且高度倚重语言技术。
语言技术、语言资源、语言数据、数字技术等与语言生活和语言保护密切关联。所谓语言技术指的是语言学、计算机科学、计算语言学及相关学科专家研制开发的技术,用于自动分析和生成语言的口头、笔头和手语形式(Rehm & Uszkoreit 2012)。作为语言技术核心的自然语言处理,一般需要语言资源、训练算法、语言模型等作为支撑。常见智能语言技术有语言自动识别、信息提取、机器翻译等等。语言资源指构建、改进、评估自然语言处理工具的原始数据,包含口笔语语料、语法和术语库。语言数据是训练现代语言技术的关键(Smal et al. 2020)。训练算法通常指基于人工智能原则构建的人工神经网络,适应语言特点,分析并对语言资源建模。当前蓬勃发展的人工智能以语言技术为核心,赋予机器读取、分析并加工人类语言的能力。数字技术使海量信息压缩在小型存储设备,利用计算机及应用软件通过网络来存储、传送。语言技术借语言资源、语言数据和数字技术之力,不仅成为人工智能的关键要素,还为真实语言的保护提供了新的途径。
当前数字语言生活的一大特点是网上冲浪或网页浏览。英语在语言技术领域一家独大造成了语言失衡,致使大多数其他语言在语言技术领域被边缘化(Rehm et al. 2021)。全世界7000多种语言仅有四分之一出现在网络中(Crystal 2004:220)。如果语言不能进入数字化领域,结果必然是数字化消亡。
这种不容乐观的趋势引起了语言学界和语言技术领域专家的关注。一些国家和地区启动语言保护工程,试图扭转语言数字化消亡的不利趋势,保护人类文明财富。例如,中国大规模的语言资源保护工作于2015年启动,保护对象涵盖80多种少数民族语言、50多种汉语方言。[1]欧洲在2012年推出维护欧洲语言多样性的战略研究计划,发布了一系列数字时代的欧洲语言白皮书。
[1]参见:www.moe.gov.cn/s78/A19/A19_ztzl/ztzl_yxyywhcccb/ziyuanbaohu/。
鉴于中国语言政策领域几乎没有文献论及欧洲数字时代的语言生活及语言保护,本文将从这一角度探讨多语欧洲所做的尝试,阐述欧洲语言多样性与数字时代的语言问题、语言技术状况等,展示推崇语言文化多元的欧洲开发语言技术以保护语言的做法及面临的问题。
二、当代欧洲多语主义与英语独大趋势
以语言划定疆界、区别身份曾经成就了欧洲的民族国家建设。而一国之内的语言多样性往往被视为问题。有的国家(如法国)曾试图消灭语言多样性、推崇一语。但是,世界进入全球化时代后,尤其是在欧洲走向一体化的进程中,尊重并保护语言文化多样性成为语言政策与规划领域的主导思想,是团结欧洲国家实现一体化的基本原则。
(一)当代欧洲多语主义
欧洲,特别是欧盟,以尊重语言文化多元为宗旨,承认语言的资源价值(戴曼纯2014,2017),语言多样性被视为最重要的文化财富(Evas 2014)。多语制被视为促进欧洲发展的文化基石,欧盟鼓励人们学习多门语言。从语言政策的理论与实践层面看,欧洲堪称多语主义的试验场。欧洲公民一般需要掌握母语、一门其他现代欧洲语言,以及第三门语言(现代欧洲语言、古代欧洲语言或欧洲之外的语言)。
欧洲尊重语言多样性有利于增强多样性中的统一。《欧洲区域或少数民族语言宪章》承认的79种区域或小族语言涉及203个少数民族或语言群体。[2]欧洲8亿多人口中约有5500万使用欧盟官方语言之外的语言,例如,英国就有数十万人使用威尔士语、康沃尔语、盖尔语和爱尔兰语。2016年欧盟统计局(Eurostat)的数据显示,[3]欧盟劳动适龄人口中有24.8%至少掌握一门外语,且掌握最好的外语能够达到熟练程度;接受过高等教育的劳动适龄人口有80%至少掌握一门外语。
[2]欧洲国家界定的小族语言不易确定,例如意大利号称有50种小族语言,而实际上官方把这些称为意大利语的方言。因此,有的文献称有80种小族和区域语言,或用模糊词表示。
[3]参见:https://ec.europa.eu/eurostat/statistics-explained/index.php?title=Foreign_language_skills_statistics。
对于多语欧洲而言,克服多语交流障碍的方法通常有语言教育(多语能力发展)、推行通用语、(即时)翻译服务、成系统的文本翻译、借助语言技术手段(语言自动转换)等。其中前两种为传统做法,历史悠久,后三种为数字时代的新方法,正在发展之中。传统做法对欧洲目前的多语格局产生了重大影响,其中包括英语通过教育发展为通用语言。但是,学习外语毕竟耗时费力,欧洲无法仅通过语言教育从根本上解决交际问题。一个欧洲人不可能学会80多种本土语言(24种欧盟官方语言和60多种其他欧洲语言),有效解决之道是开发关键性语言技术,既能为欧洲市场、欧洲国家对外贸易带来优势和利益,还能助力日常生活(Rehm & Uszkoreit 2012:14)。因此,多语欧洲语言技术变得魅力十足,多语政策从语言教育延伸至技术领域。
欧盟委员会(常设执行机构)和欧洲议会(欧盟立法、监督和咨询机构)长期以来对维护欧洲的语言多样性表示出关切,对语言技术寄予厚望。欧盟资助语言技术研究和创新,以期消除语言障碍、维护语言多样性,期望语言技术帮助欧洲公民获取网络内容。此类技术除机器翻译外还有文本分析应用、对话系统、搜索引擎、自动文本摘要、文本转语音等诸多适应人类自然语言使用场景的应用软件。[4]欧洲议会在2020年的《欧洲语言日:非通用语言的数字生存》简报中指出,欧洲非通用语言面临严重的生存威胁,数字技术使其雪上加霜。年轻一代依靠网络交流并获取信息。如果网页内容只用主要语言,那么非通用语言就会面临数字化消亡。如果数字技术用于保护语言,在线教育、在线语言学习和语言技术也能振兴濒危语言。[5]很显然,欧洲议会的简报指出了数字技术的两面性,语言间的技术失衡将威胁非通用语言的生存,而语言技术雨露均沾则可能起到保护多语的作用。
[4]参见:https://digital-strategy.ec.europa.eu/policies/language-technologies-multilingualism。
[5]参见:https://www.europarl.europa.eu/RegData/etudes/BRIE/2020/652086/EPRS_BRI(2020)652086_EN.pdf。
(二)英国脱欧后英语依然独大
按照乐观的预测,随着语言技术的发展,语言自动转换得以实现,国际交流将更轻松,成本更低,欧洲乃至世界将失去维护英语作为通用语的动力。语言自动转换(自动口译、机器翻译)将使语言之间越来越平等(Ostler 2015)。这种理想主义的技术论为小族语言描绘出美好的前景,似乎欧洲所有语言都有平等机会在数字时代获得新生,但它忽略了英语从传统中积累下来的绝对优势,这种优势在数字时代仍保持强劲,且正在影响其他语言分享互联网,妨碍这些语言获得数字生存空间。英语优势已经深度渗透进当前的数字化生活,包括键盘布局、语言输入系统、计算机语言及软件开发等。
英语几乎已发展成为欧洲的通用语,维护语言多样性无法回避英语的影响和渗透问题。英国脱欧引发过英语在欧盟地位的讨论,例如2017年5月5日时任欧盟委员会主席容克在演讲中指出“英语在欧洲将慢慢地但是肯定地失去其重要性”(Melvina 2019:25)。但是研究表明,英国脱欧后英语依然是欧洲人跨语言交际中最偏爱的第二语言,也是欧洲中小学越来越多人学习的第一外语(Melvina 2019)。事实上,英国脱欧对英语在欧洲大陆的影响极其微小,因为英语在国际商务、学术界、国际教育、国际传媒、外交、新技术、互联网等领域依然是通用的语言,[6]欧盟有一半以上的人除母语外还能说英语(Ananiadou et al. 2012),英语在语言市场的霸主地位目前还很难撼动。
[6]参见:https://www.britishcouncil.org/education/schools/support-for-languages/thought-leadership/research-report/future-of-english-eu-
2025。
英语之所以在欧洲和其他国家传播如此之广,是因为经济和政治的力量确立了英语的突出地位,使其传播具有自推力(Johnson 2009:158)。英国脱欧后的欧洲大陆成了一个统一依靠英语作为第二语言的多语共同体,多语欧洲人母语之外最方便使用的语言便是英语。英语的使用如此广泛,使人认为英国脱欧强化了英语的地位,英语甚至有可能演变成具有欧洲大陆特色的新英语变体,即欧洲大陆人自己的欧式英语(Euro-English)(Modiano 2017)。
当然,关于英语的影响力(尤其是在欧洲之外的影响力)也有一些误导性看法。例如,奥斯特勒(Ostler)认为,英语通行世界的地位建立在以往的社会优势之上(如军事、经济、文化、宗教等),而这种有利于英语使用者的社会因素正在失去往日的力量,世界多语格局有可能发生变化。成就英语通用语地位的各方力量已过巅峰,英帝国自1897年后就在走下坡路,英语在许多前殖民地(如马来西亚、斯里兰卡、坦桑尼亚)的地位下降了。虽然英语依然流行于印度、南非、菲律宾等地的精英阶层,但是没有成功推广至普罗大众。英语通过进入家庭交流而产生语言转用的模式已不复存在(Ostler 2015)。此外,格拉多尔(Graddol)在英国文化委员会关于英语未来的报告中曾预测未来世界的语言格局,认为中文、西班牙语、英语、阿拉伯语、马来语、印地语、俄语将瓜分天下,各自占有区域优势,产生经济和文化影响力(Graddol 1997,2000)。其预测考虑了经济这个重要因素,指出英语的未来复杂而多元,即英语的使用会出现增长,英语变体也会增多,英语的全球市场规模还会增大,但是市场占比会减少;英语的霸主地位将被包括西班牙语和中文在内的其他语言代替(Graddol 1997,2000:3)。这种看衰英语的说辞表明,格拉多尔和奥斯特勒一样,是站在维护英语利益的角度发出警示,极具误导性,与英语在欧洲的独大趋势现实明显不符。
(三)英语在互联网空间的绝对优势
网络空间的语言使用是数字化生活的主要场域。哪门语言占据了互联网,哪门语言就有数字生存空间。全球网民从1995年12月的1600万增加至2021年3月的51亿,[7]占世界总人口的66%,欧洲8.29亿总人口中就有7.27亿网民(占欧洲总人口的87.7%)[8]。欧洲是互联网渗透率最高的地区,网络语言生活丰富,能够比较清晰地显示出不同语言在网络空间的生存状况。互联网空间的语言使用是语言活力的重要指标,这种指标通常有两个角度:一是语言使用者数量,二是网站内容使用的语言。无论从哪个角度看,英语都占绝对优势。
[7]参见:https://firstsiteguide.com/internet-stats/。
[8]参见:https://www.internetworldstats.com/stats4.htm。
截至2020年,互联网使用最多的语言(按照使用网民数量划分)占比最高的是英语(25.9%),紧随其后的是中文(19.4%)、西班牙语(7.9%)、阿拉伯语(5.2%)、马来语和印度尼西亚语(4.3%)、葡萄牙语(3.7%)、法语(3.3%)、日语(2.6%)、俄语(2.5%)、德语(2%),其他所有语言(23.1%)。[9]联合国教科文组织网站显示,按照网站内容使用的语言划分,英语占比高达60.5%,如图1所示。[10]
[9]参见:https://www.statista.com/statistics/262946/share-of-the-most-common-languages-on-the-internet/。
[10]参见:https://zh.unesco.org/courier/2021-2/wang-luo-kong-jian-yu-yan。
与其他语言相比,英语在互联网上处于强势传播状态,网络空间的使用占比远超其母语人口(3.79亿)的占比,大范围渗透进其他语言母语者的数字化生活。在排名靠前的几种欧洲语言中,英语遥遥领先,俄语、西班牙语、法语、德语的网站内容占比远低于英语。网络给多语国家和地区带来便捷交流的同时也进一步扩大了英语的使用范围,强化了英语的线上线下地位,加速了英语的全球传播(Danet & Herring 2007:36)。
(四)欧洲其他语言的网络空间地位
欧洲其他语言的互联网空间被英语严重挤压。尤其是欧洲小族语言很难平等分享数字空间,因为网络空间的语言使用除需要技术支持外,还必须具备许多其他条件,包括语言政策支持、充足的经费、完备的书写系统、丰富的网络资源及知识库、有效的网络管理机制、众多网民等。语言使用群体的优势条件对于语言的网络传播发挥了巨大作用。例如,瑞典语作为瑞典和芬兰的官方语言,其母语人数在全世界语言排名中位列第85,在网站使用的语言排名中居第25位,被《数字时代的瑞典语》称为“小语言、大网络”(Borin et al. 2012)。然而,一般欧洲非通用语言(特别是区域或小族语言)很难拥有瑞典语的网络优势。
欧洲小族语言的网络空间地位总体上非常尴尬。即使是欧盟某些官方语言,其网络上的使用情况也不容乐观。例如,马耳他语使用者(马耳他有马耳他语和英语两种官方语言)有九成以上使用英语浏览网页,两成用意大利语上网(与使用英语的人有交叉),仅有6.5%的人只用马耳他语上网,究其原因不是网民青睐英语,而是马耳他语网站有限(Rosner & Joachimsen 2012)。这一点与瑞典语形成鲜明对照。
虽然语言技术及互联网有复活小族语言和濒危语言的潜力,但是与大语言并存于网络的小族语言前景堪忧。Danet & Herring(2007)列举了诸多证据,证明小族语言和濒危语言在网络上处于不利地位。例如:(1)据Fernandez(2001)引证他人的报告,在讨论爱尔兰未来的跟帖中,管理员警告盖尔语发帖人将删除盖尔语帖子。(2)在表面看起来像巴斯克论坛的网站上,几乎没有人使用巴斯克语,大多数帖子使用的是西班牙语,尽管许多用户是巴斯克语加西班牙语或法语的双语使用者。(3)Cunliffe & Harries(2005)在分析威尔士语-英语双语网络社区(鼓励双语交流的Pen I Ben)的语言使用情况时发现,威尔士语帖子越来越少,而英语帖子则日渐增多;坎利夫(Cunliffe)和哈里斯(Harries)指出,没有社会支持和技术支撑,小族语言在网上难以为继(Danet & Herring 2007:36)。
欧洲小族或区域语言的网络生存反映出一个世界性问题,因为除欧洲之外,其他国家和地区同样面临英语挤占网络空间的问题,例如,第一届拉丁美洲互联网土著语言节(Latin America Festival of Indigenous Languages on the Internet)组织者之一库马斯(Miguel Ángel Oxlaj Kumez)发现,每次上网,90%以上的网站内容都是英语,另有小部分西班牙语和其他语言的网站,因此他只能浏览自己母语[11]之外的网站。再加之键盘是根据主要语言设计形成,无法输入或拼写土著语言,网上的应用软件和社交平台缺少多样化的字母表,这就导致土著语言无法真正进入线上交流。[12]
[11]库马斯的母语是卡科奇科尔玛雅语言(Kaqchikel Mayan),在危地马拉有50多万使用者。
[12]参见:https://www.bbc.com/future/article/20200414-the-many-lanuages-still-missing-from-the-internet。
三、多语欧洲的语言技术与语言保护面临的问题
有专家指出,解决欧洲未来语言使用问题最令人信服的方案是采用合适的语言技术(Rehm & Uszkoreit 2012)。欧盟2013年提出的《欧洲语言多样性线路图》(The European Roadmap for Linguistic Diversity)重申欧盟保护欧盟各语言的承诺,将欧洲境内的国际语言、国家语言、区域语言、小族语言、濒危语言、移民语言视为共同财富,予以支持和推广,其中包括利用信息技术促进所有语言的学习和推广,增强语言活力。欧盟将技术摆在“欧盟2020战略”的突出位置,视其为增强欧洲竞争力的有效途径。但是,并非所有欧洲语言都从语言技术中受益,区域语言、小族语言和濒危语言在语言技术方面处于落后地位,国际语言与其他语言的差距也在拉大。[13]即便是技术领先的苹果Siri也只支持21种语言,亚马逊Alexa支持8种,谷歌Home支持13种,谷歌翻译截至2020年2月支持113种语言。[14]大部分语言尚未进入以上常用技术中。
[13]参见:https://www.npld.eu › Roadmap-in-English。
[14]参见:https://cacm.acm.org/news/246618-we-need-to-talk-about-linguistic-diversity-in-ai/fulltext。
从长远看,语言技术不但能解决跨语言交流问题,还有助于语言保护。语言技术在特定环境下发挥语言保护作用,不乏其例,比如,德国美因兹大学萨尔希马(Anneli Sarhimaa)教授指出,虽然欧洲的小族语言过去受到国家建设、城市化的影响,还受到互联网通用语言的挤压,但是从芬兰和俄罗斯西北部的语言状况看,数字媒体可以助力小族语言复兴。[15]通过语言技术实现跨语言交际和语言保护不可能一蹴而就,需要解决的问题多,难度大。
[15]参见:https://ec.europa.eu/research-and-innovation/en/horizon-magazine/internet-helping-revive-minority-languages。
(一)语言技术面临的问题
多语欧洲语言技术的开发取得了成绩,但还有许多问题需要解决,包括行业协同合作、技术短板、资金投入、技术路径、语言平等、技术质量、技术的社会应用等。
第一,虽然商业化语言技术产品已经成为日常必备,但是欧洲语言技术行业分散,语言技术发展不平衡。商业化语言技术高度碎片化,大量小公司定位低,很难做大做强(Rehm et al. 2020)。语言技术碎片化导致线上市场碎片化,43%的欧洲人从未用母语之外的语言通过网络购买商品和服务,公共电子服务也受到国界的限制,欧盟丰富的教育文化资源仅限于同一语言共同体。开发新的语言技术可能促成个人、商业、公共机构之间的交流实现跨国、跨语言的无缝对接。[16]
[16]参见:http://www.rigasummit2015.eu/multilingual-dsm。
第二,数字时代欧洲语言白皮书系列显示有21种欧洲语言的数字资源严重不足,这些语言缺少许多方面的技术支持,有的甚至没有建立起语料库(Rehm et al. 2020)。
第三,语言技术的研发需要耗费大量的人力物力。例如,为了促进数字技术的发展,欧盟通过“数字欧洲计划”(Digital Europe Programme,2021~2027年,投入经费75.9亿欧元),大力支持超级计算、人工智能、网络安全、高级数字技能发展,保障经济和社会广泛使用数字技术。[17]欧盟曾资助“欧洲语言网”项目(European Language Grid,2019~2022年,投入经费746万欧元)创建语言技术主平台,供欧洲所有语言的数百项商业语言技术和非商业语言技术使用,平台旨在改进数字单一市场的设备运行与服务、数据集(data sets)及资源,以便解决语言技术碎片化问题。[18]
[17]参见:https://ec.europa.eu/info/funding-tenders/find-funding/eu-funding-programmes/digital-europe-programme_en。
[18]参见:https://cordis.europa.eu/project/id/825627。
第四,伊凡斯(Evas)指出,许多语言技术依靠不准确的统计方法,而没有利用更深层的语言学方法、规则和知识。句子的自动翻译将新句子与数千个以前翻译过的句子进行比较,这种方法用于样本量小的语言必然会失败。因此,下一代语言技术必须对语言的深层结构属性进行分析,这样才能保护语言,而不是危害语言。[19]
[19]参见:https://www.theguardian.com/education/2014/feb/17/languages。
第五,语言技术存在不平等问题。克服语言技术的不平等是欧洲社会面对的现实问题。根据欧洲议会特派调查员吉尔·埃文斯(Jill Evans,时任欧洲议会议员)(2018)的报告,保障欧洲语言平等还存在许多障碍,例如:
(1)欧洲缺少适当的政策,资源丰富型语言和资源贫乏型语言之间的技术鸿沟还在扩大;
(2)数字技术在过去十年对语言演变产生了难以估量的显著影响,有研究表明数字通信在侵蚀成年人的读写技能,产生语法和书写代沟,总体上在损耗语言;
(3)欧洲非通用语言在工具、资源和经费方面存在明显劣势,制约了研究范围,也影响语言技术充分发挥作用;
(4)通用语言和非通用语言之间不断加深的数字鸿沟、欧洲社会日益普及的数字化技术在信息获取方面产生差异,对低技能、低收入的老年人和困难群体尤其如此;
(5)虽然欧洲在语言工程技术方面有扎实的科研基础,但是市场分化、知识和文化投入不足、科研协调欠佳、经费欠缺、司法存在障碍,致使欧洲的语言技术相当滞后。当前欧洲的数字市场掌握在非欧洲机构和人员手中,没有考虑多语欧洲的具体需求;
(6)出于对市场规模的考虑,语言技术产品主要是英语版本,全球性生产商、欧洲生产商往往开发欧洲主要语言(如西班牙语、法语、德语)的技术产品,缺少考虑其他语言的技术产品;
(7)非通用语言需要语言技术相关方面的大力支持,包括音符字体设计者、键盘厂商、内容管理系统,以便正确保存、加工并显示这些语言的网页内容。
第六,由于以英语为核心的语言技术供应商主要为美国公司,欧洲面临一系列重要问题:
此外,语言技术还需要克服众多社会挑战,包括突破语言障碍,助力老龄化人口,辅助残障人士,方便移民与融合,增强个人信息服务和客户服务,促进国际合作与交流,保护文化遗产和语言多样性,丰富社交媒体和电子化参与,提高市场意识和客户接受度,打造一个数字单一市场、多种语言模式,保障欧洲安全(Rehm & Uszkoreit 2012:14~17)。由于欧洲的独特性和复杂性,有专家(Rehm et al. 2021)呼吁欧洲不要将多语通信和语言基础设施外包给其他大陆,欧洲应当支持并使用自己的语言技术。
(二)技术用于保护语言需要克服的困难
采用语言技术手段对语言进行保护,需要克服许多困难,其中比较突出的有语言保护思想不统一、语言数量众多、语言技术所涉语言学难题、技术质量,以及技术与语言保护的关系等。
第一,语言保护思想尚未统一。欧洲委员会(非欧盟组织)30年前就出台了《欧洲区域或少数民族语言宪章》(1992),但欧洲只有25个国家[20]批准接受宪章条款。
[20]25国为亚美尼亚、奥地利、波黑、克罗地亚、塞浦路斯、捷克、丹麦、芬兰、德国、匈牙利、列支敦士登、卢森堡、黑山、荷兰、挪威、波兰、罗马尼亚、塞尔维亚、斯洛伐克、斯洛文尼亚、西班牙、瑞典、瑞士、乌克兰、英国。
第二,语言本体研究是欧洲学界尚未克服的难题,阻碍语言技术的发展,进而影响语言保护。虽然建立数字单一市场属于欧洲的头等大事之一,但是,在解决许多其他问题后,语言本体问题依然是最后需要克服的障碍之一。没有解决语言本体问题的语言技术根本无法实现语言保护的目标,也无法真正完成数字单一市场的建设。
第三,需要通过技术保护数字空间的语言数量众多,大量基础工作需要语言学家和语言技术专家来完成。例如,许多欧洲语言缺少网页内容,不利于抓取语言数据和建设数据库。
第四,当前语言技术的质量和实用性与现实需求相差甚远,欧洲小语种在数字领域的研究还严重缺位,所有语言的技术支持还存在严重不足,英语在技术领域的优势使其他欧洲语言处于不利地位(Rehm & Uszkoreit 2012),降低了语言技术保护语言的效果。
第五,语言技术与语言保护是工具与目标的关系。即使有了语言技术,语言保护也需要其他方面的条件做保障,如传统的语言生活、消除英语的强势存在等。语言技术不是小族语言保护的唯一手段,更不能神化语言技术的语保功能,因为语言技术只是手段,不等于语言传承。小族语言传统上靠家庭和朋友间的聊天得以传承,如今的即时短信、电子邮件和社交媒体等在线交流采用书写形式,应用软件一般默认使用主要语言(特别是英语),这就使小族语言更加脆弱。[21]即便开发出了小族语言应用软件,小族群体是否会弃用英语、改用母语,很难预料。因此,开发出所有语言的技术是否能降低英语渗透力,达到保护小族语言的目的,还有待时间检验。
[21]参见:https://www.theguardian.com/education/2014/feb/17/languages;原文载:https://theconversation.com/minority-languages-fight-for-survival-in-the-digital-age-22571。
四、多语欧洲的语言技术与语言保护工作及自评
欧洲保护好多语并从中受益的唯一途径是语言技术(即自然语言处理与语音技术)(Rehm et al. 2021)。欧洲在利用语言技术维护语言多样性、保护小族语言方面所做的努力值得借鉴。
2022年1月26日,欧盟委员会提交欧洲议会、欧洲理事会、欧洲经济和社会委员会与欧洲地区委员会审议的《数字十年数字权利与原则欧洲宣言》[22]称,每个人都享有使用可信赖的、多样的多语网络环境的权利;欧盟将人民摆在数字转型的核心位置,技术服务于所有欧洲人。2022年2月7~9日“创新、技术与多语”论坛[23]在线上召开,法国文化部部长罗斯琳·巴舍洛致开幕词,该论坛汇聚了法国及欧洲的翻译、语言技术、数字技术和人工智能领域的政策制定者、从业者及利益攸关方,讨论技术在支持并促进欧洲多语制方面的作用。欧盟委员会根据《数字十年数字权利与原则欧洲宣言》的精神支持诸多项目,如“欧洲语言平等”项目(关于欧洲语言平等线路图的战略研究)和“欧洲语言资源协作”项目(收集所有欧盟语言、挪威语、冰岛语等语言数据,以支持eTranslation机器翻译系统开发)。
[22]参见:https://digital-strategy.ec.europa.eu/en/library/declaration-european-digital-rights-and-principles。
[23]参见:https://www.lr-coordination.eu/node/442。
这些是欧盟利用语言技术保护语言以维护语言多样性的最新举措。早在十几年前,欧洲就已经有大规模的语言技术研发项目,调动语言学、语言技术领域的力量,启动并完成了大量数字时代语言保护的研究工作。其中最具代表性的是推出了一系列数字时代欧洲语言白皮书的多语欧洲技术联盟(META)。正是他们的工作使欧洲的政策制定者、社会和学界对数字时代的语言技术和语言保护有了深刻的认识。
(一)多语欧洲技术联盟及其使命
多语欧洲技术联盟凝聚研究人员、商业技术供应商、私人或公司语言技术用户、语言专家、信息社会其他相关方的力量,推动语言技术发展,旨在实现将欧洲统一为数字单一市场和信息空间的梦想。[24]多语欧洲技术联盟有一个接纳机构(或公司、组织)通过网络加入META的路径,目前有1000多名入盟成员,涉及100多个成员国(人数和成员国数是动态的)。打造技术联盟的工作网为多语欧洲技术联盟网(META-NET),是一个由34个国家60家研究中心组成的、致力于发展多语欧洲信息社会技术基础的研究组织。该联盟开发的语言技术旨在助力跨语言交际与合作、保障任何语言的使用者平等获取信息与知识、开发网络信息技术功能。[25]
[24]参见:http://www.meta-net.eu/meta/about。
[25]参见:http://www.cracking-the-language-barrier.eu/organisations/meta-net/。
因此,多语欧洲技术联盟网有3条工作路径。第一,建设一个目标一致的、动态的、有影响力的团队,开发战略性研究项目。经过数百位专家的研讨,多语欧洲技术联盟网在2012年推出了《2020多语欧洲战略研究计划》(Strategic Research Agenda for Multilingual Europe 2020),旨在提高对欧洲语言技术领域的认识,使决策者在未来的政策制定中关注、支持语言技术研究。第二,创建资源共享与交流设施,为语言技术领域提供开放、广为分布、安全、互用的基础设施。共享的资源和技术按照优先顺序包括:口笔语语料等语言数据,语言相关数据(如口笔语自然语言发挥重要作用的其他媒介和模态),语言加工工具、标注工具、技术等,借助语言加工工具及技术的服务,评价工具、指标与标准、评测服务,整合互用服务的工作流程。多语欧洲技术联盟试图把各方力量纳入基础设施,如语言资源和技术供应商及用户、整合语言技术的企业和产品销售部门、语言专家、国际数据中心、语言资源存储单位、国家及国际语言技术政策制定者、语言资源和语言技术研究资助者等。[26]第三,搭建相关技术领域的桥梁,通过机器翻译创新研究将相邻的技术领域联系起来,主要关注4个方面的工作:机器翻译解决更多的语义问题,优化混合式机器翻译的分工,开发利用翻译所需的语境,建立机器翻译基地。
[26]参见:http://www.meta-net.eu/meta-share/index_html。
(二)工作自评及前景
从目前欧盟对语言技术的政策支持情况看,多语欧洲技术联盟的呼吁产生了显著效果。十年来,多语欧洲技术联盟也取得了不菲的成绩,出版了数字时代的32种欧洲语言白皮书。这些语言在机器翻译、语言加工、文本分析、语言资源等方面的语言技术应用水平上存在很大差距,各语言的数字化生存条件存在巨大差异,如表1[27]所示。
[27]本表根据数字时代的欧洲语言白皮书及多语欧洲技术联盟相关数据整合而成,数字赋值为本文作者所为,方便读者理解语言间的差异。数据参见META-NET网和Evas 2014,Melero et al. 2012,http://www.meta-net.eu/whitepapers/key-results-and-cross-language-comparison。
从该表的分值可以看出,没有任何语言的技术达到优秀程度。英语是4个方面的语言技术开发的最好的语言,其次是法语、西班牙语、德语、荷兰语、意大利语,其他语言与上述语言有一定的差距,甚至差距甚远,如马耳他语、冰岛语、拉脱维亚语、立陶宛语、威尔士语等均属于语言技术薄弱的语言,更不用说其他榜上无名的欧洲语言。单就机器翻译而言,英语的技术被定为良好,法语和西班牙语为中等,德语、荷兰语、加泰罗尼亚语、匈牙利语、意大利语、波兰语、罗马尼亚语为较差,其余为差。
80余种欧洲语言中有相当数量的语言面临数字化消亡的危险。多语欧洲技术联盟的顶尖语言技术专家在研究了30种欧洲语言后指出,有21种语言没有或几乎没有任何数字化技术支持。因此,欧洲议会在其“数字时代语言平等决议”中指出,虽然多语是欧洲最大的财富之一,但是有20余种语言面临数字化消亡(Stasimioti 2022)。甚至有报道称,互联网是语言杀手,冰岛语、拉脱维亚语、立陶宛语在网络上没有足够的语言使用者来形成网络牵引力。由于缺少足够的资源来驱动翻译工具、语音转换技术、语音控制技术发展,连德语、意大利语、西班牙语和法语也面临危机。[28]
[28] 参见:https://www.ecommercetimes.com/story/report-the-internet-is-a-language-killer-76261.html。
表1清楚地显示,欧洲32种语言(其中挪威语分书面挪威语和新挪威语)的技术没有做到平衡发展,名单之外的其他语言更缺乏相应的技术,技术缺位的语言在数字化生存方面将面临更大的困难。
为了克服上述问题,欧盟还在继续大力支持语言技术的开发。2022年3月1日“欧洲语言网”项目在领英和推特上宣布在其云平台上添加新的机器翻译模型,语言覆盖爱沙尼亚语、乌克兰语、荷兰语、英语、法语、德语、希伯来语、意大利语、匈牙利语、波兰语、葡萄牙语、俄语、西班牙语、土耳其语等等。该项目平台2022年1月已增容一倍,包含87种语言12 000余个语言技术资源库[29](Stasimioti 2022)。同为欧盟资助的“欧洲语言平等”项目(2018年9月获欧洲议会批准,项目时间为2021年1月至2022年6月)作为对数字时代语言平等问题的回应,考虑了多语欧洲技术联盟白皮书系列发现的问题,配合“欧洲语言网”项目,采用战略研究、创新与实施、路线图等形式,为2030年实现全欧洲数字语言平等目标,研制出“欧洲语言平等方案”(European Language Equality Programme)。该方案的研制联合了欧洲语言技术界、计算语言学界、以语言为中心的人工智能界,以及有关项目和协会代表、语言界和区域或少数民族语言团体。[30]由于这些新项目尚未到期,目前很难评估其保护语言的实质贡献。总之,语言保护的前景很大程度上取决于语言技术的成就。
[29]参见:https://slator.com/eu-funded-language-technology-platform-expands-language-coverage/。
[30]参见:https://libereurope.eu/project/european-language-equality-ele/。
五、结 语
欧洲在通过语言技术维护语言多样性方面所做的努力反映出两大类问题。第一,语言技术本身的问题,包括技术有待完善、发展很不均衡等,其中部分因素属于很难克服的障碍,如书写系统缺位、小众语言使用人口少、语言学研究缺位或不足、语言数据或资源不足等。第二,英语的渗透挤压了其他语言的数字生存空间,英语在语言保护和语言技术发展方面的优势成为打破语言不平等、建立欧洲数字单一市场的巨大障碍。正如《数字时代的威尔士语》(2014)的作者伊凡斯指出的那样,现在的绝大多数技术基础设施使用了英语,进一步强化了英语的通用地位,使小族语言面临更大的危险。[31]
[31]参见:https://www.theguardian.com/education/2014/feb/17/languages。
数字时代欧洲语言白皮书系列表达出一些共同期盼:(1)语言技术是核心增能技术,有助于克服语言多样性造成的障碍;(2)语言技术有助于减少非英语母语者的个人劣势和经济劣势;(3)欧洲需要为其所有语言开发出强大且价格合理的语言技术;(4)技术进步有待加速;等等(Melero et al. 2012)。虽然欧洲是经济发达地区,语言技术实力雄厚,但是从目前取得的成绩来看,通过语言技术破除交际障碍、保护所有欧洲语言,依然任重道远。尽管如此,欧洲通过语言技术保护语言的理念和做法、遇到的问题等具有重要的参考价值。
该文刊发于《语言战略研究》2022年第4期,参考文献从略,如有需要请参照原文。
编排:韩 畅
审稿:王 飙 余桂林
相 关
推 荐
主持人语|李宇明,王春辉:从数据到语言数据王春辉:语言数据安全论
王海兰:试论语言数据的经济属性
张凯,薛嗣媛,周建设:语言智能技术发展与语言数据治理技术模式构建
《语言战略研究》2022年第4期目录与提要《语言战略研究》2022年第3期目录与提要《语言战略研究》2022年第2期目录与提要《语言战略研究》2022年第1期目录与提要
约稿启事丨“语言与跨国公司”专题 约稿启事丨“儿童语言教育”专题 约稿启事丨“海峡两岸语言问题研究”专题