李宇明:语言技术与语言生态
本文转自公众号:语言科学
提要:语言技术是指对语言及其衍生品进行辅助与加工的各种技术,自人类创制文字以来,经历了印刷术、有声媒体、网络等语言技术高峰,而今正攀登第五个高峰,即语言智能。本文从三个角度观察这些语言技术对语言生态的影响:1) 语言自身的生命状态;2) 语言及语言变体之间的生态状况;3) 人、社会等与语言相关的生态环境。研究表明,语言技术对语言生态的影响巨大而深远,强势语言更强势,弱势语言更弱势。因此,本文主张采取一定的措施来维护语言生态。
关键词:语言生态;语言技术;影响1
引言
语言生态学兴起于 20世纪中叶,是研究“语言的生态”和“语言与生态”的学问,有“豪根范式”和“韩礼德范式”之分。1972年,美国斯坦福大学教授豪根(Einar Haugen)提出“生态语言学” (Ecolinguistics)的概念,把语言和言语社团的关系比喻为生物和自然环境的关系,语言生态学要研究的就是“任何特定的语言与其环境的相互作用”(黄国文 2016) 。这种后来被称为“豪根范式” 的关于“语言的生态”的研究, “生态” 是比喻用法,把语言比喻为生物。1990年,国际应用语言学大会在希腊的塞萨罗尼基举行。韩礼德(M. A. K. Halliday) 在会上作了一个很有影响的报告,讨论语言系统与生态系统的关系。这种非比喻性质的关于“语言与生态” 的研究,远超出传统意义上的语言学范畴,形成了“韩礼德范式”。黄国文(2016) 指出: “‘韩礼德模式’强调语言在各种生态问题中的重要作用,突出语言学家的‘社会责任’,提醒语言学家要记住自己在环境保护方面能作出哪些工作和贡献。采用韩礼德模式的学者中,有相当一部分人从话语批评角度审视人们赖以生存的话语,包括对日常生活中语言使用的批评性研究和语言系统的生态特征和非生态特征研究,同时通过改变语言系统模式和语言使用方法,使得语言更适合于自然生态系统,使语言系统与生态系统更加和谐。”
将语言与生物相联系相比附,是语言学的传统。姚小平(2011)指出,早在19世纪中叶,历史比较语言学家就把语言看作有机体,在语言的历史发生和变化发展的全过程中,能够观察到生命有机体所具有的一般规律,即“逐步演化、自然选择、适者生存”。历史比较语言学的代表人物施莱歇尔(A. Schleicher) 说: “语言是自然有机体(Sprachlieche Organismen) ,其产生不以人们的意志为转移;语言根据确定的规律成长起来,不断发展,逐渐衰老,最终走向死亡。我们称为‘生命’的一系列现象,也见于语言之中。”将语言划分为语系、语族、语支、语种,用树状图来勾勒语言的谱系关系,都是受生物学的影响。这些影响,从葆扑(Franz Bopp) 、雅可布·格林(Jacob Grimm) 等人的论述中都可见到,可见是一时之风气。直到当代的乔姆斯基(Noam Chomsky),仍把人类的语言能力归结为受遗传因素决定的、人类普遍拥有的、主要表现为句法递归的先天生物学机制,着力强调语言的生物学属性。
本文的研究属于豪根范式,探讨语言技术对语言生态的影响。语言技术,是指对语言及其衍生品进行辅助与加工的各种技术。语言是人类用于交际和思维的最为重要的符号系统;语言衍生品是帮助语言或配合语言发挥功能的相关符号系统,如各种音标、数学符号与公式、交通标识、手机用的表情包等;语言活动是一个由“编码、输出、传递、(翻译) 、输入、解码、贮存、反馈”等环节构成的交际过程;语言技术不仅是处理语言符号及其衍生品,更是对语言交际过程的辅助与处理。关于语言的生态,可以从多个角度进行观察和描写(张先亮 2018),本文主要从三个方面进行观察: 1) 语言自身的生命状态,主要是语言发挥功能的情况; 2) 语言及语言变体之间(语言之间、语言与其变体之间、语言变体之间) 的生态状况; 3) 与语言相关的生态环境,主要是使用语言的人和社会,也包括语言意识、语言政策、语言教育与传承、文化发展等。
2文字和印刷术对语言生态的影响
文字是人类发明最早、影响最大、使用至今的语言技术。文字之前曾有过结绳记事、文字图画等“语言技术” , 但较少信史记载,也没有对语言生态产生重大影响。
2. 1文字对语言生态的影响
文字如何产生的,仍是个没有确切答案的科学问题。中国古有“仓颉造字”的传说。《淮南子· 本经训》: “昔者仓颉作书而天雨粟,鬼夜哭。” 《说文解字》序: “ 黄帝之史仓颉,见鸟兽蹄爪之迹,知今之可相别异也,构造书契。”传说未必当真,且也不一定能够解释比中国文字更早的楔形文字的起源。丹妮丝· 施曼特—贝瑟拉( Denise Shmandt-Besserat)的《文字起源》(How Writing Came About, 1992/2015),对中东地区116个遗址中出土的8000多个陶筹进行了分析,提出“由陶筹而文字” 的主张,认为世界上最早的楔形文字起源于计数用的陶筹。黄德宽教授( 2015: Ⅳ- Ⅴ)指出,这一观点被一些同行认为是迄今为止最能自圆其说的有关文字起源的新理论。
人类文字大约产生在距今5000—5500年前。两河流域的楔形文字(亦称“ 丁头文字” ) 、古埃及的圣书文字和中国的汉字, 是人类三大古典文字。周有光(2011: 49- 63)指出,苏美尔人( Sumer) 首创楔形文字, 大约在距今5500年前,楔形文字就以成熟形态存在了。埃及文字可能稍晚一些,但在距今 5100年前埃及国王美尼斯( Menes) 统一上下埃及时,埃及文字已经成熟。汉字若从甲骨文算起,已有3300来年的历史,但在距今5000多年的仰韶文化遗址中,如西安半坡、临潼姜寨等地,就出土了数十种几何形符号,这些符号具有汉字萌芽的性质(黄建中、胡培俊 1990: 69-73) 。今天世界仍在使用的文字可以分为两大系统:其一,由楔形文字演化出来的拼音文字系统,包括阿拉伯文字、古希腊文字、拉丁字母、基里尔字母、印度天城体字母等;其二,汉字及受其影响产生的日文、朝鲜文/ 韩文等(伊斯特林 1987) 。
有无文字,语言生态开始出现两大分野。文字对语言生态的影响主要表现在:
1) 文字使语言拥有了光波载体,形成书面语的典范。书面语打破了空间和时间对口语的限制,语言信息可以横至八荒,纵传万代。书面语可以修改雕琢,文章修改润饰的经验能够作为知识传授,这便有了语文教育的基础,社会语言水平有望自觉提升。修改润饰而产生的优秀文章, 同代可作模本,后世可为典范。自此,民族文化便有了经典,民族语言便树起规范。书面语产生之后,也产生了“识字人”这样的文化群体,“识字人”可以根据不同的语言使用场合,有意去形成不同的语言风格,进而形成不同的文体,如典雅的公文、飘逸的散文、律动的诗歌等等。文体的形成及其不断分蘖繁茂,形成适应各种不同语境的交际变体,这是语言功能丰富发展的重要标志。
2) 带来语言生态环境的重大变化。“识字人”是专门处理知识之人,收集、整理、阐释、传授知识。语言与知识互为“表里” ,整理、阐释、传授知识的过程,也就是整理、阐释、传授语言的过程。由于文字的出现,人类的生活模式也发生巨大变化。没有文字,社会只有口头契约,人类社会的约定在不依靠“字据”的情况下是如何实施的? 《荷马史诗》等在没有文字的时代是如何记忆传承的?这还是待揭之谜。然而有了文字,有了“字据”,有了法律条文,人们的契约活动可以“以文行事”。史诗可以用文字记录下来,供人传唱。有文字与没有文字的人类生活,差异巨大,人类的历史由传说阶段进入有文字记载的信史阶段,告别“野蛮”而开始撰写人类的文明史。
有文字,其语言未必能强大;但没有文字,其语言不可能强大。一些走上统治地位的无文字民族,都主动创制文字,比如中国历史上的契丹、西夏、辽、金、蒙、满等,东亚的日、朝/韩、越南等。后创文字多非凭空而生,而是借用其他文字或是借鉴其他文字,形成“ 借源文字” 。两河流域的楔形文字,传至印度形成天城体文字;传至希腊形成拼音文字,传至罗马,形成罗马一系的拼音文字;再东传至斯拉夫地区,形成基里尔字母,产生了各种斯拉夫文字。朝鲜半岛、日本、越南(字喃) 的文字都是借源文字,其“源”就是汉字。文字转借的背后是文化的借鉴,源文字的文化常常深刻影响借源文字的文化。
2. 2 印刷术对语言生态的影响
印刷术是帮助书面语传播的重要语言技术。墨、纸、雕刻、拓片、印花工艺等的发明与使用,“识字人”群体的读书需求,促成了雕版技术的出现。雕版起于隋,行于唐, 盛于宋。北宋庆历年间(1041—1048),毕昇发明了泥活字,后人又有锡活字、木活字、陶活字、铜活字、铁活字等。毕昇的活字印刷术400年后辗转传至欧洲,1440年前后, 德国人约翰内斯·古腾堡(Johannes Gensfleischzur Laden zum Gutenberg)将当时欧洲已有的多项工业技术整合,发明了铅合金印刷术,并很快传遍欧洲。据说在此后的50年中,用古腾堡印刷术就印刷了三万种印刷物,计有1200多万份印品。到激光照排技术的出现,印刷术已经融入现代语言技术中。近千年活字印刷术对语言生态的影响巨大:
1) 拥有印刷术的语言,会发展为规范而强大的语言。因印刷的需要,字母表必须定型,正词法必须规范。这种要求也促进了读音与词汇的规范,从而使语言更加规范。而且,印刷术催生了报纸,报纸的诞生与发展,产生了新闻、消息、社论、广告等新文体及大众文学,增强了语言的使用功能。
2) 切出语言边界,促进语言认同。在使用拼音文字的欧洲世界,印刷术的出现更明确地区分了不同的语言。现实生活中,语言是一个连续统,相邻村落一般都能相互交际,印刷术因使用不同的字母表而将这种语言连续统切分为段,形成不同语言的边界,促成了语言认同。语言认同也帮助民族身份的认同和民族国家的建立,进而形成“一种语言、一个民族、一个国家”的“传统国家”的等式关系。苏· 赖特(2012) 等人认为,在印刷术使用之前,欧洲对语言、对民族、对国家的认识还是相对模糊的。印刷术增大了语言之间的差距,有文字的语言与没有文字的语言、城市语言与乡村语言、官方语言与没有官方地位的语言、国际洲际流行的大语言与小语言之间的“语言力量”越来越悬殊。相应的,强势语言对弱势语言不断形成压力,一些语言的功能空间乃至生存空间被严重挤压,弱势语言的生态严重恶化。
3) 打破知识垄断。印刷术问世之前,书籍只为少数文化精英所有。印刷术大大提高了书籍复制的速度,降低了制书成本,使书籍可以快速而广泛地传播。知识不再被极少数人所垄断,识字人读书的机会大大增加,文盲识字的机会大大增加。特别是报纸,能把当下发生的各种新闻及时向社会传播,引车卖浆者流也可以了解天下事体。时事的流布,知识的普及,百姓的知情,媒体的舆论,必然带来社会的巨大进步,反过来又进一步扩大了读书的人数与需求,提升了书面语产生的数量与质量。
3广播、电视对语言生态的影响
1895年,人类发明了无线电传送技术,不久又研制出无线电发射与接收设备。20世纪20年代,广播电台出现并投入应用。1924年,英国的约翰·贝尔德(John Logie Baird)发明电视机,1928年,美国 RCA 电视台播出第一套电视片。此后,用无线电处理语音、图像的技术不断获得重大突破,随着广播和电视的制作技术、传输技术及其终端接收设备的普及,广播、电视相继进入寻常百姓家,人类开始步入有声媒体时代。
广播、电视等有声媒体的产生,是继文字创制、印刷术发明之后的第三大语言技术,使语言拥有了“ 传声传影” 的电波媒介物。电波不仅与声波、光波共存并用,而且还把这两种传统的语言媒介物电波化,对口语、书面语功能在新媒介条件下不断放大,不断有新发展,从而对语言生态发生了超过以往的巨大影响:
1)大幅度提升口语的功能。播音口语是有书面语支撑的口语,比自然口语的质量要高得多。播音语言有一系列语言使用特点,随着各种节目的表达需要会形成不同的语体(文体),比如正式的播音语体、主持人语体、体育解说语体等等。语体(文体)的分化,使语言的表达功能更为丰富。且电波语言速度快,传播远,形式多样,传播人群更具针对性。特别是电影、电视第一次把语言交际的现场重现,图像、字幕、语音三媒体同用,语言表达效果赫然增强。语音时代、文字时代,交际现场都是描述的,而现在可以直现,这是个巨大进步。
2)传播标准语音。在有声媒体出现之前,语言的标准音主要是通过教学、演艺和人员交流来传播。而广播、电视一般都用标准音播音,甚至政策规定其必须使用标准音,播音员、演员成为人人可得的标准音教师。方言与共同语的第一差别是语音,标准语音的强力传播特别是对农牧区的传播,再加上教育的普及,会加快方言的衰微。日本的国语普及质量,广播电视起了很大的作用(王璐2020) 。我国的普通话也是在广播电视普及之后才逐渐普及的。
3) 外语教育更加有效。广播、电视不仅有外语教学节目,而且有大量的外语影视节目,极大地方便了外语学习。外语学习的语种基本上都是世界上最为流行的,这为区域、国际的大语种传播提供了前所未有的机会与条件。英语的世界普及呈现乘方般的速度,与广播、电视的普及有较大关系。
4) 频道和听众(观众)决定语言生态。没有广播、电视的语言(方言) ,便失去了媒体话语功能。广播、电视偏向权威、偏向规范、偏向少数语言,使强势语言更强势,弱势语言更弱势。当前,世界科学用语、高等教育用语、国际会议用语、国际交流用语、国际新闻源用语等向着单一化的方向发展,语言压力从国际到国家到地方一级一级传递,导致多数语言社会处在焦虑之中,多数语言出现濒危状态。
4网络、语言智能对语言生态的影响
20世纪 60年代,计算机网络开始出现,到90年代形成商业化的互联网。商业互联网发展迅猛,时时出人意料,由特殊用途迅速进入日常生活,由 2G发展到 5G,将整个人类都带入计算机网络时代。
4.1网络对语言生态的影响
网络是信息技术的产物。网络上运行的信息绝大多数是语言信息,由此更可以说,网络其实是语言网络,网络构造及网络信息运行的技术,许多都可以看作是“语言技术” 。网络是语言技术发展的第四座高峰,极大地增强了语言的功能,极大地改变着语言的生态。
1) 语言新建一个生存空间。网络发展就是一次“ 空间大挪移” ,现实世界的事务都希望在网络上运行,现实世界的事物都要在网络里有一个新居所。过去语言只有一个空间,现在拥有了网络和现实两个空间。理论上说,现实空间的语言都有资格、有可能进入网络空间,但事实上有机会进入并能长足发展者不多,只有若干强势语言才有可能成为网络的常用语言,多数语言只能在非流通领域(比如文化、文学、学术认知) 存在,甚至只是语言的保存标本。而且,由于网络无边界,网络的流通语言会比现实空间更趋单一化。网络空间会影响现实空间的语言生态, 因此也使现实空间的语言运用更趋单一化。
2) 网络语言出现许多新特征。20世纪末以来,陆续生长出一大批网络新媒体,如网络新闻、BBS、博客、微博、 短信、QQ、飞信、微信、微信公众号、微电影、以抖音和快手为代表的短视频;书刊、报纸、广播、电视等“传统媒体” 也主动或被动地移居网上,几乎都办起了自己的网络版。各种网络新媒体和迁来网上的传统媒体,酿造了生机勃勃的网络语言生活。网络媒体日新月异,呈现三大特点: (1)“融媒体”方向。人类以往创造的所有信息负载方式,几乎都网入互联网中,使互联网成为一个“全媒体” ,一个超级的语言数据库和功能平台。而媒体聚合在一起,由加合逐渐走向融合,形成“ 融媒体” 。融媒体的最大特点就是“融合”与“关联” ,不同媒体手段的融合,不同的数据库、数据库各有关方的相互关联; (2) “ 碎片化” 倾向。互联网产生的许多新媒体,多是篇幅受限的“微媒体”,适应于传播碎片信息,或者将大片信息碎片为微。人们也逐渐形成用碎片化时间来传播信息、接收信息和处理信息的习惯。碎片化的好处是信息来源广泛,交流及时快捷,但对于知识建构和深度思维有何影响,还需进一步观察; (3)“自媒体” 性质。出版社、杂志社、报社、广播台、电视台等,一般都有一支专职队伍,都有关于出版、播出内容的审校制度,甚至还有一套严格的“守门” 程序。而博客、微信等网络新媒体,多是即兴、及时地自采自编自发。没有“新闻守门人”的自媒体,使网络语言交际似乎回到了人类交际的自然状态。
互联网将不同媒体关联在一起,也将世界关联在一起。互联网上的通行语言会逐渐减少,并影响现实空间的语言状况。强势语言愈来愈强势,但是由于网络自媒体的作用,也会使各种语言风格得到体现,给各种语言、方言留些空间。
4. 2 语言智能对语言生态的影响
语言智能是人工智能的重要组成部分,指的是机器具有人类语言能力。语言智能的内在机理尚难描绘,但外在的评价标志就是机器能够与人顺利对话,起码能够像普通成年人那样对话。当然,要实现这一目标还有很远的路程要走。
人类处理语言、让机器具有语言智能的努力比网络早,早在20世纪50、60年代就开始了。但其真正发展是伴随着网络成长而快速发展的(刘云、肖辛格 2019) 。语言智能是目前语言技术发展的最前沿,是人类语言技术发展的第五座高峰,对语言生态的影响将更加显著:
1)机器拥有了人类语言。人类语言是人类的专利,而机器的语言学习获取一定进展后,语言就为两个“ 物种”所拥有了。机器参与语言生活,带来了两种新的语言交际模式: (1) “人—机—人”的混成式交际; (2) “机— 机”交际。“人—机—人”的交际中一般都含有“机—机” 交际,准确地说, “人—机—人”交际应为“人—机—机— 人”交际。“人—人”的传统交际模式逐渐成为“奢侈品” ,“人—机—人” (或“人—机—机—人”) 成为交际常模,人类的语言使用习惯和写字成文的习惯正在逐步改变。
机器的语言活动能力逐渐发展,可以进行语言翻译、信息检索、写作、与人对话等,并生成大量的带有机器特点的语言数据。机器的语言活动是利用网络语言数据进行的,现在的网络语言数据在意识形态、语言文明等方面已经存在“污染”,任何从事语言信息处理者都需用较多功夫去进行“ 数据清理” ,以免Garbage in, garbage out“ ( 喂进垃圾,产出垃圾) ” 。而这些“带有机器特点” 的语言数据再并入网络数据中,就会带来网络数据的更大偏离。
2) 语言使用有了新要求。过去的交际主要是“ 人—人”交际,可以“裸装备”进行,而现今的“人—机—人” (或“人—机—机—人” )交际就需要拥有一些新装备,掌握现代语言技术,适应新的交际对象。特别是要有与机器人交往共处的准备,人们要创造条件进入语言产业、从事语言职业,防止自身被信息边缘化(李宇明 2017b) 。
3) 语言数据成为生产要素。在大数据时代,数据成为一种重要的生产要素,就如同土地之于农民、机器之于工人。数据的主要载体是语言,绝大部分数据都是语言数据。语言产业、语言职业成为数字经济的重要力量。当前,我国正在推进新型基础设施建设,“新基建” 指的是人工智能、工业互联网、物联网等新型基础设施建设,而其关键是“有智能”,当然包括语言智能。万物互联的基础和理想状态,是人要同“万物”对话。当语言数据可看作生产要素时,当语言不仅是与人沟通而是与物沟通时,语言就进入了生产力的范畴,语言生态的变化就直接涉及生产力的强弱这一人类重大问题了。
5结语
人类语言技术的发展经历了文字、印刷术、有声媒体、互联网四个高峰,而今正在攀登语言智能的新高峰。文字使语言具有了光波媒介,打破了口语的时空限制,推动社会进入文明时代。印刷术是帮助书面语传播的重要语言技术,传播了语言规范,发展了文体,普及了文化知识,促进了语言认同和现代民族国家的建立。广播电视等有声媒体使语言具有了电波媒介,传播了口语标准,发展了语体,口语和书面语相互转换成为常态。互联网为人类构造了一个虚拟的新空间,把各种媒体聚合起来、融合起来,把各种信息源(人)连通起来,把各种信息快速集聚起来、扩散出去,形成了一种全新的语言生活。语言智能是已经迈步而起的威力更大的语言技术,它将人类语言分享给机器这一新“物种”,人与机器的语言交流成为常态, 在物联网、大数据的帮助下,人通过语言实现与机器与万物的关联。纵观5500年来的语言技术发展,它使语言具有了声、光、电三种媒介物,拥有了现实与网络两个空间,为人类与机器两个物种分享与合作。
语言技术的每次进展,都对语言生态发生巨大影响。首先是获取语言技术的语言,就能获取巨大的发展能量,拥有新的媒介物和语言技术装备,发展不同的语体文体而使语言功能愈发强大,建立并传播语言规范,建立起强大的语言声望并拥有越来越多的使用者。
其次,语言技术使语言不断获取竞争优势,这种优势一方面使自己不断强大,发展出全国性的、跨地区的、国际上的大语言;另一方面也不断对相关语言及语言变体发生影响,挤压它们的功能空间和生存空间,使世界语言出现大面积濒危。网络和语言智能对于濒危语言的保存保护提供了便利条件,但是能够在流通领域发挥作用的语言越来越少,多数语言都可能退出流通领域,而在文化等领域发挥作用,或是作为语言样本保存下来。能够保留在流通领域的少数语言,是那些富有先进科技含量、先进思想含量、丰厚文化含量和拥有先进语言技术的语言。
最后,人类的语言习惯会发生重大变化。单言单语人逐渐少见,多言多语人成为人类常态。口语可以“裸装备”进行,随着年龄的发展会自然习得,而读书写字、听广播看电视、上网络、与机器交际等,都需要各种“ 语言装备” ,需要进行特定的语言学习,包括书面语学习、标准口语学习、外语学习和语言技术学习。随着语言学习和语言技术的重要性不断提升,一批新型的语言产业、语言职业快速发展起来,成为数字经济的一方支柱。语言技术在推进一些语言不断发展强大之时,也推进着社会语言生活的快速进步,知识普及,信息快速集散,不同文化充分交流互鉴,人口的世界流动等。语言帮助人类在虚实两个空间中生活,并开始通过具有语言智能的机器与万物关联。
影响语言生态有许多因素,如人口大流动、不同语言文化间相互影响等,但语言技术对语言生态的影响更直接、更巨大。语言技术已经与语言的使用绑定在一起,与使用语言的人绑定在一起,与社会的运行和发展绑定在一起,因此语言技术对于语言生态的宏观影响,比如强势语言更强势,弱势语言更弱势,比如未来只有少数语言留在流通领域等,这些都是无法回避、无法祛除的。当前人类所能做的,也是应该做的,有三件大事:
第一,提倡多语主义,让儿童从小就把自己的母语或方言掌握好,入学后再去学好国家通用语和外语,维护语言多样性,延缓语言濒危和语言单一化的趋势。
第二,利用现代语言技术把人类的7000余种语言样本保存下来,就像建立世界的物种库、基因库一样,建立人类的语言样本库。
第三,在语言智能时代,要重视机器的“ 伦理” 问题,特别是“语言伦理”问题。比如,保证永远不伤害人类,不肆意污染语言数据,不主动破坏语言生态等。要让计算机具有语言智能不易,要让它具有“语言伦理” 更不易,但这是必须的。
作者简介
本文来源:《外语教学》
点击下方标题查看近期热点消息
投稿请发送至邮箱:tjglobalgovernance@163.com
语言与全球治理
审核:沈 骑
编辑:康铭浩