本文转载自“语情局”公众号(ID:gmyuqingju)
随着5G、语言智能和物联网的快速发展,人类社会正在发生划时代的变化。人类的认识也应随着时代进步而不断更新,重新审视已然,及时预判将然。语言究竟是一种什么现象?语言学究竟如何发展?就是需要审视、需要预判的。一、数据具有生产要素性质 生产要素与生产力发展水平和经济制度密切相关。数据具有生产要素性质,只有信息化发展到一定阶段才能成为现实,才能被人认识。 早在2017年12月8日,中央政治局第二次集体学习,习近平总书记就提出“要构建以数据为关键要素的数字经济”。之后,在2018年4月13日“首届数字中国建设峰会”的数字经济分论坛上(福州),在2018年5月26-29日中国国际大数据产业博览会上(贵阳),在2018年9月25日江苏互联网大会上(南京),在2019年12月10日第六届中国国际大数据大会上(北京),都突出了“数据是数字经济的关键要素”的话题。特别是在2018江苏互联网大会上,工业和信息化部总经济师王新哲在致辞中强调,“以数据作为关键生产要素的数字经济正在成为继农业经济、工业经济之后的新型经济形态”。至此,人们获得了两个基本认识:1.数字经济是继农业经济、工业经济之后的新型经济形态;2.数字经济的关键生产要素是数据。 2019年10月28-31日,中国共产党十九届四中全会召开。全会提出,“健全劳动、资本、土地、知识、技术、管理、数据等生产要素由市场评价贡献、按贡献决定报酬的机制”。这是对数据具有生产要素性质这一认识的总结,把数据与“劳动、资本、土地、知识、技术、管理”并列为第七大生产要素,可以通过市场“按贡献取酬”。这是重大的理论创新,体现着对信息化社会的本质认识,是在数字经济快速发展背景下经济制度的与时俱进。二、语言数据是最为重要的数据 一般认为,数据是信息的表现形式和载体。随着科技与社会的进步,数据的内涵和外延都可能会发生变化。但有一点现在是可以肯定的,那就是多数数据都是“语言数据”。其一,语言(包括文字)是人类信息最为重要的载体,大约80%的信息是用语言负载的。没有用语言负载的信息,也常常需要语言来帮助阐释,比如图画、雕塑、音乐、服装、建筑等艺术。其二,语言资源本身也是语言数据。语言数据是最为重要的数据,应当属于“生产要素”范畴。 2019年12月17日,“第二届语言智能与社会发展论坛”在北京语言大学举行,论坛主题为“智能写作的社会影响及其伦理、法律问题”。闭幕式上,李宇明从十九届四中全会精神谈及“作为生产要素的语言数据”问题。2020年5月17日,那顺乌日图教授领衔成立“东北亚语言资源数字化平台”,李宇明作为平台学术委员会主任在“主任寄语”中写道:“语言数据是信息时代的生产要素,如同土地之于农民,机器之于工人,计算机通过对语言数据的加工学习可以获得知识与智能,从而去创造人类的新生活。”随着语言智能的发展,语言数据的生产要素属性定会越来越清晰。三、语言数据应纳入“新基建”和数字经济视野 20世纪50年代,人类就开始进行机器翻译的尝试,训练机器进行语言信息处理的进程由此开始。中文信息处理经过字处理、词处理阶段的艰难行进,已顺利步入话语处理阶段,努力让计算机具有语言智能。信息检索、自动翻译、机器写作、人机对话等领域的快速进展,得益于语言大数据的集聚与应用。 语言是人类独有的符号系统,这是语言学的经典认识。但是随着语言智能的发展,语言将为人类和机器这两个“物种”共同享有。如今重要的语言交际,多数都是“人-机-机-人”的交际,是“人-机”、“机-机”“机-人”的合成,疫情期间的云端会议、线上课程、网络购物、网上就医等,都属于这种交际模式。如果与“人形机器人”对话,机器拥有语言这一现象,就会看得更为明显。随着物联网的发展,只要在需要驱动的目的物上植入“语言感应器”,人就可以通过具有语言智能的机器与万物关联,与万物对话,使万物具有“语言智能”。 2018年12月19-21日,中央经济工作会议在北京举行,会议重新定义了基础设施建设,把5G、人工智能、工业互联网、物联网定义为“新型基础设施建设”,简称“新基建”。一年多来,新基建的内容不断丰富,面貌逐渐清晰。新基建不仅是信息网络等的基础设施建设,还应当让基建物具有“智能”,特别是具有语言智能,以便实现人与万物的关联对话。 与信息相关的产业,有许多是语言产业。在较高的工业化时代,据瑞士语言经济学家的研究,语言产业为社会JDP的贡献近于10%。信息化时代,数据可以成为生产要素的时代,语言产业的经济能量会大幅提升,可以预测,没有语言产业的繁荣,发展不出繁荣的数字经济。 未来,也许是不久的未来,语言数据将成为重要的生产要素,语言将进入重要的生产力范畴。集聚、管理语言数据并使其发挥最大作用,将成为发展生产的重要任务,语言产业、语言职业将成为数字经济的一方重要支柱。四、语言与物理、社会、信息“三元空间” 人类形成之前,世界就是自然界,只是一个“物理空间”。人类的形成与发展,便在物理空间中生长出一个“社会空间”。语言与社会空间一起成长,大约距今3-5万年前的旧石器时代,人类已有较成熟的口头语言,口语的载体是声波。大约距今5000-5500前,文字在两河流域产生,语言有了新载体光波。20世纪20年代,广播、电视相继出现,有声媒体使语言有了第三大载体电波。20世纪末,互联网商业化,语言信息处理也快速进步,人类开始建构一个新空间——“信息空间”①,也就是常说的“虚拟空间”“网络空间”。2019年11月3日,潘云鹤院士在中国人民大学做《人工智能2.0与数字经济》报告,敏锐指出人类正由传统的“物理空间”“人类社会”二元空间,逐步进入了“物理空间”“人类社会”“信息空间”所构成的三元空间。刘挺教授在“第二届语言智能与社会发展论坛”上也阐述了“信息空间”问题。 信息空间是一个正在发展的空间,其结构和运行机理还在被逐步认识中,还在被逐渐完善中。但有一点相对明确,那就是信息空间主要是被数字化了的语言空间。语言过去是在社会空间中使用,如今是在社会空间、信息空间这两个空间中使用。随着物联网、语言智能的发展和“智能化新基建”的实施,语言将跨入物理空间,在人类的三元空间中运用。语言在人类生产活动的作用将更为显著。五、语言学的“新文科”之路 语言已经不仅仅是人文现象,它是“具有声光电三大媒介、为人类与机器两个‘物种’共享、将应用在社会、信息、物理三元空间中”的事物。语言学作为“研究语言及其相关问题”的科学,也不能局限于“语言文学”,而应当是横跨文理工的综合学科。 2017年10月,美国希拉姆学院提出“新文科”的教育理念,对其29个专业重组,把新技术融入哲学、文学、语言等课程中。这反映了学科交叉融合的时代大趋势。我国也在积极推进“新工科、新医科、新农科、新文科”建设。根据语言的性质,就应当依照“新文科”的思路发展语言学。综合、交叉、融入新技术的语言学,才能够适应“数据是数字经济的关键生产要素”的时代命题和经济制度,促进知识经济的发展,推进“智能化新基建”的发展。当然,新基建和知识经济的谋划者,也应当充分重视语言和语言学,获取语言学的科学红利。①注:“信息空间”这一名称,大家还有不同意见,有专家认为称为“智能机器空间”更合适。这样的话,“三空间”就是“人—机—物”,语言和信息都将横跨这三空间。
作者简介:李宇明:教授,北京语言大学语言资源高精尖创新中心主任兼首席科学家,中国辞书学会会长,中国语言学会语言政策与规划专业委员会会长,中国中文信息学会副理事长,国际中国语言学会(2016年-2017年)会长,《语言战略研究》主编;主要研究领域为理论语言学、语法学、心理语言学和语言规划学。