人工智能时代下语言学研究的理念与取径
The following article is from 华东师范大学学报哲学社会科学版 Author 郑伟, 尹嘉怡
人工智能时代下语言学研究
的理念与取径
文 / 郑伟, 尹嘉怡
01
摘要
✦
人工智能这一使用计算机模拟人类智能表现的学科始终有着探索发现人类心智及语言能力的需求和愿望。人工智能发展的历程是机器语言与自然语言相互助益而又相互博弈的历程。人工智能以程序语言为工具,程序语言是人类自然语言的简化版本。在语言问题的探索上,语言学与人工智能两个学科分别从不同的路径出发,推动了对于人类语言的认识。近几十年来计算机硬件技术的高速发展,使得人工智能成长为庞然大物。人工智能的影响力不仅仅是它无处不在的技术和产品,而且也在于人工智能所倡导的研究思想和方法对其他领域的影响。当代语言学无疑会受到这一思潮的冲击,而如何在人工智能时代坚持搜集一手语料的研究初衷,并借助大数据思路和现代科学手段,结合生理学、心理学、认知神经科学等跨学科的探索思路,是语言学研究者今后需要关心和努力的方向。
02
关键词
✦
人工智能, 心智, 语言学, 语言能力, 生物基础
03
作者简介
✦
郑伟,华东师范大学中文系、语言认知与演化实验室教授.
尹嘉怡,华东师范大学中文系、语言认知与演化实验室博士研究生.
目
录
一 人工智能、心智与语言
二 探索语言的两种路径:
语言学和人工智能
三 语言学研究的人工智能与跨学科取径
一 人工智能、心智与语言
✦
1956年,“人工智能”(artificial intelligence,简称“AI”)这一概念在美国达特茅斯会议上被正式提出,在此之后的近七十年里,人工智能已经由一个新生领域迅速成长为21世纪的时代主题之一。人工智能的出现和崛起伴随着计算机科学各领域的高速发展,短短几十年间,它们共同打造了这个时代的特殊行为方式,甚至塑造了带有鲜明时代特征的思维模式。如今,弱人工智能阶段结下的硕果使得人们对于强人工智能时代的到来充满了幻想。然而,拥有心智的强人工智能可能不会如期而至,通往通用人工智能的道路尚不明晰,其中最关键的原因就是人类对于自身智能和心智的了解还十分有限。
另一方面,在人类对于自身智能的探索中,语言问题始终是其核心之一。就目前的知识水平而言,我们认为语言不但是人区别于其他动物的“高级”行为,更是人的思维工具,同时还是人反观自身心智(mind)的窗口。只有人类了解清楚自身的运行方式,机器对人的模拟才能有据可依。达特茅斯夏季人工智能研究项目提案中曾明确表示,(人工智能)这项研究是在这样一个假设的基础上开展的,即假设学习的每一个方面或智能的任何其他特征原则上都可以被精确地描述,从而使得机器可以模拟它。因此,无论是为了赋予机器智能,还是为了探索人类自身,语言始终是人类的重要课题之一。
✦
(一)何谓人工智能?
✦
要对人工智能下一个精准的定义,无疑是有点困难的。人工智能在短短几十年间经历了高速发展,它从机器模拟人类智能这一设想出发,经过数学、计算机科学、生理学、认知科学、语言学等学科的推动,发展为横跨多个研究领域、遍布各个应用场景的一项技术。
人工智能的概念往往会伴随其自身发展水平以及人类的期望发生变化。起初,人工智能的目标是使计算机使用语言,形成抽象的概念,解决人类的各种问题,以及提升自身。如今看来,机器语言的发展已经较为成熟,计算机提取和分析信息的能力也大大提升,机器学习的效果有所提高,计算机针对特定任务的表现也令人惊喜。但是,这些成果在今天大多被归结为计算而非智能。人工智能在上一阶段取得的成果往往很快被排除在人工智能的新定义之外,这一现象被称为“人工智能效应”。因此,对于“计算机所表现出的智能”这一议题,当下存在两种大相径庭的理解:一种认为人工智能指的是一个系统正确地解释外部数据,从这些数据中学习,并通过灵活的适应使用这些学习来实现特定目标和任务的能力,即弱人工智能;另一种则认为人工智能可以达到与人类拥有同等或超越人类智慧的水平,即强人工智能,又名通用人工智能。在前者的含义中,人工智能只能实现人类智能的部分内容;而后者则认为人工智能最终可以复现甚至超越人类智能。目前人工智能领域的成果与工作都属于弱人工智能,而强人工智能仅仅是一个颇具科幻色彩的愿景。当然,强人工智能的到来对于人类来说无疑是充满吸引力的。当被问及人工智能的目标是否是人类水平的智能时,人工智能之父麦卡锡(John McCarthy)对此表示认同,他说道:“最终的努力是制造出能解决问题并且达成世界和人类的目标的计算机程序。”这意味着人工智能还有很长的路要走。
人工智能的进步与人类对自身智能的认识的增长是密不可分、相辅相成的。作为启蒙人工智能的天才设想,图灵机的形象也启发了人类对于自身心智构造的想象。在对信息的处理过程中,人脑和计算机都可以通过符号进行表征,进一步进行逻辑推理和计算。基于这一符号主义的思想,人工智能一路高歌猛进,最终在模拟人的计算推理能力上取得了重大突破。2017年,人工智能机器人阿尔法围棋(AlphaGo)战胜了围棋世界冠军。在涉及大规模计算和推理的任务中,人工智能已经可以实现比人脑更出色的性能。然而,正好像日行千里的飞机并不等同或者优于鸟类,同样地,在智能的其他方面,人工智能的表现甚至不如一个孩童。当符号主义带来的狂欢逐渐落幕,近年来人工智能重新将视线投向联结主义(connectionism),即另一副人类心智构造的理论形象,这也带来了当前以深度人工神经网络为代表的新一轮人工智能发展浪潮。
此外,基于行为主义和控制论的另一派从人工智能与外部环境的交互这一角度出发,也在探索着心智的来源。总之,无论从哪个方向推进人工智能,其目标都是更多地将人类智能迁移到人工智能上,其中的关键就在于人类对于心智这一黑箱的解密。可以说,人工智能的形象是变化的,而人工智能的目标是永恒的。
✦
(二)心智与智能
✦
无可否认的是,人类这一物种与自然界其他产物的最大区别就是人类是有意识的。人可以调动思维协调自身的感知与外部世界互动,并对这些经验进行加工,产生记忆、智力、想象、情感、语言等能力。正如同笛卡尔(René Descartes)所经历的那样,他无法怀疑他自己作为一个有自我意识的存在正在思考,我们也无时无刻处在思考之中。自从发现自身的这些机制起,人就一直在尝试着定义和描述它们。但相比于描述物理世界中其他作为客体的存在,对人的精神层面的要素、结构、运作方式等进行描述是更加困难的。在科学尚未建立的年代,先哲们多采用“心灵”(soul)一词来概括人的这种机制,是否拥有心灵这一属性也被认为是判断物体有无生命的依据。随着人进一步探索自身的心理状态和思维活动,“心智”(mind)一词在心理学中被广泛接受。对于心智的研究包括与认知相关的部分,例如意识、思维、记忆、想象、推理、语言等能力。人的注意、感觉、情绪、情感、潜意识等属性也是心理学关注和研究的对象。
当年麦卡锡选择“人工智能”这个名称来命名这一新生学科,但比起“心智”这一广泛的概念,“智能”几乎不关注人的知觉、情绪、潜意识、情感等部分,而是着眼于人类心智中理性的部分,这种西方的理性主义传统在人工智能的进程中也得到了彰显。智能的概念还包含着进化主义的色彩,即人类的心智能力同其他能力一样,是人类在漫长的进化进程中获得的,因此,可以假设机器也能够获得这种能力,甚至能够循着人类进化的轨迹,通过模仿人的结构和行为以获得智能。据戴维斯(Randall Davis)的观点,与本能和刺激—反应关联相比,智能行为具有以下特征:(1)预测;(2)对变化的反应;(3)意向性的行动;(4)推理。除意向性问题外,目前人工智能已经基本具备了预测、对变化作出反应以及推理的能力,但我们依然不能承认人工智能已经具备了全面的智能,其中的缘由就包括意向性问题难以得到解决。塞尔(John Searle)认为:“意向性是某些心理状态和事件的特征,它是心理状态和事件(在以下这些词的特殊含义上)指向、关于、涉及或表现某些其他客体和事态的特征。”意向性是比意图、意识更为基础的结构,意图只是意向性的一种,并非所有的意向状态都是有意识的。也就是说,人类的行动都处于意向状态中,即使机器实现了多种智能行为,但它仍然是由人操控的,其行动并不具有意向性。但是,就人的意向性从何而来这一问题我们还无从下手。
除了上述对于智能行为本身研究的困难,随着人工智能技术的广泛应用以及人工智能的升级需要,现今对于所谓“智能”的构想中已经包含了心智的其他部分。除了高性能计算外,人工智能的发展前景中大量涉及其对人类心智中其他部分的理解,例如机器感知、情绪识别、语义理解以及人机交互的各类情景。可以预见,未来对于人类智能的研究将会继续深入,人工智能的质变也将取决于我们对心智的突破性认识。作为人类恒久而又强烈的疑问,心智问题是当代所有学科共同面对的课题。
✦
(三)机器语言与自然语言
✦
笛卡尔的贡献之一,是提出了人类心理与动物心理比较的可能性,并正确地认识到,人类“拥有能够表现发射性的理性思维的创造性语言”,同时也把“语言看作人类一种独有的天生的能力”。思维使得人在与世界的互动中具有独特性。它使得人类在与世界互动、获得经验时具有自我意识,也使得人可以采取相较于动物更有灵活性的行动。最重要的是,思维使人能够运用语言。在人类心智的各个组成部分中,语言具有无可替代的特殊地位。语言是我们组织和建构自身心智其他成分的工具。通过语言,心智的其他部分得以显现,人类得以传递感受、表达思想。在个体和其他个体的交流中,语言是重要的媒介。最后,语言在社群中的广泛使用使得语言成为一种建构社会文化、形成社会经验、塑造社会思维方式的力量。正是基于对人类语言的观察和思考,1710年莱布尼茨(G. W. Leibniz)提出建立一种人工的普遍语言的设想,这种由符号和数理逻辑建构起来的语言比自然语言更为简洁和明确。这一构想在日后随着计算机的诞生和发展衍生成为程序语言。因此,我们可以将程序语言看作人类自然语言的一个变种。对于机器来说,程序语言的出现赋予了它进行逻辑思维的工具。与人类语言的性能和表现类似,程序语言使计算机能够组织和调用内部的各个要素,同时它使得计算机可以反馈信息处理的结果,机器与机器之间也可以传递信号,最终在计算机领域形成特定的运作模式和文化。程序语言已经发展成熟,成为了计算机的基本组成部分之一。从使用机器语言到产出逻辑思维结果来看,如今人工智能确实已经了达到了多种和人近似的表现。除了上文提到超出人类的计算表现,语音识别、机器翻译以及各类人工智能终端产品中的人机交互都仿佛显示了人工智能可以成功理解和模拟人的行为。
但是,当我们从另一个角度理解人的语言与机器的语言,进而探讨人工智能是否能获得思维能力时,人工智能的“进化”或许并不十分顺利。笛卡尔假设人类心灵中有一种内在语言,这区别于不同族群所使用的特定的语言,这是人类特有的心智属性。从这一观点来看,语言并不只是人为的产物,它是根植于人类这一物种的特有的机制和能力。这种人类语言“内在主义”(internalist)的观念在乔姆斯基(Noam Chomsky)那里得到了继承,进而影响至今。乔姆斯基将这种人类特有的能力称为“语言官能”(language faculty)。他还区分了语言能力(linguistic competence)和语言运用(linguistic performance),语言能力是内化语言规则所形成的认知能力,语言运用则是一个人调用语言能力的外在表现。儿童可以理解一句从未听过的话并快速习得,人在日常的语言使用中也可以创造和运用各种“不合文法”的口头禅。随着互联网和人工智能深入我们的日常生活,人类的语言运用中惊人的创造力也回应了海德格尔(Martin Heidegger)对于“语言机器”的担忧。1957年,海德格尔就可以进行思考和翻译的机器展开讨论,他认为语言机器从“机器的能量和功能中已经规整并限定了我们语言的可能使用方式”。
目前我们看到的是,计算机和互联网的发展非但没有限制人类的语言运用,它们反而给使用网络语言的流行文化提供了一片沃土。同时,一个人可以一边使用程序语言与机器交流,一边和身边的人轻松地对话,这证明了人类对于符号的操纵能力远远高出机器的能力。我们认为,当前的主要议题应该是机器对自然语言的存储、理解以及反馈,而非担心人类特有的“诗的语言”的消亡。
总之,人的自然语言难以被计算机完全“习得”,一方面是由于人类语言运用所产出的语言事实是海量的、复杂的、不完全受规则限制的;另一方面,人的语言能力的内部结构和生理基础尚不明确。由于心智对人来说仍然是一个巨大的谜团,因此,当下人工智能学科的性质仍然是智能化机器建造的工程学科与对人类智能计算建模的经验学科。我们认为,未来很长一段时间,机器语言需要学习的仍然是人类自然语言中可以被符号化、形式化、结构化的部分,其目标是提升性能和表现,而非模仿人的方方面面。
✦
✦
二 探索语言的两种路径:
语言学和人工智能
✦
语言是介于人类思想与外部世界中间的一扇窗,也是人类认识心智和改造世界的锁钥。可以说,对语言的发问和求索是有关整个人类历史最重要的主题之一。在人类对语言的探索过程中,语言学与人工智能从不同的观察视角和研究路径出发。在这条道路上,这两个学科对彼此的进程也产生了深刻的影响。
语言的系统研究并非始于对心智的好奇。起初,语言对人来说是一套约定俗成的规范。随着语言材料的大量积累,19世纪的历史比较语言学开始系统地对语言展开研究,并从中发现了不同语言之间的发生学关系,语言的共性(universal)研究开始浮现。在那些被观察到的语言事实中,一部分是符合规范的、稳定的,而另一部分是随意的、多变的。“现代语言学之父”索绪尔(F. D. Saussure)将人类语言活动中的这两者定义为语言(langue)和言语(parole)。他将语言看作一个独立的系统,大力倡导从共时(synchronic)角度分析语言系统内部要素的关系和规律。索绪尔一反历史比较语言学之研究传统,抛弃了“言语、外部、历时、实体”等研究对象,力主以“语言、内部、共时、形式”为中心建立起现代语言学理论。自此,结构主义学派对于语言系统内部的分析描绘出了人类语言的成分、结构和关系。这一时期对于语言的关注,无疑使人获得了观察和理解语言的新视角,在不同的地域和种族内,语言系统如同初始设置一样伴随着人类存在。
20世纪50年代,随着人工智能、认知心理学等学科逐步建立与发展,人们对心智的好奇心被重新唤醒。在语言问题上,人也不仅仅满足于对语言事实的描写和分析,开始更关心语言究竟从何而来、又何以至此。乔姆斯基是这一转向的代表人物,他坚定地将其理论基点定位于“语言与心智”的关系上,这从其专著《语言与心智》中可见一斑。他的名言“语言是心智的窗口”是这一立场的具体反映。乔姆斯基力图描绘人类语言能力中的规则,他将之命名为普遍语法(universal grammar)。普遍语法并不是规则的集合,相反地,它讨论了人类语言中“有限规则的无限使用”,即语言的生成性。对于生成性的解释,乔姆斯基受到了图灵(Alan M. Turing)的启发。图灵在心智的计算理论上的一个重要贡献就是清晰地提出了递归函数理论用以刻画心智的计算操作,这对乔姆斯基的影响无疑是巨大的。递归性的发现使得我们能够理解人类语言的生成性。由此可见,计算理论的发展也极大地启发了人类对于语言和心智的理解。蕴藏在句法背后的,不仅仅是一套规则,而是无穷的动态性和创造性。直到今天,人工智能模拟和学习人的语言,不仅仅带来了各种人工智能技术及产品,更重要的是它向人类展示了它们所拥有的自然语言的潜力与深度。在机器与人的竞赛中,它可以在计算这一单元远胜人类,却无法成功应对来自语言的挑战。从这个角度来说,未来人工智能在自然语言分析方面的努力仍然有着漫长的道路要走。
虽然转换生成语法学派带来的影响力不可忽视,在对人类语言的理性阐释中仍然占据着主流地位,但随着科技和认知的发展,语义问题与语言的体验性逐渐进入科学的视线。20世纪50、60年代以来,认知功能语言学派从认知和体验的角度对转换生成语言学派展开批判和补充。这一学科的出现拓宽了语言学的研究视野,使得人们可以分别从内省和经验两个方向来研究语言及心智。事实上,认知语言学与未来人工智能所关心的课题是十分相近的。从研究主题上来说,认知语言学中许多理论与当下人工智能的发展需求不谋而合。例如,原型范畴、概念、隐喻—转喻理论与自然语言理解的需求联系非常紧密;具身性(embodied)经验、互动经验也与人工智能机器人的研究理念相契合。
理想化的情况,当然是语言学理论可直接应用于人工智能发展,但现状并非如此。过去,语言学确实为人工智能语言的构建提供了理想的参照。例如,乔姆斯基的语言学研究成果推动了早期人工智能的发展。在机器翻译的早期研究中,美国的METAL(MEchanical Translation and Analysis of Language)充分利用了乔姆斯基的转换生成语法和短语结构理论。他所提出的管辖与约束理论(Government and Binding Theory)也被认为对机器翻译的提升非常有意义。
正如许多学科所关注的,语言学也在因循着挖掘人类心智的奥秘前进。在语言学的视角中,语言早已不只是简单的符号和规则的堆砌,相反,它所暗藏的是人类理解自身和世界的方式。更何况,在机器学习人类语言这一“实验”中,人的语言的复杂性和灵活性早已经不言自明。因此,今天的语言学理论并不局限于描述的、分析的,更多的是抽象的、辩证的,而使用符号和规则的机器注定无法直接理解这些内容。但与之相对的是,人工智能并不是一门纯理论的学科。相反,它是一门从经验中成长起来的学科。在有了一定的理论基础后,人工智能需要处理应对的是大量复杂的数据。因此,出于实用主义,语言学理论往往不是人工智能的首选。总之,不同的学科特性和需求注定了当前语言学与人工智能两个学科存在着分道扬镳、各说各话的局面。
现今人工智能为语言学带来了强大的技术支持,但它对语言学研究的传统所造成的冲击也不容小觑。康奈尔大学语言学系主任约翰·惠特曼(John Whitman)教授在一次采访中表示:“我认为语言学理论面临的挑战并不是转换生成语法与认知语言学的竞争,而是语言学理论日益受到计算语言学的挑战。”随着计算机语言处理技术的发展,计算语言学逐渐发展为一门独立的学科。它使用计算机研究语言,关注语言中可计算的部分。惠特曼提到,计算语言学依赖于大规模的语料库和统计分析。转换生成语法与认知语言学的共同之处在于建构语言表征,语言学家们都在讨论语义或者结构的表征。与此不同,计算语言学家们对表征没有兴趣,他们对通过统计方法预测语言模式感兴趣。
总的来看,现代语言学的各种研究学派之间的论争围绕语言研究的不同前提(形式或功能)和哲学基础(理性主义或经验主义)展开。然而计算机和人工智能时代对语言研究的挑战是颠覆性的,算法、算力的发展促使越来越多的研究者关注一般的而非特殊的、现象的而非本质的问题。不仅仅是计算语言学内部热衷于采取这种研究方式,语言学的其他各个分支也受到了不同程度的影响。为了迎合机器的理解需求,我们倾向于挑选语言中一般性的、已知的、易被机器理解的语言材料,随后把它们丢进模型中即可。如果语言学研究普遍转向采取这种方法而非分析,那么这种经验主义色彩的做法相当于使我们看待语言的方式回到了现代语言学建立之前的状态,区别仅仅是我们可同时处理的语言材料数量更大、处理速度更快而已。这种做法的流行很可能使一些语言学研究者偏离正确的轨道,进而偏离了对语言本质的探索。
因此,语言学需要谨慎地追随人工智能的浪潮,并始终保持语言学研究的初心。科学对普遍真理的追求是建立在对特殊事物的观察基础上的,这一点对于语言学研究来说也是适用的。惠特曼对此持有同样的看法,“我们应该记取:一位语言学工作者不仅仅要致力于弄明白汉语或者英语的基本事实,更应该引导人们明白人类语言的可能事实。也正是这个原因,我们致力于少数民族语言研究、拯救濒危语言”。同时,计算主义下的语言学研究本身也面临着巨大的挑战,我国计算语言学发展中存在着对于深度学习算法本身迷信、忽视语言本体研究、人工智能尚未达到应有的理解水平等问题。可见,以理论建设、问题导向为核心的语言学研究与以技术驱动的计算语言学研究应该相互助益、协同发展。关注真实的语言材料,继续深入挖掘语言中反映人的特质和特定行为的部分,在严谨假设和坚实理论的基础上合理借助计算技术,以获得补充和佐证,从而推动语言学理论的构建和发展,是语言学家最根本的使命。
✦
✦
三 语言学研究的人工智能
与跨学科取径
✦
21世纪见证了18世纪那只名为“普遍语言”的蝴蝶所带来的飓风般的效应。如今,机器语言所写就的程序搭载着丰厚的物质基础,创造了包围着这个时代的技术和产品。正如同人类最初得以借助飞机抵达高空时那般的兴奋,我们现在也沉浸在人工智能所带来的惊喜和震撼之中。但机器语言仅仅表现和延伸了人类语言中简洁且充满秩序的一面,随着人类对人工智能的需求和期待的增长,人类自身对自然语言的探索也必将不断深入。
✦
(一)语言数据与语言事实
✦
语言学作为能够接触到自然语言第一手材料的学科,它已经拥有大量语言事实的记录和积累,并且已经形成了成熟的工作方法,对于自然语言的直接调查仍然是语言学工作的重要部分。这些语言材料可以为人工智能提供数据集,作为机器的最佳学习素材,保证了人工智能可获得系统的、可靠的、动态发展的语言数据。对语言学来说,这不仅仅是为了获得统计学意义上的数据,更重要的是,语言学要回答语言提出的真正的问题,研究者必须要收集和探究真实语料,力图从中找到人类语言的共性或个性。
以语音学为例,语音学的研究成果能够为语音识别与合成提供理论基础。早期的语音识别由于忽略了声调这一最显著的区别特征,识别效果并不理想。如今语音识别与合成技术已经广泛应用于日常场景中,但其表现还有待提高。例如,在面对使用方言的用户时,语音识别的准确率降低。另外,语音合成中更加丰富的拟人的语调和语气仍然是需要重点攻克的问题,以提升用户的体验感。计算机对语音材料的预处理会大大简化人输入的语音。更关键的是,用以使计算机更好地“理解”不同的方言或个人的语音模型尚待开发。语音学研究者收集最真实的语音材料,能够比机器更加准确细致地识别、提取、分析人的语音特点,从而帮助建立计算机可用的声学模型。
对于语言学自身来说,人工智能带来的挑战使语言学研究者意识到已经不能回避复杂的、特殊的语言事实。谷歌公司于2021年1月推出的语言模型Switch Transformer的参数量已达到1.6万亿。2021年6月基于中文的语言模型“悟道2.0”推出后,其参数量已达到1.75万亿。随着算力投入和模型提升,在面对符合规范的、普遍的语言材料时,人脑早已无法企及计算机的计算能力。如果把语言研究工作简单地视作数据处理,那么机器已经可以接管人的工作了。但在面对语言最精巧的内核时,只有人类才能发挥有效的作用。因此,“要用真实的语言材料,而且不能只用主谓宾齐全的简单陈述句做研究。我们要用人类各种真实场景下用于传递信息的语料去研究,从这些语料中挖掘语言的特点,而不是挖空心思地去找自圆其说的普遍性”。
符号化、形式化、结构化的语言的诱惑力在我们这个时代尤为强烈,它是优雅而高效的。但正如维特根斯坦(L. Wittgenstein)所说:“我们的表达式把我们送上了猎取奇兽的道路,多方面地妨碍了我们看清句子符号是在和寻常的东西打交道。”未来,语言学研究仍要坚持田野调查,着眼于最真实和最灵活的语言事实,致力于揭示语言中本真的奥秘。
✦
(二)计算机与人脑的语言处理
✦
人类对语言的分析和处理从理性主义出发。在语言学的发展历程中,大量语言规则被总结出来,这为早期计算机对语言的处理提供了参考。随着语言数据规模的极速增长,计算机对自然语言处理的能力获得提升。然而在近几十年自然语言处理的发展中,语言学知识和理论向计算机的迁移受阻。
一方面,通过人力进行标注和分析会带来高昂的成本,规则的数量、内容与实际处理的文本不能对应时,计算机对语言处理的表现不佳。另一方面,经验主义的崛起与 20 世纪 70 年代计算机硬件技术的飞速发展和统计学中重要概念的提出(如隐马尔可夫模型)息息相关,这些技术使得基于统计的自然语言处理方法具有可行性。目前,计算机对于语言的处理呈现出高度依赖统计的特点。统计方法不仅被应用于对词汇和句法的处理中,基于大数据和大模型的语义处理也成为了当下的主流。深度学习(deep learning)在自然语言处理领域的代表作Word2vec通过模型产生成词向量,词向量所包含的语义和语法信息则通过大量数据集训练获取。在这种方法中,语言成分得到了数学表示,语言信息的获得则是由数据和模型驱动的。计算机可以快速处理海量数据、获得基本的语义信息,从而迅速提升性能。深度学习的方法是内部封闭的“黑匣子”,语言材料被分解、转换为实数,成为计算模型的参数。基于以上特征,尽管深度学习可以提供可喜的预测结果,但仍然难以解释其结果所得向量的每一维的具体语义。单纯依靠统计方法无法继续取得跨越性的突破,想要真正解决语义理解问题,必须依靠语言学的理论成果。因此,对于句法、语义以及语用规则的研究和表征是语言研究的重要任务。语言学研究者要继续坚持深入挖掘和阐明语言内部的规则,主动构建语言知识库。一方面,语言知识库的建立帮助计算机理解和学习语言规则,解决语义理解的困难。另一方面,与时俱进的语言学研究应当充分利用人工智能时代所提供的数据承载能力和强大计算能力。大型语料库的建立可以帮助拓宽语言学研究的广度,也提升了我们处理语言材料的速度。
言语知觉(perception)和产出(production)是人类大脑处理语言信息的两项核心任务。语言信息包括语音单位(如辅音与元音的边界、单字调或变调等)、音系单位(如音节作为自然知觉单位、辅音和元音的协同发音等)、词汇—语义、句法等信息的加工(process)等。将形式主义和功能主义研究相结合的语言学家杰肯道夫(Ray Jackendoff)基于乔姆斯基提出的语言能力(语言结构)和语言行为(语言处理)之间的潜在关联,提出了句法为中心的语言处理的“平行架构”(parallel competence architecture)模型作为语言处理的基础。该模型对词汇的处理,与语言知觉和产出研究中的“词汇通达”(lexical access)分析若合符节。事实上,关于人脑对语言信息的处理机制,语言的认知神经科学研究领域已有不少重要的分析模型。例如言语知觉的研究可依据“双流模型”(Dual Stream Model,由Gregory Hickok和David Poeppel提出);阅读过程中对字母串的处理,具有“局部整合探测”(Local Combination Detector)模型;抽象词和具体的认知差别有“双重编码模型”(Dual Coding Model)和“语境有效性模型”等(Context Availability Model)。
✦
(三)语言知识与语言能力
✦
除了实现语言知识的表征,研究语言内部的成分与规则,语言学还始终关心人类语言与心智之间的关系。乔姆斯基还为语言学研究设定了以下任务:(1)语言知识是什么?(2)语言知识是如何获得的?(3)语言知识是如何使用的?(4)语言知识的生物基础是什么?㉗在语言学研究中,这些问题应该始终牵动着语言学家的思考。也就是说,我们所研究的语言不仅是静态的语言知识,更包括动态的语言能力,以及它所产生的丰富的语言现象。因此,语言学研究依然要关注儿童语言的习得,从中探索语言知识获取的机制。语言学还应该始终将机器语言看作人类语言中的一个新品种,考量机器语言与人类语言之间的互动关系和相互作用。前文提到,海德格尔担忧语言机器“控制了人类的本质”,人类与语言的关系发生了变化,人们无法估量这种变化的后果。
我们认为,在日常语言使用中,机器语言完全不足以威胁人类语言的创造性和生命力,互联网反而成为人类语言新的“游乐园”。但对学术研究来说,如今程序语言及其背后的符号主义思想已经对各个学科造成了不可逆转的影响,越来越多的注意力被高效的、一致的人工语言所吸引。这种思潮如今对本应富于浓厚人文特质的语言学科所造成的撼动尤为明显,使得当今的理论语言学研究似乎陷入了迷惘和停滞状态。从这一点来看,海德格尔的预言并非妄想。因此,在面对人工智能时,语言学研究者当如大鹏,凭借数据与算力的风力扶摇直上,当人工智能无法回答语言提出的本质问题时,语言学的理论与智慧“犹能簸却沧溟水”。
✦
(四)人类语言与生理基础
✦
乔姆斯基关于语言的“内在性”假说,促使其研究视野从语言学扩大到心理学,最终再到生物学和神经科学。于是,出现了将语言作为生物性研究对象(biological object)的分支学科“生物语言学”。㉙如果说,理论语言学在未来的人工智能发展的大背景下继续做出努力的话,语言与语言能力背后的神经生理学、认知神经科学等跨学科层面的探索,便显得尤为重要。因此,神经语言学、心理语言学等分支学科无疑将作为现代语言学构建语言理论的“生力军”。
20世纪90年代初,乔姆斯基从语言的“自然性”(naturalism)出发,提出探讨语言与大脑的关系。对大脑的研究,可以从原子、细胞、细胞组合、神经网络和计算—表达(computational-representational,简称C-R)系统等层面展开。事件相关电位技术(event-related potentials,ERPs)研究与电位活动和C-R系统相关联。㉚有些因先天脑部缺损或后天脑部损伤的患者,在语言能力上表现异常,产生了不同类型的“偏离”(deviant)的语言结构。ERP技术(时间分辨率为1毫秒)可以帮助判定受损部位,从而了解不同语言功能的生物基础。失匹配负波(mismatch negativity, MMN)、N400、N200等诱发成分,是语音加工、语义加工和词汇产生等人脑对语言信息处理时的生理反应。㉛到了21世纪,人类语言的生理基础的研究,期待着更多学科领域(如演化生物学、人类学、心理学、神经科学等)的实质性合作。㉜尽管有关于人类大脑对语言处理的相关电生理学(electrophysiological)的系统理论尚未形成,但终究已有不少值得注意的成果问世,语言生理机制的分子生物学探索也已迈出可喜的步伐。㉝在探究语言获得与发展机制的驱动下,儿童语言的获得与脑发育、二语学习的脑机制、语言发展的基因研究等将是未来语言发展认知神经科学研究的重要课题。
结合生物学技术和理论,语言学研究者可以由人类个体与群体所产生的语言事实出发对语言的生理机制展开探究。传统语言学研究通常由观察语言事实出发,提出假设并从语言本身加以验证,从而得出结论,进而发展为理论。现如今,学科间合作不断深化。一方面,研究者可以进一步通过观察人本身来校验语言理论、探究语言机制。许多语言学理论可以结合实验科学的思路,借助现代先进的影像学技术观察人的语言行为。近20年来, 随着我国经济实力增长和对科学研究投入的增长,我国在脑电、近红外、磁共振成像等仪器设备的配置上有了巨大改善,但先进成像设备要真正在研究中起到推动作用, 离不开持续的方法培训和技术支撑。㉞另一方面,语言作为人类群体的能力,人类进化史中也包含着人类语言的演化史。历时的语言数据反映了人类语言机制的发育成熟。因此,当代语言学研究可以以生物学的研究眼光重新审视历史的和当下的语言事实,这就要求语言学重整和归纳海量的语言数据,并以现代科学的实验方法重新观察、验证。
✦
✦
“
为适应微信排版已删除注释和参考文献,请见谅,
如需阅读全文,请点击左下角“阅读原文”获取。