查看原文
其他

好文荐读|冯志伟、张灯柯:计算语言学中语言知识生产范式的变迁

冯志伟、张灯柯 语言学心得
2024-09-03



好文荐读(第107期)计算语言学中语言知识生产范式的变迁。

好文荐读不定期更新,为大家带来最新的核心期刊亮眼论文,希望大家多多支持,也欢迎给我们留言推荐更多值得一荐的好文哦~




计算语言学中语言知识生产范式的变迁
冯志伟1 ,张灯柯2

1. 教育部语言文字应用研究所,北京,100010

2. 新疆大学中国语言文学学院中文系,新疆,830046

   

文章简介

文章来源:冯志伟,张灯柯.计算语言学中语言知识生产范式的变迁[J].当代修辞学,2024(02):23-44.


摘要:在计算语言学这门学科的发展过程中,语言知识的生产范式经历了四次大的变迁:基于规则的语言知识生产范式、基于统计的语言知识生产范式、基于深度学习与神经网络的语言知识生产范式、基于生成式人工智能的语言知识生产范式。本文详细地描述了这些语言知识生产范式的变迁过程。

关键词:计算语言学;基于规则的语言知识生产范式;基于统计的语言知识生产范式;基于深度学习与神经网络的语言知识生产范式;基于生成式人工智能的语言知识生产范式

感谢《当代修辞学》授权推广,全文下载请点击文末“阅读原文”。


计算语言学(computational linguistics, CL)是用计算机研究和处理自然语言的一门新兴的边缘学科。由于计算语言学的研究对象是自然语言,因此,语言学家把它算为语言学的一个分支;由于计算语言学要采用先进的计算机科学技术来研究和处理自然语言,因此,计算机科学家把它算为计算机科学的一个分支;由于计算语言学要研究自然语言的形式结构和自然语言处理的算法,因此,数学家把它算为应用数学的一个分支。这种情况说明,计算语言学不是一门单纯的学科,而是一门横跨文科、理科和工科的边缘性的交叉学科,是文理工交叉的新文科的最佳范例(冯志伟 1996:1—6)。

计算语言学也叫做自然语言处理(natural language processing, NLP)。

语言学研究的目的在于揭示语言的规律,进行语言知识的生产(language knowledge production),从而丰富人类对于语言的知识,推动人类社会的进步(冯志伟 2001:66—70)。

在计算语言学这门学科的发展过程中,当然也要进行语言知识的生产。语言知识的生产范式(paradigm of language knowledge production)经历了基于规则的语言知识生产范式、基于统计的语言知识生产范式、基于深度学习与神经网络的语言知识生产范式、基于生成式人工智能的语言知识生产范式的变迁。



一.基于规则的语言知识生产范式(1936—1990)


在计算机出现以前,英国数学家A.M.Turing(艾伦·麦席森·图灵)就预见到未来的计算机将会对自然语言研究提出新的问题,揭开了基于规则的语言知识生产范式(rule-based paradigm of language knowledge production)的序幕。

1936年,图灵(Turing)向伦敦权威的数学杂志投了一篇论文,题为“论可计算数及其在判定问题中的应用”(Turing 1936)。在这篇开创性的论文中,Turing给“可计算性”下了一个严格的数学定义,并提出著名的“图灵机”(Turing Machine)数学模型。图灵机不是一种实体的机器,而是一种抽象的数学模型,可根据图灵机的原理来制造一种十分简单但运算能力极强的计算装置,用来计算所有能想象到的可计算函数。1950年10月,Turing在《计算机与智能》(Turing 1950)一文中指出:我们可以期待,总有一天机器会同人在一切的智能领域里竞争起来。但是,以哪一点作为竞争的出发点呢?这是一个很难确定的问题。许多人以为可以把下棋之类的极为抽象的活动作为最好的出发点,不过,Turing更倾向于支持另一种主张:这种主张认为,最好的出发点是制造出一种具有智能的机器,然后教这种机器理解英语并且说英语。这个过程可以仿效小孩子说话的那种办法来进行。Turing提出,检验计算机智能高低的最好办法,就是让计算机来讲英语和理解英语,进行“图灵测试”(Turing Test),根据计算机的英语水平来判断计算机智能的高低。他天才地预见到计算机和自然语言将会结下不解之缘。20世纪50年代兴起的自动机理论来源于Turing在1936年提出的可计算性理论和图灵机模型,Turing划时代的研究工作被认为是现代计算机科学的基础(冯志伟 2017:11—12)。1948年,美国学者香农(C.Shannon)使用离散马尔可夫过程的概率模型来描述语言。Shannon的另一个贡献是创立了“信息论”(information theory)(Shannon 1948)。他把通过通信信道或声学语音这样的媒介传输语言的行为比喻为“噪声信道”(noisy channel)或者“解码”(decoding)。Shannon还借用热力学的术语“熵”(entropy)作为测量信道的信息能力或者语言符号的信息量的一种方法,并且他用概率技术首次测定了英语字母的熵为4.03比特1,为英语字母的八位单字节编码(octal single-byte encoding)提供了理论依据。1956年,美国语言学家乔姆斯基(N.Chomsky)从Shannon的工作中吸取了有限状态马尔可夫过程(finite state markov process)的思想,首先把有限状态自动机作为一种工具来刻画自然语言的语法,并把有限状态语言定义为由有限状态语法生成的语言。这些早期的研究工作产生了“形式语言理论”(formal language theory)这样的研究领域,采用代数和集合论把形式语言定义为符号的序列。Chomsky在研究自然语言时,首先提出了“上下文无关语法”(context-free grammar, CFG)的科学概念。后来,计算机科学家巴科斯和瑙尔(Backus & Naur)等在描述程序语言ALGOL(algorithmic language)的工作中,分别于1959年和1960年也独立地发现了这种上下文无关语法。这些研究都把数学、计算机科学与语言学巧妙地结合起来。Chomsky在计算机出现的初期把计算机程序设计语言与自然语言置于相同的平面上,用统一的观点进行研究和界说。他在《自然语言形式分析导论》(Chomsky 1963)一文中,从数学的角度给语言提出了新的定义,指出:这个定义既适用于自然语言,又适用于逻辑和计算机程序设计理论中的人工语言。在《语法的形式特性》(Chomsky 1963)一文中,他专门用了一节的篇幅来论述程序设计语言,讨论了有关程序设计语言的编译程序问题,这些问题是作为组成成分结构的语法的形式研究,从数学的角度提出来,并从计算机科学理论的角度来探讨的。Chomsky在《上下文无关语言的代数理论》(Chomsky 1963)一文中提出:我们这里要考虑的是各种生成句子的装置,它们又以各种各样的方式,同自然语言的语法和各种人工语言的语法都有着密切的联系。他把语言直接看成是在符号的某一有限集合V中的符号串(string)的集合,而V就叫做该语言的词汇,他把语法看成是对程序设计语言的详细说明,而把符号串看成是程序。在这里,Chomsky把自然语言和程序设计语言放在同一平面上,从数学和计算机科学的角度,用统一的观点来加以考察,对语言、词汇等语言学中的基本概念达成了高度抽象化的认识。这些著名学者对于语言和计算关系的探讨,是计算语言学兴起前夕的最重要的研究成果,为计算语言学的理论和方法奠定了坚实的基础(冯志伟 2010:2—14)。这些出色的研究都是基于规则,都采用了基于规则的语言知识生产范式。1954年,美国乔治城大学在国际商用机器公司(IBM)的协同下,用IBM-701计算机进行了世界上第一次机器翻译试验,把60个简单的俄语句子翻译成英语。这可以看成是计算语言学研究的开始,也是基于规则的语言知识生产范式的优秀产品。接着,苏联、英国和日本也进行了机器翻译试验,机器翻译出现热潮。早在1947年9月,英国数学家A. M. Turing在一份写给英国国家物理实验室的报告中谈到他建造计算机的计划时就指出,“机器翻译”可以显示计算机的“智能”(intelligence)。七年之后的1954年,机器翻译果真成为了活生生的现实。这证实了Turing天才的预见!在1955年8月31日发布的《人工智能达特茅斯夏季研究项目提案》中,人工智能的开创人之一约翰·麦卡锡(J. MacCarthy)就明确地提出,人工智能要研究语言与智能的关系。他在这个研究提案中说:在明年和夏季人工智能研究项目期间,他建议研究语言与智能的关系。他指出,英语有许多属性,而目前所描述的每一种形式语言都缺乏这些属性。这些属性是:1) 用非正规的数学补充的英语论证是简明扼要的;2) 英语具有普遍性,可以在英语中设置任何其他的语言,然后在适当的地方使用这些语言;3) 英语的使用者可以用英语来引用他自己的说明,并陈述关于他自己在解决有关问题方面的进展;4) 如果英语完全地形式化,那么,除了证明规则之外,还可以推导出一些猜测性的规则。MacCarthy在他的研究提案中还进一步指出:他希望尝试制定一种具有上述属性的语言,并且这种语言除了包含物理现象、事件等概念之外,他还希望使用这种语言可以对计算机进行编程,以便计算机学习怎样很好地玩游戏以及执行其他任务。MacCarthy的这些观点是关于使用自然语言对计算机进行编程的早期论述,他试图把自然语言与计算机联系起来,用形式化的语言来给计算机编程。由此可见,人工智能(artificial intelligence, AI)从诞生开始,就把研究的目光敏锐地投向了自然语言。所以,人工智能与自然语言处理有着密切的关系。除了语言规则之外,还需要机器词典来形式化地描述单词的句法和语义特征。所以,这样的语言知识生产范式是建立在“规则”加“词典”的基础之上的。这些出色的基础性研究,为基于规则的语言知识生产范式奠定了坚实的基础。从20世纪60年代开始,法国格勒诺布尔理科医科大学应用数学研究所(法文:Institut Mathematique Appliquèe de Grenoble, IMAG)自动翻译中心(法文:Centre d’Etude de Traduction Automatique, CETA)就开展机器翻译系统的研制。这个自动翻译中心的主任是著名法国数学家沃古瓦(B. Vauquois)教授,他也是国际计算语言学委员会(COLING)的创始人和第一任主席(冯志伟 2016),是本文第一作者冯志伟在法国留学时的导师。B.Vauquois于1968年提出沃古瓦三角形(Vauquois triangle),又叫做机器翻译金字塔(pyramid of machine translation),用于表示基于规则的机器翻译的过程和类别。如图1所示:

在沃古瓦三角形中,机器翻译从源语言(source language)开始,首先进行源语言形态分析,接着进行源语言句法剖析,然后进行源语言浅层语义分析和概念分析,分析完成后就进行目标语言(target language)生成。首先进行目标语言的概念生成,再进行目标语言的语义生成,接着进行目标语言的句法生成,然后进行目标语言的形态生成,产生出目标语言。沃古瓦三角形的顶端是中间语言(interlingua),这是独立于源语言和目标语言规范的语义表达形式。基于规则的语言知识生产范式取得了不少成绩,自然语言形式分析的技术有了很大的进展,计算语言学家们使用计算机,自动地构造出了自然语言句子的句法结构,这是传统语言学家做不到的。在计算语言学中,计算语言学家们使用短语结构语法(phrase structure grammar)的分析技术,可以自动地生成短语结构树来表示句子的句法结构。例如,英语句子The cat the dog the rat bit chased likes tuna fish.(老鼠咬过的狗追赶着的猫喜欢金枪鱼。)可以分析为如下的短语结构树:

这个句子具有多层嵌套,结构十分复杂,可以看出,计算机造出的短语结构树是正确的。根据基于规则的语言知识生产范式,计算语言学家们还提出了很多新的方法,自然语言处理取得了长足的进步(冯志伟 2004:12—34)。逻辑方法在计算语言学中取得了很好的成绩。1970年,阿兰·科尔默劳尔(Colmerauer)和他的同事们使用逻辑方法研制了Q系统(Q-system)和变形语法(metamorphosis grammar),并在机器翻译中得到应用。Colmerauer还是Prolog(programming in logic)语言的先驱者,他使用逻辑程序设计的思想设计了Prolog语言。1980年佩瑞拉和瓦楞(Pereira & Warren)提出的“定子句语法”(definite clause grammar, DCG)也是在计算语言学中使用逻辑方法的成功范例之一。1979年马丁·凯伊(Martin Kay)对于“功能语法”(functional grammar, FG)的研究,1982年布列斯南和卡普兰(Bresnan & Kaplan)在“词汇功能语法”(lexical function grammar, LFG)方面的工作,都是“特征结构合一运算”(feature structure unification)研究方面的重要成果,他们的研究引入了“复杂特征”(complex features)的概念。与此同时,冯志伟提出了“多叉多标记树形图模型”(multiple-branched multiple-labeled tree model, MMT),在他设计的多语言机器翻译FAJRA(英语、法语、日语、俄语和德语的法文首字母缩写)系统中,采用了“多标记”(multiple label)和“多叉”(multiple branch)的方法(Feng 1982),在4341大型计算机上,把汉语自动地翻译成英语、法语、日语、俄语和德语五种外语,这是世界上第一个把汉语翻译为多种外语的机器翻译系统。冯志伟提出的“多标记”的概念与国外学者们提出的“复杂特征”的概念实质上是一致的。这些关于自然语言特征结构的研究成果,都有效地克服了Chomsky提出的短语结构语法的生成能力过强的缺陷。在这个时期,自然语言理解(natural language understanding, NLU)也取得明显的成绩(张奇等 2023:4—6)。自然语言理解肇始于威诺格拉德(Terry Winograd)在1972年研制的SHRDLU系统,这个系统能够模拟一个嵌入玩具积木世界的机器人的行为。该系统的程序能够接受自然语言的书面指令,从而指挥机器人摆弄玩具积木块。这样一个非常复杂而精妙的系统还首次尝试建立基于语言学家韩礼德(Halliday)的系统功能语法(systemic functional grammar)的全面的英语语法。Winograd的模型还清楚地说明,句法剖析也应该重视语义和话语的模型。1977年,杉克(Roger Schank)和他在耶鲁大学的同事和学生们建立了一些语言理解程序,这些程序构成一个系列,他们重点研究诸如脚本(script)、计划(plan)和目的(goal)这样的人类概念知识以及人类的记忆机制。他们的工作经常使用基于语义网络(semantic network)的语义学理论,并且在他们的表达方式中引进了语言学家菲尔墨(Fillmore)在1968年提出的关于“深层格”(deep case)的概念。在自然语言理解研究中也使用过逻辑学的方法,如1967年伍兹(Woods)在他研制的LUNAR问答系统中,就使用谓词逻辑来进行语义解释。计算语言学在话语分析(discourse analysis)方面也取得了很大的成绩。基于计算的话语分析集中探讨了话语研究中的四个关键领域:话语子结构的研究、话语焦点的研究、自动参照消解的研究和基于逻辑的言语行为的研究。1977年,克罗茨(Crosz)和她的同事们研究了话语中的“子结构”(substructure)和“话语焦点”(discourse focus);1972年,霍布斯(Hobbs)开始研究“自动参照消解”(automatic reference resolution)。在基于逻辑的言语行为研究中,保罗和艾伦(Perrault & Allen)在1980年建立了“信念—愿望—意图”(belief-desire-intention, BDI)的框架(冯志伟、余卫华 2015)。可知,计算语言学通过辛勤的工作,取得了很大的成绩,这些都是基于规则的语言知识生产的突出成果。从语言知识生产的角度看来,在这个时期,语言知识生产的主要方式是依靠研究者的“内省”(introspection)来进行的,研究者既是语言知识生产数据的提供者,又是语言知识生产数据的分析者,他们依靠自己深厚的学术素养、出众的聪明才智和渊博的知识储备来进行语言知识的生产,达到了相当高的学术水平。显而易见,这样的语言知识生产方式受到研究者本人的主观局限,有较强的主观性,往往会出现“仁者见仁,智者见智”的问题,产生“以蠡测海,以管窥豹”的偏向。当研究者感到自己的知识不足的时候,他们还可以通过实地调查或问卷调查的方式,从别人那里“诱导”(elicitation)出他们感兴趣的语言知识,进行语言知识的生产。这时,研究者不再充当语言数据的提供者,而需要通过他人的诱导才可以获取到语言知识。这样的知识获取方式也会受到他人主观性的局限。借助于这种基于规则的语言知识生产范式,学者们数十年如一日地辛勤工作,深入地探讨了语言的规律,洞察各种语言现象,获得了很多对于语言规则的深刻洞见,揭示了自然语言复杂结构的很多奥秘,写出了汗牛充栋的煌煌巨作,学术上具有很强的解释力,取得了辉煌的成果。而且,学者们还把自己的学术成果付诸应用,研制了一些自然语言处理系统,向用户提供了语言知识生产的产品。但是,这样的语言知识生产范式往往会受到研究者本人的主观意识的影响,可能具有主观性和片面性,这些语言知识对于纷繁复杂的语言现象的覆盖面不强,难免出现以偏概全或以蠡测海的弊病。他们研制出来的自然语言处理系统,只能在小规模的子语言(sub-language)中获得成功,一旦扩大语言的规模,就会显得捉襟见肘,穷于对应,覆盖面不高,鲁棒性(robustness)不强。在机器翻译刚刚问世的时候,美国著名数理逻辑学家巴希勒(Y.Bar-Hillel)在1959年就指出,在当时的技术条件下,全自动高质量的机器翻译(fully automatic, high quality machine translation; FAHQMT)是不可能的(Feng 2023:25)。Bar-Hillel举出了如下简单的英语片段,说明要在上下文中发现多义词pen的正确译文是非常困难的事情。John was looking for his toy box. Finally he found it. The box was in the pen. John was very happy.(约翰寻找他的玩具箱子。他最后找到了它。箱子就在游戏圈里。他非常高兴。)Bar-Hillel的理由如下:1) pen在这里只能翻译为play-pen(“游戏圈”),而绝对不能翻译为书写工具“钢笔”;2) 要确定pen的这个正确的译文是翻译好这段短文的关键所在;3) 而要确定这样的正确译文依赖于计算机对于周围世界的常识:小孩做游戏时需要有一个游戏圈;4) 但是我们没有办法把这样的常识加到计算机中去。Bar-Hillel科学地预见到了机器翻译将会遇到的困难,显示了他的远见卓识。这就是著名的“巴希勒难题”(Bar-Hillel problem)。“巴希勒难题”对基于规则的语言知识生产范式提出了严峻的挑战。



二. 基于统计的语言知识生产范式(1990—2012)


20世纪90年代到21世纪初,计算语言学进行了从基于规则的语言知识生产范式到基于统计的语言知识生产范式(statistics-based paradigm of language knowledge production)的战略转移(strategy transit)。

1993年7月在日本神户召开的第四届机器翻译高层会议(MT Summit IV)上,英国著名学者哈钦斯(J. Hutchins)在他的特约报告中指出,自1989年以来,机器翻译的发展进入了一个新纪元。这个新纪元的重要标志是,在基于规则的技术中引入了语料库方法(corpus approach),其中包括统计方法、基于实例的方法、通过语料加工手段使语料库转化为语言知识库的方法,等等。这种建立在大规模真实文本(large scale and authentic text)处理基础上的机器翻译,是机器翻译研究史上的一场革命,它将会把计算语言学推向一个崭新的阶段。在20世纪90年代的最后五年,计算语言学的研究变化显著,进行了从基于规则的语言知识生产范式到基于统计的语言知识生产范式的战略转移。在这样的战略转移中,统计方法逐渐成为计算语言学研究的主流方法,形成了基于统计的语言知识生产范式(冯志伟2015)。早在1913年,马尔可夫(A. A. Markov)就提出了马尔可夫模型(Markov model),这种马尔可夫模型实际上就是N元语法模型(N-gram model)。Markov使用N元语法模型来预测俄罗斯诗人普希金(Puschkin)的《欧根·奥涅金》中下一个字母是元音还是辅音。Markov把《欧根·奥涅金》中的20,000个字母分为V(元音)和C(辅音),并计算二元语法和三元语法的概率,如果要判定给定的字母是否为元音,需要根据它前面的一个或多个字母来决定。这就是二元语法和三元语法思想最早的萌芽,由此可以推广为N元语法模型。1948年, C. Shannon通过对于N元语法的计算来逼近英语的单词序列,用事实说明了可以用N元语法来描述英语。在Shannon工作的基础上, N元语法模型成为了20世纪50年代普遍使用的单词序列的模型。在计算语言学研究中,自然语言生成(natural language generation, NLG)可以根据N元语法的原理来进行。例如,如果我们要在英语字符串The best thing about AI is its ability to(人工智能最好的地方在于它有能力)之后继续生成英语,经过统计分析,在这个字符串之后可能出现的单词的概率如下:

如果计算机在字符串The best thing about AI is its ability to之后连续选择出现概率最高的7个单词,那么,计算机可以生成如下的合乎语法的字符串。如图3所示:

如果计算机在字符串The best thing about AI is its ability to之后选择另一个单词create, 那么,计算机就可以生成其他的合乎语法的字符串。如图4所示:

如果计算机在字符串The best thing about AI is its ability to之后选择另外的单词,那么,还可以生成其他合乎语法的、丰富多彩的字符串。如图5所示:

根据N元语法,计算机可以做出各种各样的选择,从而生成合乎语法的形式各异的字符串来。这种情况可图示如下:

由此可见,N元语法自然语言的自动生成提供了计算语言学理论的支持。在计算语言学中,一般可以使用二元语法、三元语法或四元语法,N元语法的阶数越高,计算的难度越大。谷歌公司在2007年曾经研制过七元语法,也就是考虑当前词前面六个单词对于当前词的影响,计算难度已经很大了(冯志伟 2018)。在C. Shannon的影响下,IBM公司华生研究中心(Thomas J. Watson Center)的贾里尼克(Jelinek)、梅尔塞(Mercer)、巴勒(Bahl)和他们的同事们研究了N元语法模型;在鲍姆(Baum)和他的同事们工作的影响下,卡内基梅隆大学的贝克(Baker)也来研究N元语法。这两个实验室在他们的语音识别系统中,独立地、成功地使用了N元语法。在使用基于统计的语言知识生产范式的时候,可能会出现零概率(zero probability),产生“数据稀疏”的问题,需要进行“数据平滑”(data smoothing)。数据平滑是指为了产生更合理的概率,对最大似然估计进行调整的一种方法。数据平滑处理的基本思想是提高低概率,降低高概率,使整体的概率分布趋于均匀。尽管N元语法模型能缓解数据稀疏的问题,但是自然语言极端复杂,具备无尽的可能性,再庞大的训练语料也难以覆盖所有的N元语法模型,因此,需要使用平滑技术(smoothing technique)来解决数据稀疏的问题,使得系统对所有可能出现的字符串都分配一个非零的概率值,从而避免零概率。语言模型的一些最新的工作集中在探讨建立更加复杂的N元语法的方法方面。这些方法包括:库恩和德莫里(Kuhn & de Mori)在1990年提出的给当前已经发生的N元语法附加权值的方法,也就是“存贮LM法”(cache LM approach),罗森菲尔德(Rosenfeld)等在1996年提出的选择长距离触发算法(long-distance trigger algorithm)来替代局部N元语法的方法,尼伊(Ney)等在1994年提出的使用可变长N元语法(variable-length N-grams)的方法。另外一种类型的方法是使用语义信息来丰富N元语法,这些方法包括:基于潜在语义索引(latent semantic indexing)的语义词联想方法,德米特鲁(Demetriou)等在1997年提出的从联机词典和类属词典中提取语义信息的方法。基于类的N元语法(class-based N-grams)根据单词的类别(例如词类)来建立N元语法的方法。最后,还有一系列的提升N元语法的方法是基于话语知识的,例如,弗洛里安和亚罗夫斯基(Florian & Yarowsky)在1999年提出的使用当前话题的知识来提升N元语法的方法或使用言语行为和对话知识来提升N元语法的方法。20世纪90年代以来,基于统计的计算语言学方法的形式模型有了进一步发展,包括噪声信道模型(noisy channel model)、最大熵模型(max-entropy model)以及基于平行概率语法的形式模型(例如,中心词转录机模型、同步上下文无关语法模型、反向转录语法模型等)。在机器翻译方面,学者们还提出了基于短语的统计机器翻译模型(phrase-based statistical MT model)、基于句法的统计机器翻译模型(syntax-based statistical MT model)。统计机器翻译的译文质量得到大幅度的提高。基于统计的语言知识生产范式从大规模的(large scale)、真实的(authentic)语料库中,通过机器学习(machine learning)的方法来获取语言知识,计算机可以自动地从语料库中发现规律、模式和关联,不再依靠语言学家的“内省”或“诱导”,避免了知识获取方法的主观性和片面性,提高了语言知识生产的可靠性和科学性。机器学习的方法又可以分为有监督机器学习(supervised machine learning)、无监督机器学习(un-supervised machine learning)、半监督机器学习(semi-supervised machine learning)三种,巧妙地把人的主观知识与语料库的客观知识结合起来,大大地提高了语言知识的可解释性,也显著地扩充了语言知识的覆盖面(Jurafsky & Martin 2009:11—12)。有指导的学习实际上是对于语言数据进行分类,首先使用事先定义好的语言特征标记对数据的实例进行标注,作为训练数据,机器根据这些标注好的训练数据进行自动学习,再根据学习得到的知识对于新的数据进行分类。由于用来学习的训练数据是用事先定义好的标记进行过标注的,机器学习的过程是在这些训练数据的指导下进行的,所以叫做有指导的学习。在无指导的学习中,没有使用事先定义好的特征标记对用来学习的语言大数据进行过标注。要使用机器学习的算法来自动地发现隐藏在数据中的结构或规律。这种无指导学习的一个关键技术是聚类,聚类技术根据数据实例的相同点或相异点,自动地把它们聚类为不同的组合。例如,可以把互联网的页面聚类为不同的组合,每一个组合代表一个特定的主题,也可以把文件聚类为不同的层次,每一个层次代表一个特定的主题层次。有指导的学习要求事先人工标注语言数据实例,需要付出巨大的人工的劳动量,费力而又费时,为了减少人工标注的劳动量,可以同时从标注过的数据实例和没有标注过的数据实例中进行学习,标注过的数据实例的集合可以比较小,而没有标注过的数据实例的集合可以很大,这样的模型叫做半指导的机器学习。机器自动学习的这些方法已经成熟,而且广泛地应用于计算语言学的研究中,这就从根本上改变了传统的基于规则的语言知识生产范式,对于计算语言学的发展具有革命性的意义。但是这种基于统计的语言知识生产范式在进行有监督机器学习和半监督机器学习的时候,需要通过手工方式来研究或设计语言特征,从而把语料库中语言数据加工为机器学习算法可以处理的形式,从而提高机器学习的性能和准确度,这项工作有很高的难度,而且要通过手工方式来进行,耗时而又耗力,是一项非常艰巨的“语言特征工程”(language feature engineering)。

三.基于深度学习和神经网络的语言知识生产范式(2012—2018)

21世纪以来,普通计算机用户可以使用的数据资源以惊人的速度迅速增长,互联网成为计算语言学无比丰富的信息来源,无线移动通信日益普及并且日益增长起来,这些都使得计算语言学进入了前所未有的、激动人心的时刻,而计算语言学的应用也就成为了当前科学技术的热门话题。

从2012年开始,计算语言学中采用基于深度学习和神经网络的语言知识生产范式(deep learning and neural network-based paradigm of language knowledge production),自然语言理解和自然语言生成都达到了前所未有的水平。

神经网络(neural network, NN)是计算语言学的一种基本的计算工具,并且是出现得很早的一种工具。之所以叫做“神经”是因为它源自1943年麦卡洛克和皮茨(McCulloch & Pitts)提出的神经元。神经元是一种人类大脑神经的可计算单元的简化模型,可以使用命题逻辑来描述。

现代的神经网络是由一些小的计算单元构成的网络,神经网络中的每一个单元取一个输入值向量,产生一个输出值。因为神经网络在其计算过程中要反复地从神经网络的一个层(layer)馈入到另一个层,我们常常把这叫做深度学习(deep learning, DL),由于这种神经网络通常具有多个层次,因而是一种有深度的网络。

基于深度学习和神经网络的语言知识生产范式与基于统计的语言知识生产范式有很多数学内容是相同的。但是,基于深度学习和神经网络的语言知识生产范式比基于统计的语言知识生产范式具有更加强大的分类能力,哪怕是在技术上只有一个隐藏层的神经网络也能够学习任何的函数。根据基于统计的语言知识生产范式,学者们研制了很多语言特征模板来执行不同的任务。但是在基于深度学习和神经网络的语言知识生产范式中,要尽量避免过多地使用手工方式设计的大量的语言特征,而是要建立一个神经网络,把原始的语言数据作为输入让计算机进行深度学习,让计算机自动地推导出各种特征。深度神经网络是处理大规模语言问题的很恰当的工具,它可以为自动地学习特征提供充分的语言数据。这样一来,就不再需要进行艰苦繁琐的“语言特征工程”了。

在1943年,McCulloch & Pitts就描述了一种理想化的人工神经网络,并构建了一种基于简单逻辑运算的计算机制。他们提出的神经网络模型被称为麦卡洛克—皮茨模型(McCulloch-Pitts model, MP模型),开启了神经网络研究的序幕。1951年,McCulloch & Pitts的学生马文明斯基(Marvin Minsky)建造了第一台模拟神经网络的机器,叫做SNARC。1958年,罗森布拉特(Rosenblatt)提出可以模拟人类感知能力的神经网络模型,称之为感知机(perceptron),并提出了一种接近于人类学习过程的学习算法。但是,感知机因为它的结构过于简单,不能解决简单的线性不可分问题。1969年,明斯基和派珀特(Minsky & Papert)指出了当时的计算机无法支持大型神经网络所需要的计算能力。这样的论断直接将以感知机为代表的神经网络打入冷宫,导致神经网络的研究进入了十多年的“低谷”。1974年,哈佛大学的保罗·韦伯斯(Paul Webos)提出反向传播算法(backpropagation, BP),但当时未受到应有的重视。1980年,福岛(Fukushima)提出了一种带卷积和子采样操作的多层神经网络,叫做新知机(neocognitron)。新知机的提出受到了动物初级视皮层简单细胞和复杂细胞的感受野的启发,但新知机没有采用反向传播算法,而是采用了无监督学习的方式来训练,因此没有得到学术界的重视。

在1983至1995年间,反向传播算法重新激发了人们对神经网络的兴趣。1983年美国加州理工学院的物理学家约翰·霍普费尔德(John Hopfield)提出一种用于联想记忆和优化计算的神经网络,称为何普菲尔德网络(Hopfield network)。1984年加拿大多伦多大学的计算机科学家杰弗里·辛顿(Geoffrey Hinton)提出一种随机化版本的何普菲尔德网络,叫做玻尔兹曼机(Boltzmann machine)。1986年,David Rumelhart & James McClelland对于连接主义(connectionism)在计算机模拟神经活动中的应用进行了全面的研究,并改进了反向传播算法。

Geoffrey Hinton等人将反向传播算法引入到多层感知机(multi-layer perceptron)中,于是人工神经网络又重新引起人们的注意,并开始成为新的研究热点。

随后,杨立昆(Yann LeCun)等人将反向传播算法引入到卷积神经网络(convolutional neural network, CNN)中,并在手写体数字识别上取得了很大的成功。

2006年,辛顿和萨拉库迪诺夫(Hinton & Salakhutdinov)发现多层的前馈神经网络(feed-forward neural network, FFN)可以通过逐层预训练,再用反向传播算法进行微调,取得了很好的机器学习的效果。随着深度的人工神经网络在语音识别、图像分类、自然语言处理等应用领域中的巨大成功,以神经网络为基础的深度学习迅速崛起。

近年来,随着大规模并行计算以及图形处理器(graphic processing unit)设备的普及,计算机的计算能力得到大幅度提高,可供机器学习的数据资源的规模也越来越大。在计算能力和数据资源规模的支持下,计算机已经可以通过“深度学习”的方式,训练大规模的“神经网络”,进行全自动的语言知识生产,不再需要艰巨的语言特征工程。由于语言知识是从大规模真实的语料库中获取的,这样的范式覆盖面大,知识获取的效果超过了基于规则的语言知识生产范式和基于统计的语言知识生产范式。但是,这种基于深度学习和神经网络的语言知识生产范式的解释力不强,研制出来的自然语言处理系统尽管性能优异,还是一个难以解释的“黑匣子”(black box)。



四. 基于生成式人工智能的语言知识生产范式(2018—现在)


在当前的神经机器翻译研究中,为了解决语言数据贫乏的问题,学者们开始探讨小规模语言数据资源下自然语言处理的可行性问题,因而提出了“预训练语言模型”(pre-trained language models)。这样的语言模型使用大规模的文本语料库数据进行“预训练”,建立“预训练语言模型”,然后使用面向特定任务的小规模语言数据集,根据迁移学习的原理进行“微调”(fine-tuning),形成“下游任务的模型”(冯志伟、李颖 2021)。

这样的预训练语言模型新范式使得神经机器翻译或其他自然语言处理系统的研究者能够专注于特定的任务,而适用于各种任务的通用的预训练语言模型可以降低神经机器翻译系统或其他自然语言处理系统的研制难度,从而加快了计算语言学研究创新的步伐。研究人员设计出各种预训练模型,这些预训练模型可以把通过预训练从大规模文本数据中学习到的语言知识,迁移到下游的自然语言处理和生成任务模型的学习中。预训练模型在几乎所有自然语言处理的下游任务上,都表现出了优异的性能。预训练模型也从单语言的预训练模型,扩展到了多语言的预训练模型和多模态的预训练模型,并在相应的下游任务上都表现出色,成为了一个功能强大的“大语言模型”(large language model, LLM),计算语言学进入了空前繁荣的大语言模型的新时代(冯志伟等 2023)。2018年ELMo(AI2研制)、 GPT(OpenAI研制)、 BERT(Google研制)等大语言模型先后问世。2019年GPT-2(OpenAI研制)、 VideoBERT(Google研制)、 XLNet(Google研制)等大语言模型又相继建立。其中OpenAI研制的GPT和GPT-2就是著名的ChatGPT的前身。以奥特曼(Sam Altman)为首的OpenAI公司开发的基于Transformer2的生成式训练模型(generative pre-trained transformer, GPT)成为了当前大语言模型研究的核心技术,包括GPT-1、 GPT-2、 GPT-3、 InstructGPT、 ChatGPT、 GPT- 4、 GPT- 4 Turbo, 我们把它们统称为GPT系列,简称为GPTs。

从图7可以看出,OpenAI公司于2018年研制了GPT-1,于2019年研制了GPT-2,于2020年5月研制了GPT-3,于2020年7月分别研制了GPT-3中的davinci, curie, babbage, 于2022年3月研制了InstructGPT,进行文本和代码的语言模型训练,研制成GPT-3.5,接着进行有监督微调(supervised fine tuning, SFT)和基于人类反馈的强化学习(reinforcement learning from human feedback, RLHF),于2022年11月推出ChatGPT。ChatGPT是一种对话场景优化语言模型(optimizing language models for dialogue)。ChatGPT比GPT-3更进一步,已经进化到具备执行自然语言指令的能力,用户不必给出示例,只要使用自然语言给出指令,ChatGPT就可以理解用户的意图。例如,用户只要直接用自然语言告诉ChatGPT把某个英语单词译成法语,ChatGPT就可以执行,并给出翻译结果。ChatGPT可以根据上下文提示(prompt),自动理解并执行各类任务,不必更新模型的参数或架构。GPTs利用Transformer模型,从语言大数据中获取了丰富的语言知识,GPTs在语言生成任务上达到了相当高的水平。这样一来,GPTs便成为了大语言模型时代的最重要的神经网络模型。GPTs系列的训练参数越来越多,性能越来越好(冯志伟、张灯柯 2023)。ChatGPT的训练语料高达100亿个句子,包含约5000亿个词元(tokens)。ChatGPT可以通过使用大量的训练数据来模拟人的语言行为,生成人类可以理解的文本,并能够根据上下文语境,提供出恰当的回答,甚至还能做句法分析和语义分析,帮助用户调试计算机程序,写计算机程序的代码,做数学题,而且能够通过人类反馈的信息,不断改善生成的功能,已经达到了很强的自然语言生成能力。ChatGPT使用Transformer进行训练,在训练过程中,使用海量的自然语言文本数据来学习单词的嵌入表示(word embedding expression)以及上下文之间的关系(context relation),形成知识表示(knowledge representation)。一旦训练完成,知识表示就被编码在神经网络的参数中,可以使用这些参数来生成回答。当用户提出问题时,神经网络就根据已经学习到的知识,把回答返回给用户。ChatGPT从语言大数据中获取了丰富的语言知识,在语言生成任务上达到了相当高的水平。这样一来,ChatGPT便成为了大语言模型时代的最重要的基于生成式人工智能的语言知识生产范式(generative artificial intelligence-based paradigm of language knowledge production)的杰出代表。大语言模型采用的范式是基于生成式人工智能的语言知识生产范式,这种范式的训练参数越来越多,性能越来越好。2018年6月开发的GPT-1有1.17亿参数。2019年2月开发的GPT-2有15亿个参数。2020年5月,GPT-3启动,有1750亿参数,参数总量是GPT-2参数的117倍,开始了大规模的机器学习,把能获取到的人类书籍、学术论文、新闻、高质量的各种信息作为学习内容。GPT-3有1750亿个参数,犹如一个巨大的恐龙,而GPT-2只有15亿参数,犹如一个普通人。如图8所示:

从图9可以看出,从2018年的ELMo开始,大语言模型的参数日益增长,到了GPT-3,增长到了1750亿,2021年和2022年增长更快。

这样庞大的参数规模是人类远远无法达到的。如果我们人类每秒钟处理一个单词,不计睡眠时间,一个人终其一生处理的单词数量也不会超过10亿个,而ChatGPT可以处理上千亿的参数,5000多亿词元。这样的能力是人类望尘莫及的!ChatGPT在2022年11月30日推出仅仅5天,注册用户就超过百万;推出短短的两个月,月活跃用户就超过1亿。抖音海外版TikTok月活跃用户超过1亿用了9个月时间;Twitter月活跃用户超过1亿用了90个月时间;ChatGPT打破了历史记录,遥遥领先,引起了全球亿万网民的广泛注意,在大语言模型时代掀起了一场史无前例的、波澜壮阔的海啸。ChatGPT的推出引起了巨大的轰动。成千上万的用户从不同角度对它进行了应用体验。2023年3月17日,OpenAI发布GPT- 4。GPT- 4具有强大的识图能力,文字输入限制由3千词提升至2.5万词,回答问题的准确性显著提高,能够生成歌词、创意文本,改变文本的写作风格,还具有自动翻译的能力。2023年11月7日,Open AI举行开发日(DevDay),Altman在开发日上宣布了GPT- 4的一次大升级,推出了GPT- 4 Turbo, 引起了全世界的密切关注。GPTs系列的成功具有划时代的里程碑性质,是大语言模型时代最伟大的成果,足以载入人工智能发展的史册。随着基于生成式人工智能的语言知识生产范式的发展,机器翻译也有了长足的进步。2023年5月25日,冯志伟使用ChatGPT- 4来翻译“巴希勒难题”中的英语片段:John was looking for his toy box. Finally he found it. The box was in the pen. John wasvery happy.翻译结果为:“小约翰正在寻找他的玩具盒,最终他找到了。盒子在圈里。约翰非常高兴。”这是ChatGPT- 4回答的截图:

这里,ChatGPT- 4把pen正确地翻译为做游戏的“圈”,这是一个重要的突破。因为这需要关于做游戏的背景知识,ChatGPT- 4通过大语言模型的分析,具备了这样的背景知识,得到了正确的译文。可见ChatGPT- 4已经具备了分析背景知识的能力。60多年来困扰机器翻译的“巴希勒难题”终于获解。基于生成式人工智能的语言知识生产范式有力地推动了机器翻译的进展,这是令人惊叹的进步!建立在这种范式基础上的大语言模型是一种由包含数百亿以上参数的深度神经网络构建的语言模型。大语言模型通常使用自监督学习方法(self-supervised learning)通过大量无标注文本进行训练。自2018年以来,Google、OpenAI、Meta、百度、华为等公司和研究机构都相继发布了包括BERT,GPTs等在内的多种大语言模型,这些模型在几乎所有自然语言处理任务中都表现出色。由于大语言模型处理的对象是自然语言,因此,大语言模型不仅是人工智能的重大成果,当然也是计算语言学的重大成果。2019年,大语言模型呈现爆发式增长的局面,特别是OpenAI公司在2022年11月发布ChatGPT之后,更是引起了全世界的广泛关注。用户可以使用自然语言与ChatGPT交互,从而完成包括问答、分类、摘要、翻译、聊天等从自然语言理解到自然语言生成的各种任务。在这些任务中,大语言模型展现出了强大的对世界知识掌握和对自然语言的理解能力。大语言模型的发展历程虽然只有短短几年的时间,但是发展速度相当惊人。截至2023年6月,国内外已经有超过百种的大语言模型相继发布。图11按照时间线的顺序,给出2019年至2023年5月比较有影响力并且模型参数超过100亿的大语言模型。

大语言模型的发展可以粗略地分为以下三个阶段:基础模型阶段、能力探索阶段、突破发展阶段。基础模型阶段:这个阶段主要集中于2018年至2021年。2017年Vaswani等人提出了Transformer架构,在机器翻译任务上取得了突破性进展。2018年Google和Open AI分别提出了BERT(Vaswani et al. 2017)和GPT-1模型,开启了预训练语言模型时代。BERT-Base 版本的参数量为1.1亿,BERT-Large版本的参数量为3.4亿,GPT-1的参数量为1.17亿。相比其他深度学习和神经网络的参数量,这些大语言模型参数的数量级有了明显的提升。2019年Open AI发布了GPT-2(Brown et al. 2020),其参数量达到了15亿。此后,Google也发布了参数量规模为110亿的T5模型(text-to-text transfer transformer model)(Raffel et al. 2020)。2020年Open AI进一步将语言模型参数量扩展到1750亿,发布了GPT-3。此后,我国也相继推出了一系列的大语言模型,包括清华大学的ERNIE(THU)、百度的ERNIE(Baidu)、华为的盘古-α等。这个阶段的研究主要集中于语言模型本身,研究范围包括“编码器—解码器”(encoder-decoder)等各种类型的模型结构。这些模型通常采用预训练—微调范式,针对不同下游任务进行微调。但是,当模型参数量在10亿以上时,微调的计算量很高。能力探索阶段:这个阶段集中于2019年至2022年。由于大语言模型很难针对特定任务进行微调,研究人员们进行了进一步的探索,试图在不针对单一的特定任务进行微调的情况下,发挥大语言模型的能力。2019年,雷德福(Radford)等人就使用GPT-2模型研究了大规模语言模型在零样本情况下的处理能力。在此基础上,布朗(Brown)等人在GPT-3模型上研究了通过语境学习(in-context learning)进行少样本学习的方法。将不同任务的少量有标注的实例拼接到待分析的样本之前输入语言模型,使用语言模型根据实例理解任务,给出正确结果。这样的研究展示出了非常强的能力,在有些任务中甚至超过了基于统计的语言知识生产范式。上述方法不需要修改语言模型的参数,模型在处理不同任务时也不需要花费大量的计算资源进行模型微调。但是,仅仅依赖语言模型本身,其性能在很多任务上仍然很难达到有监督学习的效果,因此研究人员们还提出了指令微调(instruction tuning)(Chung et al. 2022)方案,将大量各类型任务,统一为生成式自然语言理解框架,并构造训练语料进行微调。大语言模型一次性学习数千种任务,并在未知任务上展现出了很好的泛化能力。2022年Ouyang等人提出了InstructGPT算法(Ouyang et al. 2022),使用有监督微调再结合强化学习,使用少量数据就可以使得大语言模型服从人类的指令。中野(Nakano)等人探索了结合搜索引擎的问题回答算法WebGPT(Nakano et al. 2021)。这些方法在直接利用大语言模型进行零样本(zero shot)和少样本(few shot)学习的基础上,逐渐扩展到利用生成式框架针对大量任务进行有监督微调的方法,有效地提升了模型的性能。突破发展阶段:这个阶段从2022年11月ChatGPT的发布开始,一直延续到现在。ChatGPT通过简单的对话框(Chat),利用一个大语言模型就可以实现问题回答、文稿撰写、代码生成、数学解题等过去自然语言处理系统需要大量的小模型订制开发才能分别实现的能力。它在开放领域问答、各类自然语言生成式任务以及理解上文方面所展现出来的能力,远远超出大多数人的想象。2023年3月GPT- 4发布,相较于ChatGPT又有了非常明显的进步,并具备了多模态理解能力。GPT- 4在多种基准考试测试上的得分高于88%的人类应试者,包括美国律师资格考试(Uniform Bar Exam)、法学院入学考试(Law School Admission Test)、学术能力评估(Scholastic Assessment Test, SAT)等。GPT- 4展现了近乎“通用人工智能”(artificial general intelligence, AGI)的能力。各大公司和研究机构也相继发布了此类系统,包括Google推出的Bard、百度的文心一言、科大讯飞的星火大模型、智谱的ChatGLM、复旦大学的MOSS等。从2022年开始,大语言模型呈现出爆发式的增长,各大公司和研究机构都在发布各种不同类型的大语言模型,出现了“百模大战”的局面。大语言模型是N元语法模型进一步的发展。从计算语言学的角度来看,GPT实际上是一个N元语法模型,这种模型根据前面出现的单词来预测后面的单词。在一个语言符号序列中,N元语法对于下一个语言符号的条件概率逼近的通用等式是:

这个等式说明,对于所有给定的前面的语言符号,语言符号wn的概率可以只通过前面N-1个语言符号的概率来逼近。N元语法的能力随着它的阶数的增高而增高,训练模型的上下文越长,句子的连贯性就越好。在GPTs中,把自然语言中的离散符号(discrete symbols)映射为N维空间中的连续向量(continuous vectors),这样的连续向量就是“词向量”(word vector)。由于把语言符号都映射为向量空间中的词向量,不再需要手工设计语言特征,计算机能够自动地从语料库中获取和计算向量化的语言特征,大大地节省了人力(冯志伟 2019)。构造语言符号的向量化特征表示也就是进行“词嵌入”(word embedding, WE)。“词嵌入”把自然语言中的每一个语言符号映射为向量空间中的一个词向量,并且在这个向量空间中形式化地定义自然语言的语言符号与语言符号之间的相互关系。词向量的长度也就代表了N元语法的阶数(Mikolov et al. 2013)。所以,我们认为,GPTs是一个数据驱动的“端到端嵌入”(end to end embedding)的大语言模型。2022年11月OpenAI公司推出的ChatGPT大语言模型实际上就是一个阶数很高的N元语法模型,可以精确地描述单词之间的关系,能够生成通顺流利、修辞优美的句子,达到了很好的效果,但由于阶数高,计算难度非常之大,需要很强大的算力。2023年11月OpenAI公司推出的GPT-4 Turbo, 其上下文长度有128K之多,这意味着GPT- 4 Turbo能够理解超过300页纸张的文本量,这是一个阶数极高的N元语法模型。在大语言模型中,语言模型的规模达到数百亿甚至数千亿单词,计算机就可以在大语言模型的基础上,自动地生成自然语言。语言数据的规模越大,自然语言处理的效果越好(冯志伟、张灯柯 2024)。Kaplan等人(Kaplan et al. 2020)在文献中提出了缩放法则(scaling laws),指出模型的性能依赖于模型的规模,包括:计算量(compute)、数据集大小(data size)和参数量(parameters),模型的效果会随着这三者的增加而提高,而模型的损失(loss)值随着计算量的规模、数据集的规模、参数量的增大而线性降低。如图12所示:

这意味着模型的能力是可以根据这三个变量来估计的,提高模型的计算量、扩大数据集规模、提高参数量,都可以降低模型的损失,使得模型的性能可预测地提高。“缩放法则”为继续提升大模型的规模给出了定量分析依据。在GPT的研制中,随着训练数据的增加,词向量的长度和参数量也随之增加。GPT-1的训练数据约5GB,词向量的长度为768,参数量为1.17亿;GPT-2的训练数据为40GB,词向量的长度为1600,参数量为15亿;GPT-3的训练数据为45TB,词向量长度为12888,参数量为1750亿。研究者发现,当数据规模参数超过500亿的时候,系统会出现“涌现”(emergence)现象,只需要输入一段提示,即便在没有训练过的新任务上,系统也能够举一反三,无师自通,很好地工作,显示出越来越接近于人类的优秀表现,生成的语言也就越来越接近人类的语言。如图13所示:

美国斯坦福基础模型研究中心语言大模型综合评测发现:当大语言模型的规模扩展到500亿参数时,模型的准确率(accuracy)、校准错误(calibration error)、鲁棒性等性能指标一般会从“猜测水平(0.5)”处跃升。如图14所示,0.5表示500亿参数。

这样的“涌现”现象似乎意味着,当训练数据在数量上增加到500亿时,GPT系统发生了从量变到质变的重大变化。因此,只要不断地增加训练数据,就会产生质变的飞跃。可见,涌现是指系统内部的个体或组件通过相互作用和动态演化所导致的产生全新的、难以预测的属性、行为和规律的现象。这些新的特征无法简单归因于某一个单独的个体或组件,也无法直接从单独的个体或组件的属性中推导出来。为什么大语言模型会出现“涌现”,如何来阐明“涌现”的本质,目前也还是一个未解之谜。这种群体性的“涌现”现象在其他的学科中也有类似的表现。例如:在免疫学中,单个免疫细胞的功能是单一的,但是,无数的免疫细胞却可以组成非常强大的免疫系统。在神经学中,众多神经元的相互作用可以产生意识、思想、记忆等复杂的现象,然而我们却无法从单一的神经细胞推导出这些现象。在生物学中,一只蚂蚁没有规划能力,但一个蚁群却可以构建出复杂的蚁穴来。在物理学中,液体的流动性、张力、抗压性是由单个水分子通过分子间相互作用产生的,但我们却无法从单个分子的特性中推导出液体的流动性、张力、抗压性。由此观之,在大语言模型中出现“涌现”这样的现象在其他学科中也是存在的。人类单个神经元的功能有限,而人类的大脑有860亿个神经元,有6000万亿个链接,这样的群体效应最终涌现出了极为复杂的人类意识,使人类成为了万物之灵。大语言模型采用了基于生成式人工智能的语言知识生产范式,从语言大数据中获取了丰富的语言知识,在语言生成任务上达到了相当高的水平,这样的大语言模型已经达到了很强的自然语言生成能力,计算机的语言知识生产产品可以预期与人类的语言知识生产产品媲美。基于生成式人工智能的语言知识生产范式覆盖面广,这种范式深刻地改变了过去的语言知识生产方式,呈现出语言学的研究主体从单一的个体钻研到团体的群智协同,语言学的研究过程从经验积累到数据分析,语言学的研究形式从原理形态转向交叠形态,采取了跨学科研究和多模态研究的新技术。这是语言知识生产范式在方法论上的剧烈变革和重大创新,这样的变革和创新将会推动整个语言学科的进步。当然,由于这样的范式都是采用了处于人类本体之外的大规模语言数据,存在可信度小、可控性弱、鲁棒性差等弊病。基于生成式人工智能的语言知识生产范式是一种变革性的人工智能技术,它将重塑社会和科学技术发展,但同时它也存在多种明显的风险及可以预见的风险。首先,基于生成式人工智能的语言知识生产范式会出现“幻觉”(hallucination),可能会生成不真实、前后不一致的内容,或者生成不符合人类期望的文本,其中可能包含歧视、偏见和泄露他人隐私、敏感信息的内容;还可能传播模型训练数据中的有害信息和有毒内容,产生误导性和虚假性信息。其次,基于生成式人工智能的语言知识生产范式可能会被别有用心的人用来执行恶意行为。未经对齐的大语言模型能够生成以假乱真的假新闻,也能够帮助黑客们对网络上的设备开展攻击。这些恶意行为会对我们的日常生活产生负面影响,甚至会对整个社会造成严重的伤害。随着其能力的不断增强,基于生成式人工智能的语言知识生产范式还可能展现出“追求”自我保护、自我增强、获取资源等目标,这些目标在通用人工智能中通常被称为工具性趋同目标,因为几乎所有人工智能代理(AI agent)都有可能将它们作为其追求的目标。此外,基于生成式人工智能的语言知识生产范式的语言模型训练和部署需要消耗巨大的计算资源和电力,要花费巨额的投资和社会财富。这些都是基于生成式人工智能的语言知识生产范式可能产生的弊端和风险。使用这种范式研制出来的各种语言数字代理将越来越多地融入我们的日常生活中。为了克服基于生成式人工智能的语言知识生产范式的这些弊端和避免各种难以预测的风险,需要推动大语言模型对齐(LLMs alignment)技术的研究,使大语言模型的输出和行为与人类的期望和价值保持一致。任何未对齐的行为都可能导致意想不到的严重后果。总体来说,从语言知识生产范式更迭的角度,计算语言学大致可以分为4个阶段:CL-1.0, CL-2.0, CL-3.0, CL- 4.0。CL-1.0表示计算语言学的第一代范式——基于规则的语言知识生产范式这种范式是基于规则的自然语言处理,主要采用词典(dictionary/lexicon)加规则(rule)的方法来获取语言知识,进行语言知识生产,语言知识生产的主导者是人,获取语言知识的手段是研究者的“内省”和“诱导”。CL-2.0表示计算语言学的第二代范式——基于统计的语言知识生产范式:这种范式是基于统计的自然语言处理,主要采用统计模型,从大规模的真实语料库中获取语言知识,语言知识生产的主导者逐渐地由人转到机器,但是仍然需要手工来进行艰巨的语言特征工程。CL-3.0表示计算语言学的第三代范式——基于深度学习和神经网络的语言知识生产范式:这种范式是基于深度学习和神经网络的自然语言处理,主要采用深度学习模型和神经网络的方法来获取语言知识,不再需要手工方式的语言特征工程。CL- 4.0表示计算语言学的第四代范式——基于生成式人工智能的语言知识生产范式:这种范式是基于大语言模型的自然语言处理,主要采用预训练加微调的方法来获取语言知识,语言数据的规模越大,自然语言处理的效果越好,语言知识生产的主导者主要是机器。基于生成式人工智能的语言知识生产范式取得的成就应当算是当代语言研究的重大成果,可惜的是,语言学家对于这种基于生成式人工智能的语言知识生产范式几乎没有贡献。语言学家本来就是以揭示语言的奥秘为己任的,可是,与基于生成式人工智能的语言知识生产范式取得的辉煌成果相比,语言学家几十年如一日的许多研究成果显得苍白无力,基于生成式人工智能的语言知识生产范式取得的巨大成就似乎成为了对于语言学家几十年如一日的艰苦探索工作的辛辣嘲讽。基于生成式人工智能的语言知识生产范式对语言学提出了严峻的挑战。计算机把文本中的语言符号转化为向量,读了亿万个“词元”,只要根据上下文对于下一个“词元”的预测来调整参数,就可以自动地生成符合语法、逻辑通顺、修辞优美的文本。可见构成新文本的脉络就潜藏在大规模的文本数据之中。这样的脉络的实质是什么?怎样发现这种脉络?怎样使用这种脉络?这正是当代语言学应当深入研究的重大问题。



作者简介







冯志伟

个人简介:教授、博士生导师,教育部语言文字应用研究所研究员,新疆大学天山学者,黑龙江大学兼职研究员。出版论著30多部,发表论文400多篇,主持研制国际标准1项、国家标准1项、国家规范3项,参与研制国家标准13项。担任国内外著名杂志编委,2006年获奥地利维斯特奖,2018年获中国计算机学会NLPCC 杰出贡献奖,2021年获中国中文信息学会会士称号,2022年获香港圣弗朗西斯科技人文奖。主要研究方向为计算语言学、理论语言学、术语学。

张灯柯
个人简介:新疆大学讲师,主要研究方向为计算语言学、维吾尔语-汉语翻译。

本文来源:《当代修辞学》

点击文末“阅读原文”可跳转下载







好文荐读|崔 璨、王立非:语言国际传播力指数研制与中文传播力评价研究

2024-06-04

好文荐读|应学凤、陈昌来:语言类型学与汉语研究四十年

2024-06-02

好文荐读|王姗姗、周小兵:语言共性与汉语二语者多项状语语序习得

2024-05-31

好文荐读|郑伟、刘婧婧:人工智能与大数据时代多维度的语言运用研究

2024-05-27

好文荐读|王海峰、韩晓明:国别化中文教育视角下教师课堂教学研究

2024-05-26

好文荐读|曹娜、曹贤文:汉语二语学习者主语回指语显隐的多因素分析

2024-05-25

好文荐读|李宇明、梁京涛:语言数据的生产要素功能与产权制度构建

2024-05-21

好文荐读|罗琼鹏:名词融合与复杂谓词的形成

2024-05-12

好文荐读|马瑞祾、徐娟:国际中文写作智慧教学模式构建与应用探索

2024-05-10


欢迎加入

“语言学心得交流分享群”“语言学考博/考研/保研交流群”


请添加“心得君”入群请备注“学校/单位+专业/研究方向”

今日小编:东东咚  

审     核:心得小蔓

转载&合作请联系

"心得君"

微信:xindejun_yyxxd

点击“阅读原文”可跳转下载

继续滑动看下一个
语言学心得
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存