在计算语言学这门学科的发展过程中,当然也要进行语言知识的生产。语言知识的生产范式(paradigm of language knowledge production)经历了基于规则的语言知识生产范式、基于统计的语言知识生产范式、基于深度学习与神经网络的语言知识生产范式、基于生成式人工智能的语言知识生产范式的变迁。
一.基于规则的语言知识生产范式(1936—1990)
在计算机出现以前,英国数学家A.M.Turing(艾伦·麦席森·图灵)就预见到未来的计算机将会对自然语言研究提出新的问题,揭开了基于规则的语言知识生产范式(rule-based paradigm of language knowledge production)的序幕。
1936年,图灵(Turing)向伦敦权威的数学杂志投了一篇论文,题为“论可计算数及其在判定问题中的应用”(Turing 1936)。在这篇开创性的论文中,Turing给“可计算性”下了一个严格的数学定义,并提出著名的“图灵机”(Turing Machine)数学模型。图灵机不是一种实体的机器,而是一种抽象的数学模型,可根据图灵机的原理来制造一种十分简单但运算能力极强的计算装置,用来计算所有能想象到的可计算函数。1950年10月,Turing在《计算机与智能》(Turing 1950)一文中指出:我们可以期待,总有一天机器会同人在一切的智能领域里竞争起来。但是,以哪一点作为竞争的出发点呢?这是一个很难确定的问题。许多人以为可以把下棋之类的极为抽象的活动作为最好的出发点,不过,Turing更倾向于支持另一种主张:这种主张认为,最好的出发点是制造出一种具有智能的机器,然后教这种机器理解英语并且说英语。这个过程可以仿效小孩子说话的那种办法来进行。Turing提出,检验计算机智能高低的最好办法,就是让计算机来讲英语和理解英语,进行“图灵测试”(Turing Test),根据计算机的英语水平来判断计算机智能的高低。他天才地预见到计算机和自然语言将会结下不解之缘。20世纪50年代兴起的自动机理论来源于Turing在1936年提出的可计算性理论和图灵机模型,Turing划时代的研究工作被认为是现代计算机科学的基础(冯志伟 2017:11—12)。1948年,美国学者香农(C.Shannon)使用离散马尔可夫过程的概率模型来描述语言。Shannon的另一个贡献是创立了“信息论”(information theory)(Shannon 1948)。他把通过通信信道或声学语音这样的媒介传输语言的行为比喻为“噪声信道”(noisy channel)或者“解码”(decoding)。Shannon还借用热力学的术语“熵”(entropy)作为测量信道的信息能力或者语言符号的信息量的一种方法,并且他用概率技术首次测定了英语字母的熵为4.03比特1,为英语字母的八位单字节编码(octal single-byte encoding)提供了理论依据。1956年,美国语言学家乔姆斯基(N.Chomsky)从Shannon的工作中吸取了有限状态马尔可夫过程(finite state markov process)的思想,首先把有限状态自动机作为一种工具来刻画自然语言的语法,并把有限状态语言定义为由有限状态语法生成的语言。这些早期的研究工作产生了“形式语言理论”(formal language theory)这样的研究领域,采用代数和集合论把形式语言定义为符号的序列。Chomsky在研究自然语言时,首先提出了“上下文无关语法”(context-free grammar, CFG)的科学概念。后来,计算机科学家巴科斯和瑙尔(Backus & Naur)等在描述程序语言ALGOL(algorithmic language)的工作中,分别于1959年和1960年也独立地发现了这种上下文无关语法。这些研究都把数学、计算机科学与语言学巧妙地结合起来。Chomsky在计算机出现的初期把计算机程序设计语言与自然语言置于相同的平面上,用统一的观点进行研究和界说。他在《自然语言形式分析导论》(Chomsky 1963)一文中,从数学的角度给语言提出了新的定义,指出:这个定义既适用于自然语言,又适用于逻辑和计算机程序设计理论中的人工语言。在《语法的形式特性》(Chomsky 1963)一文中,他专门用了一节的篇幅来论述程序设计语言,讨论了有关程序设计语言的编译程序问题,这些问题是作为组成成分结构的语法的形式研究,从数学的角度提出来,并从计算机科学理论的角度来探讨的。Chomsky在《上下文无关语言的代数理论》(Chomsky 1963)一文中提出:我们这里要考虑的是各种生成句子的装置,它们又以各种各样的方式,同自然语言的语法和各种人工语言的语法都有着密切的联系。他把语言直接看成是在符号的某一有限集合V中的符号串(string)的集合,而V就叫做该语言的词汇,他把语法看成是对程序设计语言的详细说明,而把符号串看成是程序。在这里,Chomsky把自然语言和程序设计语言放在同一平面上,从数学和计算机科学的角度,用统一的观点来加以考察,对语言、词汇等语言学中的基本概念达成了高度抽象化的认识。这些著名学者对于语言和计算关系的探讨,是计算语言学兴起前夕的最重要的研究成果,为计算语言学的理论和方法奠定了坚实的基础(冯志伟 2010:2—14)。这些出色的研究都是基于规则,都采用了基于规则的语言知识生产范式。1954年,美国乔治城大学在国际商用机器公司(IBM)的协同下,用IBM-701计算机进行了世界上第一次机器翻译试验,把60个简单的俄语句子翻译成英语。这可以看成是计算语言学研究的开始,也是基于规则的语言知识生产范式的优秀产品。接着,苏联、英国和日本也进行了机器翻译试验,机器翻译出现热潮。早在1947年9月,英国数学家A. M. Turing在一份写给英国国家物理实验室的报告中谈到他建造计算机的计划时就指出,“机器翻译”可以显示计算机的“智能”(intelligence)。七年之后的1954年,机器翻译果真成为了活生生的现实。这证实了Turing天才的预见!在1955年8月31日发布的《人工智能达特茅斯夏季研究项目提案》中,人工智能的开创人之一约翰·麦卡锡(J. MacCarthy)就明确地提出,人工智能要研究语言与智能的关系。他在这个研究提案中说:在明年和夏季人工智能研究项目期间,他建议研究语言与智能的关系。他指出,英语有许多属性,而目前所描述的每一种形式语言都缺乏这些属性。这些属性是:1) 用非正规的数学补充的英语论证是简明扼要的;2) 英语具有普遍性,可以在英语中设置任何其他的语言,然后在适当的地方使用这些语言;3) 英语的使用者可以用英语来引用他自己的说明,并陈述关于他自己在解决有关问题方面的进展;4) 如果英语完全地形式化,那么,除了证明规则之外,还可以推导出一些猜测性的规则。MacCarthy在他的研究提案中还进一步指出:他希望尝试制定一种具有上述属性的语言,并且这种语言除了包含物理现象、事件等概念之外,他还希望使用这种语言可以对计算机进行编程,以便计算机学习怎样很好地玩游戏以及执行其他任务。MacCarthy的这些观点是关于使用自然语言对计算机进行编程的早期论述,他试图把自然语言与计算机联系起来,用形式化的语言来给计算机编程。由此可见,人工智能(artificial intelligence, AI)从诞生开始,就把研究的目光敏锐地投向了自然语言。所以,人工智能与自然语言处理有着密切的关系。除了语言规则之外,还需要机器词典来形式化地描述单词的句法和语义特征。所以,这样的语言知识生产范式是建立在“规则”加“词典”的基础之上的。这些出色的基础性研究,为基于规则的语言知识生产范式奠定了坚实的基础。从20世纪60年代开始,法国格勒诺布尔理科医科大学应用数学研究所(法文:Institut Mathematique Appliquèe de Grenoble, IMAG)自动翻译中心(法文:Centre d’Etude de Traduction Automatique, CETA)就开展机器翻译系统的研制。这个自动翻译中心的主任是著名法国数学家沃古瓦(B. Vauquois)教授,他也是国际计算语言学委员会(COLING)的创始人和第一任主席(冯志伟 2016),是本文第一作者冯志伟在法国留学时的导师。B.Vauquois于1968年提出沃古瓦三角形(Vauquois triangle),又叫做机器翻译金字塔(pyramid of machine translation),用于表示基于规则的机器翻译的过程和类别。如图1所示:
在沃古瓦三角形中,机器翻译从源语言(source language)开始,首先进行源语言形态分析,接着进行源语言句法剖析,然后进行源语言浅层语义分析和概念分析,分析完成后就进行目标语言(target language)生成。首先进行目标语言的概念生成,再进行目标语言的语义生成,接着进行目标语言的句法生成,然后进行目标语言的形态生成,产生出目标语言。沃古瓦三角形的顶端是中间语言(interlingua),这是独立于源语言和目标语言规范的语义表达形式。基于规则的语言知识生产范式取得了不少成绩,自然语言形式分析的技术有了很大的进展,计算语言学家们使用计算机,自动地构造出了自然语言句子的句法结构,这是传统语言学家做不到的。在计算语言学中,计算语言学家们使用短语结构语法(phrase structure grammar)的分析技术,可以自动地生成短语结构树来表示句子的句法结构。例如,英语句子The cat the dog the rat bit chased likes tuna fish.(老鼠咬过的狗追赶着的猫喜欢金枪鱼。)可以分析为如下的短语结构树:
这个句子具有多层嵌套,结构十分复杂,可以看出,计算机造出的短语结构树是正确的。根据基于规则的语言知识生产范式,计算语言学家们还提出了很多新的方法,自然语言处理取得了长足的进步(冯志伟 2004:12—34)。逻辑方法在计算语言学中取得了很好的成绩。1970年,阿兰·科尔默劳尔(Colmerauer)和他的同事们使用逻辑方法研制了Q系统(Q-system)和变形语法(metamorphosis grammar),并在机器翻译中得到应用。Colmerauer还是Prolog(programming in logic)语言的先驱者,他使用逻辑程序设计的思想设计了Prolog语言。1980年佩瑞拉和瓦楞(Pereira & Warren)提出的“定子句语法”(definite clause grammar, DCG)也是在计算语言学中使用逻辑方法的成功范例之一。1979年马丁·凯伊(Martin Kay)对于“功能语法”(functional grammar, FG)的研究,1982年布列斯南和卡普兰(Bresnan & Kaplan)在“词汇功能语法”(lexical function grammar, LFG)方面的工作,都是“特征结构合一运算”(feature structure unification)研究方面的重要成果,他们的研究引入了“复杂特征”(complex features)的概念。与此同时,冯志伟提出了“多叉多标记树形图模型”(multiple-branched multiple-labeled tree model, MMT),在他设计的多语言机器翻译FAJRA(英语、法语、日语、俄语和德语的法文首字母缩写)系统中,采用了“多标记”(multiple label)和“多叉”(multiple branch)的方法(Feng 1982),在4341大型计算机上,把汉语自动地翻译成英语、法语、日语、俄语和德语五种外语,这是世界上第一个把汉语翻译为多种外语的机器翻译系统。冯志伟提出的“多标记”的概念与国外学者们提出的“复杂特征”的概念实质上是一致的。这些关于自然语言特征结构的研究成果,都有效地克服了Chomsky提出的短语结构语法的生成能力过强的缺陷。在这个时期,自然语言理解(natural language understanding, NLU)也取得明显的成绩(张奇等 2023:4—6)。自然语言理解肇始于威诺格拉德(Terry Winograd)在1972年研制的SHRDLU系统,这个系统能够模拟一个嵌入玩具积木世界的机器人的行为。该系统的程序能够接受自然语言的书面指令,从而指挥机器人摆弄玩具积木块。这样一个非常复杂而精妙的系统还首次尝试建立基于语言学家韩礼德(Halliday)的系统功能语法(systemic functional grammar)的全面的英语语法。Winograd的模型还清楚地说明,句法剖析也应该重视语义和话语的模型。1977年,杉克(Roger Schank)和他在耶鲁大学的同事和学生们建立了一些语言理解程序,这些程序构成一个系列,他们重点研究诸如脚本(script)、计划(plan)和目的(goal)这样的人类概念知识以及人类的记忆机制。他们的工作经常使用基于语义网络(semantic network)的语义学理论,并且在他们的表达方式中引进了语言学家菲尔墨(Fillmore)在1968年提出的关于“深层格”(deep case)的概念。在自然语言理解研究中也使用过逻辑学的方法,如1967年伍兹(Woods)在他研制的LUNAR问答系统中,就使用谓词逻辑来进行语义解释。计算语言学在话语分析(discourse analysis)方面也取得了很大的成绩。基于计算的话语分析集中探讨了话语研究中的四个关键领域:话语子结构的研究、话语焦点的研究、自动参照消解的研究和基于逻辑的言语行为的研究。1977年,克罗茨(Crosz)和她的同事们研究了话语中的“子结构”(substructure)和“话语焦点”(discourse focus);1972年,霍布斯(Hobbs)开始研究“自动参照消解”(automatic reference resolution)。在基于逻辑的言语行为研究中,保罗和艾伦(Perrault & Allen)在1980年建立了“信念—愿望—意图”(belief-desire-intention, BDI)的框架(冯志伟、余卫华 2015)。可知,计算语言学通过辛勤的工作,取得了很大的成绩,这些都是基于规则的语言知识生产的突出成果。从语言知识生产的角度看来,在这个时期,语言知识生产的主要方式是依靠研究者的“内省”(introspection)来进行的,研究者既是语言知识生产数据的提供者,又是语言知识生产数据的分析者,他们依靠自己深厚的学术素养、出众的聪明才智和渊博的知识储备来进行语言知识的生产,达到了相当高的学术水平。显而易见,这样的语言知识生产方式受到研究者本人的主观局限,有较强的主观性,往往会出现“仁者见仁,智者见智”的问题,产生“以蠡测海,以管窥豹”的偏向。当研究者感到自己的知识不足的时候,他们还可以通过实地调查或问卷调查的方式,从别人那里“诱导”(elicitation)出他们感兴趣的语言知识,进行语言知识的生产。这时,研究者不再充当语言数据的提供者,而需要通过他人的诱导才可以获取到语言知识。这样的知识获取方式也会受到他人主观性的局限。借助于这种基于规则的语言知识生产范式,学者们数十年如一日地辛勤工作,深入地探讨了语言的规律,洞察各种语言现象,获得了很多对于语言规则的深刻洞见,揭示了自然语言复杂结构的很多奥秘,写出了汗牛充栋的煌煌巨作,学术上具有很强的解释力,取得了辉煌的成果。而且,学者们还把自己的学术成果付诸应用,研制了一些自然语言处理系统,向用户提供了语言知识生产的产品。但是,这样的语言知识生产范式往往会受到研究者本人的主观意识的影响,可能具有主观性和片面性,这些语言知识对于纷繁复杂的语言现象的覆盖面不强,难免出现以偏概全或以蠡测海的弊病。他们研制出来的自然语言处理系统,只能在小规模的子语言(sub-language)中获得成功,一旦扩大语言的规模,就会显得捉襟见肘,穷于对应,覆盖面不高,鲁棒性(robustness)不强。在机器翻译刚刚问世的时候,美国著名数理逻辑学家巴希勒(Y.Bar-Hillel)在1959年就指出,在当时的技术条件下,全自动高质量的机器翻译(fully automatic, high quality machine translation; FAHQMT)是不可能的(Feng 2023:25)。Bar-Hillel举出了如下简单的英语片段,说明要在上下文中发现多义词pen的正确译文是非常困难的事情。John was looking for his toy box. Finally he found it. The box was in the pen. John was very happy.(约翰寻找他的玩具箱子。他最后找到了它。箱子就在游戏圈里。他非常高兴。)Bar-Hillel的理由如下:1) pen在这里只能翻译为play-pen(“游戏圈”),而绝对不能翻译为书写工具“钢笔”;2) 要确定pen的这个正确的译文是翻译好这段短文的关键所在;3) 而要确定这样的正确译文依赖于计算机对于周围世界的常识:小孩做游戏时需要有一个游戏圈;4) 但是我们没有办法把这样的常识加到计算机中去。Bar-Hillel科学地预见到了机器翻译将会遇到的困难,显示了他的远见卓识。这就是著名的“巴希勒难题”(Bar-Hillel problem)。“巴希勒难题”对基于规则的语言知识生产范式提出了严峻的挑战。
二. 基于统计的语言知识生产范式(1990—2012)
20世纪90年代到21世纪初,计算语言学进行了从基于规则的语言知识生产范式到基于统计的语言知识生产范式(statistics-based paradigm of language knowledge production)的战略转移(strategy transit)。
1993年7月在日本神户召开的第四届机器翻译高层会议(MT Summit IV)上,英国著名学者哈钦斯(J. Hutchins)在他的特约报告中指出,自1989年以来,机器翻译的发展进入了一个新纪元。这个新纪元的重要标志是,在基于规则的技术中引入了语料库方法(corpus approach),其中包括统计方法、基于实例的方法、通过语料加工手段使语料库转化为语言知识库的方法,等等。这种建立在大规模真实文本(large scale and authentic text)处理基础上的机器翻译,是机器翻译研究史上的一场革命,它将会把计算语言学推向一个崭新的阶段。在20世纪90年代的最后五年,计算语言学的研究变化显著,进行了从基于规则的语言知识生产范式到基于统计的语言知识生产范式的战略转移。在这样的战略转移中,统计方法逐渐成为计算语言学研究的主流方法,形成了基于统计的语言知识生产范式(冯志伟2015)。早在1913年,马尔可夫(A. A. Markov)就提出了马尔可夫模型(Markov model),这种马尔可夫模型实际上就是N元语法模型(N-gram model)。Markov使用N元语法模型来预测俄罗斯诗人普希金(Puschkin)的《欧根·奥涅金》中下一个字母是元音还是辅音。Markov把《欧根·奥涅金》中的20,000个字母分为V(元音)和C(辅音),并计算二元语法和三元语法的概率,如果要判定给定的字母是否为元音,需要根据它前面的一个或多个字母来决定。这就是二元语法和三元语法思想最早的萌芽,由此可以推广为N元语法模型。1948年, C. Shannon通过对于N元语法的计算来逼近英语的单词序列,用事实说明了可以用N元语法来描述英语。在Shannon工作的基础上, N元语法模型成为了20世纪50年代普遍使用的单词序列的模型。在计算语言学研究中,自然语言生成(natural language generation, NLG)可以根据N元语法的原理来进行。例如,如果我们要在英语字符串The best thing about AI is its ability to(人工智能最好的地方在于它有能力)之后继续生成英语,经过统计分析,在这个字符串之后可能出现的单词的概率如下:
如果计算机在字符串The best thing about AI is its ability to之后连续选择出现概率最高的7个单词,那么,计算机可以生成如下的合乎语法的字符串。如图3所示:
如果计算机在字符串The best thing about AI is its ability to之后选择另一个单词create, 那么,计算机就可以生成其他的合乎语法的字符串。如图4所示:
如果计算机在字符串The best thing about AI is its ability to之后选择另外的单词,那么,还可以生成其他合乎语法的、丰富多彩的字符串。如图5所示:
在当前的神经机器翻译研究中,为了解决语言数据贫乏的问题,学者们开始探讨小规模语言数据资源下自然语言处理的可行性问题,因而提出了“预训练语言模型”(pre-trained language models)。这样的语言模型使用大规模的文本语料库数据进行“预训练”,建立“预训练语言模型”,然后使用面向特定任务的小规模语言数据集,根据迁移学习的原理进行“微调”(fine-tuning),形成“下游任务的模型”(冯志伟、李颖 2021)。
从图7可以看出,OpenAI公司于2018年研制了GPT-1,于2019年研制了GPT-2,于2020年5月研制了GPT-3,于2020年7月分别研制了GPT-3中的davinci, curie, babbage, 于2022年3月研制了InstructGPT,进行文本和代码的语言模型训练,研制成GPT-3.5,接着进行有监督微调(supervised fine tuning, SFT)和基于人类反馈的强化学习(reinforcement learning from human feedback, RLHF),于2022年11月推出ChatGPT。ChatGPT是一种对话场景优化语言模型(optimizing language models for dialogue)。ChatGPT比GPT-3更进一步,已经进化到具备执行自然语言指令的能力,用户不必给出示例,只要使用自然语言给出指令,ChatGPT就可以理解用户的意图。例如,用户只要直接用自然语言告诉ChatGPT把某个英语单词译成法语,ChatGPT就可以执行,并给出翻译结果。ChatGPT可以根据上下文提示(prompt),自动理解并执行各类任务,不必更新模型的参数或架构。GPTs利用Transformer模型,从语言大数据中获取了丰富的语言知识,GPTs在语言生成任务上达到了相当高的水平。这样一来,GPTs便成为了大语言模型时代的最重要的神经网络模型。GPTs系列的训练参数越来越多,性能越来越好(冯志伟、张灯柯 2023)。ChatGPT的训练语料高达100亿个句子,包含约5000亿个词元(tokens)。ChatGPT可以通过使用大量的训练数据来模拟人的语言行为,生成人类可以理解的文本,并能够根据上下文语境,提供出恰当的回答,甚至还能做句法分析和语义分析,帮助用户调试计算机程序,写计算机程序的代码,做数学题,而且能够通过人类反馈的信息,不断改善生成的功能,已经达到了很强的自然语言生成能力。ChatGPT使用Transformer进行训练,在训练过程中,使用海量的自然语言文本数据来学习单词的嵌入表示(word embedding expression)以及上下文之间的关系(context relation),形成知识表示(knowledge representation)。一旦训练完成,知识表示就被编码在神经网络的参数中,可以使用这些参数来生成回答。当用户提出问题时,神经网络就根据已经学习到的知识,把回答返回给用户。ChatGPT从语言大数据中获取了丰富的语言知识,在语言生成任务上达到了相当高的水平。这样一来,ChatGPT便成为了大语言模型时代的最重要的基于生成式人工智能的语言知识生产范式(generative artificial intelligence-based paradigm of language knowledge production)的杰出代表。大语言模型采用的范式是基于生成式人工智能的语言知识生产范式,这种范式的训练参数越来越多,性能越来越好。2018年6月开发的GPT-1有1.17亿参数。2019年2月开发的GPT-2有15亿个参数。2020年5月,GPT-3启动,有1750亿参数,参数总量是GPT-2参数的117倍,开始了大规模的机器学习,把能获取到的人类书籍、学术论文、新闻、高质量的各种信息作为学习内容。GPT-3有1750亿个参数,犹如一个巨大的恐龙,而GPT-2只有15亿参数,犹如一个普通人。如图8所示:
这样庞大的参数规模是人类远远无法达到的。如果我们人类每秒钟处理一个单词,不计睡眠时间,一个人终其一生处理的单词数量也不会超过10亿个,而ChatGPT可以处理上千亿的参数,5000多亿词元。这样的能力是人类望尘莫及的!ChatGPT在2022年11月30日推出仅仅5天,注册用户就超过百万;推出短短的两个月,月活跃用户就超过1亿。抖音海外版TikTok月活跃用户超过1亿用了9个月时间;Twitter月活跃用户超过1亿用了90个月时间;ChatGPT打破了历史记录,遥遥领先,引起了全球亿万网民的广泛注意,在大语言模型时代掀起了一场史无前例的、波澜壮阔的海啸。ChatGPT的推出引起了巨大的轰动。成千上万的用户从不同角度对它进行了应用体验。2023年3月17日,OpenAI发布GPT- 4。GPT- 4具有强大的识图能力,文字输入限制由3千词提升至2.5万词,回答问题的准确性显著提高,能够生成歌词、创意文本,改变文本的写作风格,还具有自动翻译的能力。2023年11月7日,Open AI举行开发日(DevDay),Altman在开发日上宣布了GPT- 4的一次大升级,推出了GPT- 4 Turbo, 引起了全世界的密切关注。GPTs系列的成功具有划时代的里程碑性质,是大语言模型时代最伟大的成果,足以载入人工智能发展的史册。随着基于生成式人工智能的语言知识生产范式的发展,机器翻译也有了长足的进步。2023年5月25日,冯志伟使用ChatGPT- 4来翻译“巴希勒难题”中的英语片段:John was looking for his toy box. Finally he found it. The box was in the pen. John wasvery happy.翻译结果为:“小约翰正在寻找他的玩具盒,最终他找到了。盒子在圈里。约翰非常高兴。”这是ChatGPT- 4回答的截图:
大语言模型的发展可以粗略地分为以下三个阶段:基础模型阶段、能力探索阶段、突破发展阶段。■ 基础模型阶段:这个阶段主要集中于2018年至2021年。2017年Vaswani等人提出了Transformer架构,在机器翻译任务上取得了突破性进展。2018年Google和Open AI分别提出了BERT(Vaswani et al. 2017)和GPT-1模型,开启了预训练语言模型时代。BERT-Base 版本的参数量为1.1亿,BERT-Large版本的参数量为3.4亿,GPT-1的参数量为1.17亿。相比其他深度学习和神经网络的参数量,这些大语言模型参数的数量级有了明显的提升。2019年Open AI发布了GPT-2(Brown et al. 2020),其参数量达到了15亿。此后,Google也发布了参数量规模为110亿的T5模型(text-to-text transfer transformer model)(Raffel et al. 2020)。2020年Open AI进一步将语言模型参数量扩展到1750亿,发布了GPT-3。此后,我国也相继推出了一系列的大语言模型,包括清华大学的ERNIE(THU)、百度的ERNIE(Baidu)、华为的盘古-α等。这个阶段的研究主要集中于语言模型本身,研究范围包括“编码器—解码器”(encoder-decoder)等各种类型的模型结构。这些模型通常采用预训练—微调范式,针对不同下游任务进行微调。但是,当模型参数量在10亿以上时,微调的计算量很高。■ 能力探索阶段:这个阶段集中于2019年至2022年。由于大语言模型很难针对特定任务进行微调,研究人员们进行了进一步的探索,试图在不针对单一的特定任务进行微调的情况下,发挥大语言模型的能力。2019年,雷德福(Radford)等人就使用GPT-2模型研究了大规模语言模型在零样本情况下的处理能力。在此基础上,布朗(Brown)等人在GPT-3模型上研究了通过语境学习(in-context learning)进行少样本学习的方法。将不同任务的少量有标注的实例拼接到待分析的样本之前输入语言模型,使用语言模型根据实例理解任务,给出正确结果。这样的研究展示出了非常强的能力,在有些任务中甚至超过了基于统计的语言知识生产范式。上述方法不需要修改语言模型的参数,模型在处理不同任务时也不需要花费大量的计算资源进行模型微调。但是,仅仅依赖语言模型本身,其性能在很多任务上仍然很难达到有监督学习的效果,因此研究人员们还提出了指令微调(instruction tuning)(Chung et al. 2022)方案,将大量各类型任务,统一为生成式自然语言理解框架,并构造训练语料进行微调。大语言模型一次性学习数千种任务,并在未知任务上展现出了很好的泛化能力。2022年Ouyang等人提出了InstructGPT算法(Ouyang et al. 2022),使用有监督微调再结合强化学习,使用少量数据就可以使得大语言模型服从人类的指令。中野(Nakano)等人探索了结合搜索引擎的问题回答算法WebGPT(Nakano et al. 2021)。这些方法在直接利用大语言模型进行零样本(zero shot)和少样本(few shot)学习的基础上,逐渐扩展到利用生成式框架针对大量任务进行有监督微调的方法,有效地提升了模型的性能。■ 突破发展阶段:这个阶段从2022年11月ChatGPT的发布开始,一直延续到现在。ChatGPT通过简单的对话框(Chat),利用一个大语言模型就可以实现问题回答、文稿撰写、代码生成、数学解题等过去自然语言处理系统需要大量的小模型订制开发才能分别实现的能力。它在开放领域问答、各类自然语言生成式任务以及理解上文方面所展现出来的能力,远远超出大多数人的想象。2023年3月GPT- 4发布,相较于ChatGPT又有了非常明显的进步,并具备了多模态理解能力。GPT- 4在多种基准考试测试上的得分高于88%的人类应试者,包括美国律师资格考试(Uniform Bar Exam)、法学院入学考试(Law School Admission Test)、学术能力评估(Scholastic Assessment Test, SAT)等。GPT- 4展现了近乎“通用人工智能”(artificial general intelligence, AGI)的能力。各大公司和研究机构也相继发布了此类系统,包括Google推出的Bard、百度的文心一言、科大讯飞的星火大模型、智谱的ChatGLM、复旦大学的MOSS等。从2022年开始,大语言模型呈现出爆发式的增长,各大公司和研究机构都在发布各种不同类型的大语言模型,出现了“百模大战”的局面。大语言模型是N元语法模型进一步的发展。从计算语言学的角度来看,GPT实际上是一个N元语法模型,这种模型根据前面出现的单词来预测后面的单词。在一个语言符号序列中,N元语法对于下一个语言符号的条件概率逼近的通用等式是:
这个等式说明,对于所有给定的前面的语言符号,语言符号wn的概率可以只通过前面N-1个语言符号的概率来逼近。N元语法的能力随着它的阶数的增高而增高,训练模型的上下文越长,句子的连贯性就越好。在GPTs中,把自然语言中的离散符号(discrete symbols)映射为N维空间中的连续向量(continuous vectors),这样的连续向量就是“词向量”(word vector)。由于把语言符号都映射为向量空间中的词向量,不再需要手工设计语言特征,计算机能够自动地从语料库中获取和计算向量化的语言特征,大大地节省了人力(冯志伟 2019)。构造语言符号的向量化特征表示也就是进行“词嵌入”(word embedding, WE)。“词嵌入”把自然语言中的每一个语言符号映射为向量空间中的一个词向量,并且在这个向量空间中形式化地定义自然语言的语言符号与语言符号之间的相互关系。词向量的长度也就代表了N元语法的阶数(Mikolov et al. 2013)。所以,我们认为,GPTs是一个数据驱动的“端到端嵌入”(end to end embedding)的大语言模型。2022年11月OpenAI公司推出的ChatGPT大语言模型实际上就是一个阶数很高的N元语法模型,可以精确地描述单词之间的关系,能够生成通顺流利、修辞优美的句子,达到了很好的效果,但由于阶数高,计算难度非常之大,需要很强大的算力。2023年11月OpenAI公司推出的GPT-4 Turbo, 其上下文长度有128K之多,这意味着GPT- 4 Turbo能够理解超过300页纸张的文本量,这是一个阶数极高的N元语法模型。在大语言模型中,语言模型的规模达到数百亿甚至数千亿单词,计算机就可以在大语言模型的基础上,自动地生成自然语言。语言数据的规模越大,自然语言处理的效果越好(冯志伟、张灯柯 2024)。Kaplan等人(Kaplan et al. 2020)在文献中提出了缩放法则(scaling laws),指出模型的性能依赖于模型的规模,包括:计算量(compute)、数据集大小(data size)和参数量(parameters),模型的效果会随着这三者的增加而提高,而模型的损失(loss)值随着计算量的规模、数据集的规模、参数量的增大而线性降低。如图12所示: