冯志伟先生:GPT与语言研究
冯志伟 教授
新疆大学
教授、博士生导师,教育部语言文字应用研究所研究员,新疆大学天山学者,黑龙江大学兼职研究员。出版论著30多部,发表论文400多篇,主持研制国际标准1项、国家标准1项、国家规范3项,参与研制国家标准13项。担任国内外著名杂志编委,2006年获奥地利维斯特奖,2018年获中国计算机学会NLPCC 杰出贡献奖,2021年获中国中文信息学会会士称号,2022年获香港圣弗朗西斯科技人文奖。主要研究方向为计算语言学、理论语言学、术语学。
张灯柯,新疆大学讲师,主要研究方向为计算语言学、维吾尔语-汉语翻译。
GPT与语言研究
新疆大学 冯志伟 张灯柯
摘要:本文描述了GPT的发展历程,分析了生成式预训练模型的特点,说明了GPT给外语教学和语言服务行业带来的机遇和挑战。本文还比较了乔姆斯基关于语言知识的本质、来源和使用的理论与GPT的不同,说明了GPT没有可解释性。最后本文指出,由于GPT没有可解释性,可能带来深远的风险。
关键词:人工智能 GPT 预训练模型 大语言模型 涌现 可解释性
01
自然语言处理的四个范式
自然语言处理(Natural Language Processing, NLP)大约经历了四个不同的阶段,这四个阶段可以归纳为四个范式(paradigm)。自然语言处理范式是自然语言处理系统的工作模式(working model),回顾从1954年第一次机器翻译试验开始的自然语言处理的历程,自然语言处理的范式已经历了三代变迁,现在开始进入第四代。第一代自然语言处理范式是“词典+规则”(dictionary/lexicon+rule)范式,流行于20世纪50年代至20世纪90年代。第二代自然语言处理范式是“数据驱动+统计机器学习模型”范式,简称为“统计模型”(statistical models)范式,流行于20世纪90年代至2012年。第三代自然语言处理范式是“神经网络深度学习模型”范式,简称为“深度学习模型”(deep learning models)范式,流行于2012年至2018年前后。第四代自然语言处理范式是“预训练模型”(pre-trained models)范式,流行于2018年以后,直到现在。
02
预训练范式
在当前的自然语言处理研究中,语言数据资源的贫乏是一个非常严重的问题,几百万个句子的语料都不能算作是大数据(big data)。为了解决语言数据贫乏的问题,学者开始探讨小规模语言数据资源下自然语言处理的可行性问题,因而提出了“预训练语言模型”(Pre-trained Language Models),如图1所示。
图1 预训练语言模型(冯志伟、李颖, 2021)
在图1中,这样的语言模型使用大规模的文本语料库数据(Large-scale text corpus)进行“预训练”(Pre-training),建立“预训练语言模型”,然后使用面向特定任务的小规模语言数据集(Task datasets),根据迁移学习的原理进行“微调”(Fine-tuning),形成“下游任务的模型”(Models for downstream tasks)。
这样的预训练语言模型新范式使得研究者能够专注于特定的任务,而适用于各种任务的通用的预训练语言模型可以降低自然语言处理系统的研制难度,从而加快了自然语言处理研究创新的步伐(冯志伟等, 2023)。使用这样的“预训练范式”,研究人员设计出各种预训练模型,这些预训练模型可以把通过预训练从大规模文本数据中学习到的语言知识迁移到下游的自然语言处理和生成任务模型的学习中。预训练模型在几乎所有自然语言处理的下游任务上都表现出了优异的性能。预训练模型也从单语言的预训练模型扩展到了多语言和多模态的预训练模型,并在相应的下游任务上都表现出色,这进一步验证了预训练模型确实是一个功能强大的大语言模型(Large Language Model, LLM)。
当前发布的预训练模型出现了如下几个趋势:第一,预训练模型的规模越来越大,参数越来越多。从 ELMo(AI2研制) 的9300万参数,到 BERT(Google研制) 的3亿4千万参数,以及到 GPT-2(OpenAI研制) 的15亿参数和 T5(Google研制) 的 1110亿参数,预训练模型越来越大。第二,预训练用到的文本数据越来越多。由于预训练模型的规模越来越大,预训练用到的文本数据也越来越多, GPT-1为8亿单词, GPT-2为400亿单词, GPT-3为5000亿单词。第三,预训练的任务越来越广。预训练模型开始的时候,主要是面向自然语言理解,然后发展到支持自然语言生成,最新的预训练模型可以同时支持自然语言理解和自然语言生成。例如, Microsoft的UniLM、 Google的T5和Facebook的BART等预训练模型都能支持多种自然语言处理的任务。
03
GPT系列
由OpenAI公司开发的基于转换器的生成式预训练模型(Generative Pre-trained Transformer, GPT)已经成为当前自然语言处理研究的核心技术,包括GPT-1、 GPT-2、 GPT-3、 InstructGPT、 ChatGPT、 GPT-4,我们把它们统称为GPT系列,简称为GPT。GPT利用转换器模型,从语言大数据中获取了丰富的语言知识,GPT在语言生成任务上达到了相当高的水平。这样一来,GPT便成为深度学习时代自然语言处理研究的最重要的神经网络模型。GPT系列的训练参数越来越多,性能越来越好。
2018年6月开发的GPT-1有1.17亿参数。它使用预测下一个单词的方式训练出基础的语言模型,然后针对分类、蕴含、近义、多选等下游任务,使用特定数据集,更新模型参数,对模型进行调优与适配。
2019年2月开发的GPT-2有15亿参数, GPT-2开始训练的数据取自社交站点Reddit上的文章,累计有800万篇文章。它通过多任务学习,获得了迁移学习的能力,能够在零样本(zero-shot)设定下执行各类任务,无需进行任何参数或架构修改,具有一定的自我纠偏能力。
2020年5月, GPT-3启动,有1750亿参数,开始了大规模的机器学习,把能获取到的人类书籍、学术论文、新闻、高质量的各种信息作为学习内容,参数总量约是GPT-2参数的117倍。GPT-3显示出强大的上下文学习(in-context learning)能力,用户只要使用少量的示例就可以说明任务,如用户只要给出几对英语到法语的单词作为示例,再给出一个英语单词,GPT-3就可以理解用户意图是要进行翻译,继而给出对应的法语单词译文。
OpenAI在此基础上于2022年1月开发出InstructGPT,形成了“基于人类反馈的强化学习方案”(Reinforcement Learning from Human Feedback, RLHF),通过人类的反馈来提高系统的性能。接着又增强了安全性(safety),清理文本数据,力争把有害的、错误的、不合乎伦理规范的内容减少到最低限度。OpenAI在此基础上开发出ChatGPT。ChatGPT的训练语料高达100亿个句子,约5000亿个词,训练的总文本超过45T。ChatGPT可以通过使用大量的训练数据来模拟人的语言行为,生成人类可以理解的文本,并能够根据上下文语境,提供恰当的回答,甚至还能进行句法分析和语义分析,帮助用户调试计算机程序,写计算机程序的代码,而且能够通过人类反馈的信息,不断改善生成的功能,已经达到了很强的自然语言生成能力。ChatGPT使用转换器(transformer)进行训练,在训练过程中,使用海量的自然语言文本数据来学习单词的嵌入表示以及上下文之间的关系,形成知识表示(knowledge representation)。一旦训练完成,知识表示就被编码在神经网络的参数中,可以使用这些参数来生成回答。当用户提出问题时,神经网络就根据已经学习到的知识,把回答返回给用户。
ChatGPT是一种对话场景优化语言模型(optimizing language models for dialogue)。这个时候的ChatGPT已经进化到具备执行自然语言指令的能力,用户不必给出示例,只要使用自然语言给出指令,ChatGPT就可以理解用户意图。例如,用户只要直接告诉ChatGPT把某个英语单词译成法语,它就可以执行,并给出翻译结果。ChatGPT可以根据上下文提示,自动理解并执行各类任务,不必更新模型参数或架构。2022年11月30日, ChatGPT开放公众测试,真正实现了完全自主的“人工智能内容生成”(AI Generated Content,AIGC),包括文本生成、代码生成、视频生成、文本问答、图像生成、论文写作、影视创作、科学实验设计等。
现在的ChatGPT是由效果比GPT-3更强大的GPT-3.5系列模型提供支持的,这些模型使用微软Azure AI超级计算基础设施上的文本和代码数据进行训练。交互式是ChatGPT的一大优点,用户可以自如地与ChatGPT进行多轮对话,ChatGPT的回答是连续的、稳定的、一致的,用户与ChatGPT对话,就像是与朋友聊天。ChatGPT具有高度的可扩展性和灵活性,可以根据不同需求进行二次开发和定制。ChatGPT可以快速从大量数据中学习,并且在后续应用中可以持续更新、优化。ChatGPT可以应用于在线客服、虚拟助手、教育培训、游戏娱乐等领域,为用户提供高效、便捷、个性化的服务和体验。ChatGPT通常需要进行训练和调试,以达到最佳的对话效果,可以利用第三方工具或平台来集成ChatGPT,并将其应用于具体场景中。
ChatGPT推出五天,注册用户就超过百万,推出短短的两个月,月活跃用户就超过1亿。TikTok月活跃用户超过1亿用了九个月时间, Twitter月活跃用户超过1亿用了90个月时间。ChatGPT引起了全球网民的广泛注意,在NLP中掀起了一场史无前例的“海啸”。成千上万的用户从不同角度对它进行了应用体验,关于它的各种说法也是满天飞。有人说,ChatGPT已经拥有通用人工智能(Artificial General Intelligence, AGI);有人说,很多岗位上的人都会被ChatGPT取代。
ChatGPT是一个伟大的人工智能项目,它使用指令学习、基于人类反馈的强化学习、人工智能内容生成等一系列创新技术,使大语言模型在之前版本的基础上实现了飞跃式的发展,在意图理解、语言生成、对话控制和知识服务方面取得了重大突破,刷新了非人类实体(包括动物和机器)理解人类自然语言的高度。除了创新技术的使用之外, ChatGPT使用了规模巨大的算力,拥有1750亿个参数。这种大语言模型的规模效应还导致了一些语言水平接近于人类的智力行为的涌现,至今仍在不断地迭代。ChatGPT的成功具有划时代的里程碑性质,足以载入人工智能发展的史册。如何正确认识ChatGPT这种大语言模型的技术实质,是理解并应对ChatGPT给人类社会带来的影响的关键。ChatGPT首先是在语言能力方面取得了重大的突破。ChatGPT的这些技术突破都跟语言能力直接有关。
从技术上说,在大语言模型中,语言成分的“远距离依存”(long distance dependency)以及语言的“词汇歧义”(lexical ambiguity)和“结构歧义”(structure ambiguity)的处理,其功夫都在语言之外。如果把语言能力比作一座冰山,那么语言形式只是冰山露在水面之上的部分,而语义本体知识(semantic ontology knowledge)、常识事理(common sense)和专业领域知识(field knowledge)则是水面之下的部分,这些知识也正是解决远距离关联问题和歧义消解问题的关键。
在NLP 1.0和NLP 2.0时期,人们曾寄希望于靠人类专家手工构造冰山下的部分,但相关研究项目并不成功,收效甚微。大语言模型则是采用数据驱动的“端到端嵌入”(end-to-end embedding)的方式,首先把语言数据转化成高维向量空间里的词向量,然后在向量空间里进行深度学习,让大数据代替人类专家来构造冰山下的部分。ChatGPT成功地证明了这种数据驱动的“端到端嵌入”技术路线对于构建非人类实体的语言能力是非常正确的。
目前ChatGPT的确也有一定的知识处理能力,但与其语言处理能力相比,知识处理能力的“火候”还稍微欠缺,特别是缺乏跟专业领域相关的知识能力,说多了就会“露馅”,有时甚至会提供不符合事实的错误答案,或者“一本正经地胡说八道”,或者说一些永远正确的废话。因为ChatGPT实际上只是一个大规模的语言模型,它只能在大规模数据基础上对于人类的语言行为进行模仿,并没有真正理解聊天的内容。ChatGPT尽管能够针对人类的输入产生类似于人类的反应,但是ChatGPT并不知道它知道什么,也不知道它不知道什么,它并不能真正地理解自然语言。
2023年3月17日, OpenAI发布GPT-4。GPT-4 具有强大的识图能力,文字输入限制由3千词提升至2.5万词,回答问题的准确性显著提高,能够生成歌词、创意文本,并能改变文本的写作风格。当任务的复杂性达到足够的阈值时, GPT-4比ChatGPT更加可靠、更具有创意,并且能够处理更细微的指令。许多现有的机器学习基准测试都是用英语编写的,为了了解GPT-4 在其他语言上的能力, OpenAI研究团队使用Azure Translate 将一套涵盖57个主题的14000个多项英语选择题翻译成多种语言。在测试的26种语言的24种中, GPT-4优于 ChatGPT和其他大语言模型的英语语言性能。
04
GPT对传统教育观念的冲击
GPT的出现冲击了传统的教育观念。GPT使得事实性知识显得不再重要。很多知识都可以在与GPT的聊天中唾手可得。一些依靠记忆力就有可能做到的事情,GPT几乎都能代替。GPT使死记硬背的传统学习方式显得苍白无力。在今后的教育中,批判性思维(critical thinking)、创造性(creativity)、沟通能力(communication)、协作精神(collaboration)将会成为教育的新目标。在这种情况下,学校应当保持开放心态,把GPT作为教学的助手,协助教师开展创造性工作,鼓励学生规范地使用GPT,学会与GPT协作共事。
GPT是一种人工智能技术,它可以在教育领域中提供多种机遇:(1)根据每个学生的需求和兴趣进行个性化学习,为不同水平的学生提供更好的学习体验;(2)在传统课堂教学中扮演辅助教学的角色,从而让教师有更多的时间关注学生的个性化需求;(3)与学生互动,让学生主动参与到学习过程中,提高学习的积极性和热情;(4)提供各种形式的学习资源,丰富学生的学习经验。
GPT也对传统的教育提出了挑战:(1)学校和教育机构需要投入大量的资金来购买硬件设备和软件系统,并修建必要的网络基础设施来支持GPT的使用,因而存在技术障碍;(2)GPT需要收集大量有关学生的个人数据,包括学习过程中的行为和表现,因而保护这些数据的安全性和隐私成了一个重要问题;(3)尽管GPT可以通过模仿自然语言来与学生进行对话,但它仍然存在无法理解某些语言或概念的局限性;(4)如果我们使用GPT来取代传统教学,在某种程度上,可能会使学生更加依赖技术而不是教师,从而导致他们失去与教师互动和交流的机会。
我们需要认真评估GPT在教育领域中的优缺点,并采取必要的措施,使其潜力最大化,风险最小化。
05
GPT给外语教育带来的机遇和挑战
GPT为中国外语教育带来了机遇。GPT可以在较短时间内提供大量真实的语言输入,从而提高学习者的语言学习效率;GPT基于大语言模型的学习平台可以分析学习者的学习情况和特点,推荐符合其学习需求和兴趣的学习材料,实现个性化教学;GPT通过大语言模型的远程交流功能,可以帮助学习者与全球范围内的人进行跨地域的沟通和交流,拓宽视野,提高语言应用能力;GPT利用大语言模型开展在线语言学习,不仅可以节约教育资源、降低教育成本,还可以提升学习者的学习效果和体验。
GPT也给中国外语教育带来了挑战。GPT的大语言模型需要高超的技术和算法支持,这对教育机构和教师的技术水平提出了更高的要求;GPT的大语言模型所需要的海量数据涉及个人隐私,如何保障学习者的数据安全是一个重要的问题;GPT的大语言模型主要是基于自然语言处理技术开发的,其在多媒体、口语等方面的适应性还有待进一步提高。
我们需要充分利用GPT的优势,同时也需要解决其存在的问题和挑战,以更好地满足外语教育的需求。
06
GPT给语言服务行业带来的机遇和挑战
GPT给传统的语言服务行业提供了新的机遇。GPT使用机器学习和自然语言处理技术来实现自动翻译,这使得翻译变得更加快速、便捷、准确,减少了人工翻译的成本和时间;GPT可以根据不同用户的需求和偏好进行定制化翻译,提高翻译的质量和用户体验,实现个性化的翻译;GPT可以帮助企业与客户进行更加智能化、交互式的沟通,提升客户满意度和忠诚度,增强与用户的互动;GPT使得不同语言和文化之间的沟通和交流变得更加容易,促进了全球化和跨文化交流;GPT可以收集大量的语言数据,并通过深度学习等技术进行分析和挖掘,从而产生有价值的商业洞察和见解;GPT通过技术革新和创新,将推动语言服务业向更加智能化、高效化和创新化方向发展。
GPT也给传统的语言服务行业带来一些挑战。GPT具有自动翻译的能力,可在不需要人类干预的情况下对文本进行翻译,这将使传统的翻译服务面临激烈的竞争;相比于传统的人工翻译, GPT是一种低成本、高效率的选择,能够在很短时间内创造出大量的翻译结果,这将导致部分传统语言服务公司的市场份额逐步下降;随着GPT技术的不断发展,越来越多的企业将会开始使用它来提升其语言服务产品的质量和效率,因此,那些不能提供更优质服务的企业将会面临退出市场的风险。要应对这些挑战,传统语言服务行业可以通过加强自身核心竞争力、提高服务质量、拓展新领域等方式来保持市场竞争力。同时,也可以考虑与GPT技术结合,以提高自身服务质量和效率。
07
GPT与N元语法模型
GPT是一个大语言模型,它是用来处理自然语言的,那么,它与语言学研究有什么关系呢?从语言学的角度看来, GPT实际上是一个N元语法模型(N-gram model),这种模型根据前面出现的单词来预测后面的单词(冯志伟、丁晓梅, 2021)。在计算语言学中,一个单词的概率依赖于它前面单词的概率的这种假设叫作马尔可夫假设(Markov assumption)。根据马尔可夫假设,如果每一个语言符号的概率依赖于它前面的语言符号的概率,那么这种语言符号的链就叫作“马尔可夫链”(Markov chain)。在马尔可夫链中,前面的语言符号对后面的语言符号是有影响的,这种链是由一个有记忆信源发出的。如果我们只考虑前面一个语言符号对后面一个语言符号出现概率的影响,这样得出的语言成分的链,叫作一阶马尔可夫链,也就是二元语法。如果我们考虑到前面两个语言符号对后面一个语言符号出现概率的影响,这样得出的语言符号的链,叫作二阶马尔可夫链,也就是三元语法。类似地,我们还可以考虑前面四个语言符号、五个语言符号……对后面的语言符号出现概率的影响,分别得出四阶马尔可夫链(五元语法)、五阶马尔可夫链(六元语法)……。随着马尔可夫链阶数的增大,随机试验所得出的语言符号链越来越接近有意义的自然语言文本。
美国语言学家乔姆斯基(N. Chomsky)和心理学家米勒(G. Miller)指出,这样的马尔可夫链的阶数并不是无穷地增加的,它的极限就是语法上和语义上成立的自然语言句子的集合。这样一来,我们就有理由把自然语言的句子看成是阶数很大的马尔可夫链。马尔可夫链在数学上刻画了自然语言句子的生成过程,是一个早期的自然语言的形式模型。在马尔可夫链的基础上,学者们提出了N元语法模型。
按照马尔可夫链的假设,我们根据前面一个语言符号的概率,就可以预见它后面的语言符号将来的概率。这样的模型叫作二元语法模型。基本的二元语法模型可以看成是每个语言符号只有一个状态的马尔可夫链。我们可以把二元语法模型(只看前面的一个语言符号)推广到三元语法模型(看前面的两个语言符号),再推广到N元语法模型(看前面的N-1个语言符号)。二元语法模型叫作一阶马尔可夫模型(因为它只看前面的一个语言符号),三元语法模型叫作二阶马尔可夫模型, N元语法模型叫作N-1阶马尔可夫模型。在一个序列中,N元语法对于下一个语言符号的条件概率逼近的通用等式是:
这个等式说明,对于所有给定的前面的语言符号,语言符号wn的概率可以只通过前面N-1个语言符号的概率来逼近。N元语法的能力随着它的阶数的增高而增高,训练模型的上下文越长,句子的连贯性就越好。
在GPT中,把自然语言中的离散符号(discrete symbols)映射为N维空间中的连续向量(continuous vectors),这样的连续向量叫作“词向量”(word vector),如图2所示。
图2 把离散的语言符号映射为连续的词向量(冯志伟, 2019)
由于把语言符号都映射为向量空间中的词向量,不再需要手工设计语言特征,计算机能够自动地从语料库中获取和计算向量化的语言特征,大大节省了人力(冯志伟, 2019)。
构造语言符号的向量化特征表示也就是进行“词嵌入”(word embedding, WE)。“词嵌入”把自然语言中的每一个语言符号映射为向量空间中的一个词向量,并且在这个向量空间中形式化地定义自然语言的语言符号之间的相互关系。词向量的长度也就代表了N元语法的阶数(Mikolov et al., 2013)。所以,我们认为, GPT是一个数据驱动的“端到端嵌入”(end to end embedding)的大语言模型。在GPT的研制中,随着训练数据的增加,词向量的长度和参数量也随之增加。
人们发现,随着参数量的增加,生成语言的质量越来越好。当训练参数超过500亿的时候,系统会出现“涌现”(emergence)现象,显示出越来越接近于人类的优秀表现,生成的语言也就越来越接近人类的语言,如图3所示。
图3 “涌现”现象
这样的“涌现”现象似乎意味着,当训练数据在数量上增加到500亿时, GPT系统发生了从量变到质变的重大变化。因此,只要不断地增加训练数据,就会产生质变的飞跃。
GPT采用的方法是一种经验主义的方法,在大规模数据的基础上,通过机器学习获得各语言要素之间的统计规律,生成越来越接近人类自然语言的输出,使得用户感觉到计算机似乎理解了自然语言。对于这种“涌现”现象的本质,至今在科学上还不能作出解释。
自从计算机问世之后,就出现了人与计算机怎样交互的问题,叫作人机交互(Human-Computer Interaction, HCI)。早期人们需要使用符号指令来与计算机交互,需要用户记住大量的符号指令,人机交互非常困难;后来研制出图形界面(Graphical User Interface, GUI),用图形方式显示计算机操作的用户界面,人机交互变得容易。鼠标、触摸屏都是进行人机交互的重要工具。GPT出现之后,人们可以使用自然语言自如地与计算机交互,人机交互变得更加方便。人与计算机的交互终于回归到最自然的状态,自然语言不单是人与人之间进行交互的工具,也是人与计算机进行交际的工具。这是人类文明发展史上的重要事件,自然语言真正成了“人工智能皇冠上的明珠”。以语言研究为己任的语言学,应关注这样的事件,不但要研究人与人之间用自然语言交互的规律,也应研究人与计算机之间用自然语言交互的规律,这是人工智能时代赋予语言学的重大使命。
“涌现”现象说明,当训练参数达到500亿的时候,计算机的自然语言水平可以提升到接近人类的水平,貌似计算机已经能够通过大语言模型习得人类的自然语言。实践说明了上述的这种数据驱动的“端到端嵌入”技术对于非人类实体的自然语言习得是行之有效的。
08
乔姆斯基与GPT
2023年3月8日,著名语言学家乔姆斯基与罗伯茨(Ian Roberts)、瓦图穆尔(Jeffrey Watmull)共同在《纽约时报》发表了题为“ChatGPT的虚假承诺”的文章。他们强调,人工智能和人类在思考方式、学习语言与生成解释的能力,以及道德思考方面有着极大的差异,并提醒读者如果ChatGPT式机器学习程序继续主导人工智能领域,那么人类的科学水平以及道德标准都可能因此降低。乔姆斯基还认为, ChatGPT使用的大语言模型实质上是一种剽窃。
乔姆斯基对于GPT持否定态度,这是不足为奇的。在乔姆斯基生成语法(Generative Grammar)的发展过程中,赋予生成语法以生命活力的是生成语法的语言哲学理论。其中,最为重要的是关于人类知识的本质、来源和使用问题(Chomsky, 1995)。乔姆斯基把语言知识的本质问题叫作“洪堡特问题”(Humboldt's problem)。
德国学者洪堡特(W. Humboldt)曾经提出“语言绝不是产品(Ergon),而是一种创造性活动(Energeria)”,语言实际上是心智不断重复的活动,它使音节得以成为思想的表达。人类语言知识的本质就是语言知识如何构成的问题,其核心是洪堡特指出的“有限手段的无限使用”。语言知识的本质在于人类成员的心智(mind)/大脑(brain)中存在着一套语言认知系统,这样的认知系统表现为某种数量有限原则和规则体系。高度抽象的语法规则构成了语言应用所需要的语言知识,由于人们不能自觉地意识到这些抽象的语法规则,乔姆斯基主张,这些语言知识是一些不言而喻的或者无意识的知识。
乔姆斯基主张把语言知识和语言的使用能力区分开来。两个人拥有同一语言的知识,他们在发音、词汇知识、对于句子结构的掌握等方面是一样的。但是,这两个人可能在语言使用的能力方面表现得非常不同。因此,语言知识和语言能力是两个不同的概念。语言能力可以改进,而语言知识则保持不变。语言能力可以损伤或者消失,而人们并不至于失去语言知识。所以,语言知识是内在于心智的特征和表现,语言能力是外在行为的表现。生成语法研究的是语言的心智知识,而不是语言的行为能力。语言知识体现为存在于心智/大脑中的认知系统。
GPT采用的数据驱动的“端到端嵌入”技术对于非人类的自然语言行为是行之有效的,但是,这种技术是处于人类的心智之外的,根本不存在“有限手段的无限使用”问题,与乔姆斯基对于语言知识本质的认识是迥然不同的。
语言知识的来源问题,是西方哲学中的“柏拉图问题”(Plato's problem)的一个特例。“柏拉图问题”是:我们可以得到的经验明证是如此贫乏,而我们是怎样获得如此丰富和具体明确的知识、如此复杂的信念和理智系统呢?人与世界的接触是那么短暂、狭隘、有限,为什么能知道那么多的事情呢?刺激的贫乏(stimulus poverty)和所获得的知识之间为什么会存在如此巨大的差异呢(杨小璐, 2004)?与“柏拉图问题”相应,人类语言知识的来源问题是:为什么人类儿童在较少直接语言经验的情况下,能够快速一致地学会语言?乔姆斯基认为,在人类成员的心智/大脑中,存在着由生物遗传而由天赋决定的认知机制系统。在适当的经验引发或一定的经验环境下,这些认知系统得以正常地生长和成熟。这些认知系统叫作“心智器官”(mental organs)。决定构成人类语言知识的是心智器官中的一个系统,叫作“语言机能”(language faculty)。这个语言机能在经验环境引发下的生长和成熟,决定着人类语言知识的获得(Pullum & Scholz, 2002)。
研究发现,FOXP2是人类的独特基因。这一基因与其他哺乳动物的类似基因同属于一个家族,然而,这一基因的排序却是人类特有的。因此, FOXP2也许就是乔姆斯基所假设的“语言机能”的生物学基础。由于存在FOXP2,所以,语言是天赋的, FOXP2给语言天赋论和刺激贫乏论提供了生物学上的支持(俞建梁, 2011)。
语言机能有初始状态(initial state)和获得状态(attained state)。初始状态是人类共同的、普遍一致的;获得状态是具体的、个别的。语言机能的初始状态叫作“普遍语法”(Universal Grammar, UG),语言机能的获得状态叫作“具体语法”(Particular Grammar, PG)。对普遍语法的本质特征及其与具体语法的关系的研究和确定,是解决关于语言知识的“柏拉图问题”的关键。
GPT采用的数据驱动的“端到端嵌入”技术对于非人类的自然语言机器学习是行之有效的,但是,这种技术依靠大规模的语言数据,根本不存在“刺激贫乏”的问题,与乔姆斯基对于语言知识来源的认识是大相径庭的。
乔姆斯基把语言知识的使用问题叫作“笛卡儿问题”(Cartesian problem)。基于机械论哲学的物质概念,法国哲学家和数学家笛卡儿(Descartes)认为,所有非生命物质世界的现象、动物的生理与行为、大部分的人类器官活动,都能够纳入物质科学(science of body)的范畴。但是,笛卡儿又指出,某些现象不能处于物质科学的范畴之内,其中最为显著的就是人类语言,特别是“语言使用的创造性方面”,更是超出了机械论的物质概念所能够解释的范围。所以,对于语言的正常使用,是人类与其他动物或机器的真正区别。为了寻求对于语言这一类现象的解释,笛卡儿设定了一种“第二实体”的存在,这种第二实体就是“思维实体”(thinking substance)。“思维实体”明显不同于物质实体,它与物质实体相分离,并通过某种方式与物质实体相互作用。这一种“思维实体”就是心灵或者心智。语言知识的使用是内在于心智/大脑的。因此,对于这样的问题是很难解决和回答的。
GPT采用的数据驱动的“端到端嵌入”技术对于非人类自然语言的使用是行之有效的,但是,这种技术与“思维实体”没有关系,与乔姆斯基对于语言知识使用的认识是完全不同的。乔姆斯基主张,语言是语言机能或者语言器官所呈现的状态,说某个人具有语言L,就是说他的语言技能处于状态L。语言机能所获得的状态能够生成无限数目的语言表达式,每一个表达式都是语音、结构和语义特征的某种排列组合。这个语言机能所获得的状态是一个生成系统或者运算系统。
为了与一般人理解的外在语言相区别,乔姆斯基把这样的运算系统叫作“I语言”。字母I代表内在的(internal)、个体的(individual)、内涵的(intensional)等概念。这意味着,I语言是心智的组成部分,最终表现于大脑的神经机制之中,因此,I语言是“内在的”。I语言直接与个体有关,与语言社团存在间接的联系。语言社团的存在取决于该社团的成员具有相似的I语言,因此,I语言是“个体的”。I语言是一个函数或者生成程序,它生成一系列内在的表现与心智/大脑中的结构描写,因此,I 语言是“内涵的”。根据这种对于I语言的认识,乔姆斯基指出,基于社会政治和规范目的论因素之上的关于语言的通常概念,与科学的语言学研究没有任何关系,这些概念都不适合用来进行科学的语言研究。
生成语法对于语言的科学认识是内在主义(internalist)的,而GPT的大语言模型则是外在主义(externalist)的。GPT的方法是在广泛搜集语言材料的基础上,把离散的语言符号转化为词向量,通过机器学习来获取概率性的语言参数。这些参数存在于外部世界,处于人类的心智/大脑之外。GPT的方法是经验主义的方法,这种方法的基础是外在主义的语言观。乔姆斯基认为,根据外在主义的语言观,人们不能正确地认识和揭示人类语言的本质特征,不能解释人类语言知识获得的过程。只有内在主义的语言观才有可能正确地、全面地认识和解释人类语言知识的本质、来源和使用等问题。
乔姆斯基认为,生成语法的研究应当遵循自然科学研究中的“伽利略—牛顿风格”(Galilean-Newtonian style)。“伽利略风格”的核心内容是:人们正在构建的理论体系是确实的真理,由于存在过多的因素和各种各样的事物,现象序列往往是对于真理的某种歪曲。所以,在科学研究中,最有意义的不是考虑现象,而应寻求那些看起来确实能够给予人们深刻见解的原则。伽利略告诫人们,如果事实驳斥理论的话,那么事实可能是错误的。伽利略忽视或无视那些有悖于理论的事实。“牛顿风格”的核心内容是:在目前的科学水平下,世界本身还是不可解释的,科学研究所要做的最好的事情就是努力构建具有可解释性的理论,牛顿关注的是理论的可解释性,而不是世界本身的可解释性,科学理论不是为了满足常识理解而构建的,常识和直觉不足以理解科学的理论。牛顿摒弃那些无助于理论构建的常识和直觉。因此,“伽利略—牛顿风格”的核心内容是:人们应努力构建最好的理论,不要为干扰理论解释力的现象而分散精力,同时应认识到世界与常识直觉是不相一致的(吴刚, 2006)。
生成语法的发展过程,处处体现着这种“伽利略—牛顿风格”。生成语法的目的是构建关于人类语言的理论,而不是描写语言的各种事实和现象(冯志伟, 2009)。
语言学理论的构建需要语言事实作为其经验的明证,但是,采用经验明证的目的是为了更好地服务于理论的构建,生成语法所采用的一般是与理论的构建有关的那些经验明证。因此,生成语法研究的目的不是全面地、广泛地、客观地描写语言事实和现象,而是探索和发现那些在语言事实和现象后面掩藏着的本质和原则,从而构建具有可解释性的语言学理论。所以,在生成语法看来,收集和获得的语言客观事实材料越多,越不利于人们对于语言本质特征的抽象性的把握和洞察,而探索语言现象的可解释性才是语言研究的目标所在。GPT尽管功能强大,但是至今仍然是一个“黑箱”(black box),不具有可解释性(Linzen, 2019)。
乔姆斯基对于人类语言知识的本质、来源和使用问题的看法,与GPT对于非人类语言知识的本质、来源和使用问题的看法针锋相对,且GPT不具有可解释性,因此,乔姆斯基对于GPT持否定的态度,也就不足为奇了。
09
GPT仍是一个“黑箱”
最近,机器之心对美国人工智能专家罗素(Stuart Russell)就GPT问题进行了专访。罗素教授认为,对于ChatGPT,我们要区分任务领域,清楚在什么情况下使用它:ChatGPT可以是一种很好的工具,如果它能锚定在事实基础上,与规划系统相结合,将带来更大的价值。但问题是,我们目前不清楚ChatGPT的工作原理, ChatGPT没有可解释性,这需要一些概念上的突破,而这样的突破是很难预测的。罗素教授认为,要构建真正智能的系统,我们应更加关注数理逻辑和知识推理,因为我们需要将系统建立在我们了解的方法之上,这样才能确保人工智能不会失控。他不认为扩大规模是答案,也不看好用更多数据和更多算力就能解决问题。他认为,这种想法过于乐观。
OpenAI推出GPT-4后,研究团队甚至连GPT之父奥特曼(Altman)本人,仍然不能完全解读GPT-4。在不断测试中, OpenAI发现,从ChatGPT开始, GPT系列出现了推理能力,至于这种能力究竟是怎样出现的,仍然是一个“黑箱”,目前没有人能够回答。于是在3月29日,生命未来研究所发布了1000多位人工智能界人士的联名信,呼吁所有的人工智能实验立即暂停训练比GPT-4更强的人工智能,暂停期至少为六个月。联名信表示,大量的研究说明,由于GPT系列没有可解释性,具有人类竞争智能的人工智能系统,可能会对社会和人类构成深远的风险。先进的人工智能技术可能代表地球生命历史的深刻变化,应以相应的谨慎和资源进行规划和管理。只有当我们确信它们的影响是积极的,它们的风险是可控的时候,才可以开发强大的人工智能系统。
语言是人类文明的操作系统。标志人类文明的科学、艺术、思想、感情都离不开语言。人工智能对语言的掌控,意味着它可以入侵并操纵人类文明的操作系统。因此,自然语言处理如果没有可解释性,就相当于摩天大楼没有坚实的地基。而如果地基坍塌,自然语言处理组装的摩天大楼无论有多高也是没有价值的。对于GPT,我们必须研究其可解释性,揭开这个“黑箱”的奥秘,在这一方面,语言学家责无旁贷,应对此做出自己的贡献。
特别说明:本文发表于《外语电化教学》2023年第2期,第3-11+105页 本文转自:翻译技术教育与研究