邱锡鹏｜解剖大型语言模型：原理、应用及影响｜大文明视野中的ChatGPT反思（之二）

Original 邱锡鹏探索与争鸣杂志

2024-09-23

◆ ◆ ◆ ◆

上海市社会科学界联合会主办主管

有学术的思想 EXPLORATION AND FREE VIEWS

官网地址 http://www.tsyzm.com

◆ ◆ ◆ ◆

目前本刊只接受《探索与争鸣》网站投稿。请收藏唯一真实官网地址www.tsyzm.com。原编务邮箱tsyzm@sssa.org.cn停止使用，原投稿邮箱tansuoyuzhengming@126.com为编务邮箱和应急邮箱。原创文章，未经授权，谢绝转载，如需转载请留言。

解剖大型语言模型：原理、应用及影响

邱锡鹏｜复旦大学计算机科学技术学院教授、Mosschat团队负责人

本文原载《探索与争鸣》2023年第5期

具体内容以正刊为准

非经注明，文中图片均来自网络

邱锡鹏教授

ChatGPT所展现出来的令人惊艳的对话理解与表达能力，让越来越多的人意识到人工智能已经迎来了全新的里程碑，并且有望成为一个至关重要的基座系统，其以前所未有的速度渗透各行各业，持续引爆未来世界的数字经济体系。

ChatGPT背后的技术原理

ChatGPT背后的技术原理到底是什么呢？在正式解答这个问题之前，我们有必要先了解一下“语言模型”，即利用计算机去重新建模人类语言，把自然语言转化为机器能够理解并判断的语言的一种机制。人类的自然语言是十分灵活的，它一方面有规则，另一方面又随时可以打破规则，甚至会存在巨大的歧义性，任何一句话放在不同的情景下大家对其理解都会大不相同，这就给建模造成了极大的困难与挑战。

我们可以利用概率判断来进行语句处理。如果这个句子符合自然语言的规律，我们就赋予它一个比较高的概率，反之，则赋予它一个比较低的概率。不过这样的话，新的问题又产生了：我们到底应该怎么去赋予句子以概率？这就需要我们从互联网上获取海量的文本数据。但这也是一个难题，这个概率空间很大，难以直接建模。目前的解决方案是通过把整个句子的联合概率拆解成其中每个词的条件概率的连乘，大幅降低语言模型的建模难度。这样语言模型就转换为给定上文预测下文的机器学习任务。目前，大型语言模型使用的神经网络架构是“Transformer”。这个词的本义是变压器，有输入和输出，是一个类似于双塔式的结构。带入语言模型里面，就是进去是一个句子，出来是另一个句子，给定上句预测下句的特定网络模型。

现如今Transformer已经在整个人工智能领域成为最主流的架构体系。除了能力强之外，还有一个非常重要的原因在于它的架构设计对于GPU运算特别友好。因为Transformer架构和卷积、循环神经网络不一样，卷积、循环神经网络都是在GPU诞生之前设计的，而Transformer则出现在GPU之后，所以设计方面就可以天然地充分考虑最大限度利用GPU能力，更容易做到大规模语言模型的效果。

不过，要想模型的预测更加准确，就势必需要用大量的参数对其进行训练，以帮助大规模语言模型充分理解人类语言规则及其逻辑关系。目前在Transformer的加持之下，我们已经可以把模型规模做到百亿级、千亿级，这就是如今的大型语言模型（large language model，LLM）。语言模型背后的仿人类神经元构成的Transformer神经网络可以对我们输入的“上文”进行加工，从而实现对下一个词的预测，并输出相应的文本。

一个好的语言模型越想预测得准确，就越需要充分理解人类语言和常识。比如让模型预测鸡蛋是圆的而不是方的，本身便隐含着一定的生活常识在里面。为什么神经网络可以学习到这些常识呢？这里面有一个信息压缩的概念，比如有1万亿个词，我们可以把它原封不动保存到硬盘上，也可以用10亿个参数的神经网络把所有的语料知识记住。因为这里面有很多信息是冗余的，这就迫使神经网络不但要把这些浅层的知识存下来，还要把其中所蕴含的知识、规律累计下来。道理很简单：把规律记下来就可以胜过很多浅层的文字。通过这样的方式，我们迫使语言模型努力发现这些文字背后所蕴含的各种各样的规律，从而使这个模型能够更好地理解人类语言和世界知识。

涌现能力背后隐藏着哪些关键技术

在训练过程当中科学家发现，计算量大概在10的22次方之后，模型能力会完成从量变到质变的飞跃，呈现出惊人的爆发式增长，通常称之为“涌现能力”。大型语言模型在达到百亿级规模后开始获得涌现能力，其背后则进一步隐含着三个非常重要的技术，即情景学习、思维链和自然指令学习，这也是ChatGPT得以在人工智能领域叱咤风云的关键原因。

（1）情景学习（in-context learning）。它深刻改变了传统机器学习的范式，只需要用一系列精心设计的提示语句（prompt）对任务进行详细描述，然后再辅以一些情景例子，就能够让模型参考着既定例子完成特定任务。这种模式跟传统的将知识直接储存在参数里显然是不太一样的，也在一定程度上揭示了为什么ChatGPT通常是以多轮对话的形式来呈现。

事实上，ChatGPT每一次接收人类发来的对话，都会把之前的聊天历史全部作为上文输入给语言模型，然后由语言模型续写出一个下文并反馈给用户。这种让一个大型语言模型直接和人类进行交互，从产品创新的角度来看确实是非常有智慧和远见的。

（2）思维链（chain-of-thought）。模型能力可以通过扩大参数规模来提升，但是研究人员却另辟蹊径，想了一个更好的方法，即把一个复杂问题分解为多步推理的简单问题，让模型能够明白并学习人类到底是怎么一步一步推导到这个答案的，这个就叫作思维链。

大型语言模型经过海量预训练之后，已经见过了很多推理方式，我们只需要一步一步引导，就可以让它按照自己想要的方式去推理。思维链方式进一步解放了模型潜力，让本来模型不会解的一个个复杂问题分解成很多简单问题，然后通过逐一解决简单问题，最终使复杂问题迎刃而解。

（3）自然指令学习（learning from natural instructions）。传统上，机器学习都需要大量标记数据，才能让机器学习模型从数据当中实现学习。但是标数据本身又是个非常烦琐的事情，人类总归是希望语言模型最好能够直接从指令中进行学习，能够直接听懂人的意图。

而事实也证明，这个思路是可行的，甚至人类只需要在少量的任务上进行指令化，在经历大概四十多个任务指令化之后，对模型进行适度微调，就很容易泛化到上百、上千种任务，即使那些任务可能从来没有见过，它仍旧能够很好地进行应对。

尽管自然指令学习大幅提升了泛化能力，但是对人类的真实意图的理解仍然有着很大差距。OpenAI就希望收集真实的人类意图，让专家来写答案，从而更好地与人类偏好进行匹配。在这个过程当中，人的参与意义重大，其使得机器在迭代中始终保持和人类的价值观、思维方式对齐，也避免了机器自己迭代起来有可能会离人类的偏好和初衷越来越远。

大型语言模型是如何炼成的

在了解了ChatGPT背后的这些基本技术原理之后，我们大致可以尝试复现这一大型语言模型了。虽然这些关键步骤以及发展大势都已经十分明朗，但每一步的细节都需要我们自己去一一摸索，还是充满着各种未知的挑战。

第一步需要先实现语言模型基座，主要是在Transformer架构上进行模块优化。对于ChatGPT来说，它并没有特别关注中文，很多时候只是直接把中文按照英文的方式进行编码，我们自然是希望对中文进行优化，这就需要重新实现更好的中文编码，并想办法把中文和英文打通。将来如果接入多模态的话，编码问题同样会带来架构设计及训练稳定性等方面的诸多问题与麻烦。

第二步是指令微调，其难度甚至比预训练更高。在预训练阶段，利用一些大公司成熟的预训练模型，可以在短时间内取得不错的训练效果，但是指令微调则难以立马做到，这一点上后来者和OpenAI之间存在着非常明显的差距。

第三步是能力不断强化迭代。在与人类对齐方面，想要让模型的回答尽可能符合人类的思维习惯，也很难做到。考虑到OpenAI暂不开源，我们只能够一步步慢慢向前探索。如果我们想要超过ChatGPT，就得去找到一条比它更好的实现路径，而这个过程无疑充满艰险。

具体到笔者所负责的大型语言模型MOSS的实现方案上，首先要激发其对话能力。因为高校科研团队没有能力像OpenAI公司可以雇很多人去写答案，所以我们一开始是通过自指令技术先写一些种子，通过GPT-3帮我们扩展很多的条件语句和答案。写完之后，有一些小规模的对话数据开始产生，我们就可以进一步利用监督策略做一个模型出来，然后在此基础上进行能力提升，让它能够和人类的真实需求逐步对齐。要让机器自己去写答案，鼓励它按照人类的偏好不断实现迭代优化，去生产越来越符合人类习惯的数据类型。

整体而言， MOSS基于公开的中英文数据训练，拥有近200亿参数，具有和人类对话的能力，并可以通过与人类交互实现迭代优化。尽管MOSS对语言的理解能力和ChatGPT已经非常相近，但是目前MOSS的回答完成度相比ChatGPT还有很大的改进空间，主要原因在于MOSS在部署和训练上投入的资本还非常有限，还有很多事实类知识记不住，思维链能力也相对较差。目前我们也在积极尝试引入一些外部工具，来进一步扩大模型参数规模，不断实现改进与优化。

AI如何对未来社会形成颠覆性影响

考虑到ChatGPT已拥有通用语言理解的能力，并可以进一步增加对外接口，成为通用人工智能的技术基座，这也就意味着通用人工智能的加速实现对于现阶段的人类来说已经不是梦想。

以ChatGPT为代表的通用人工智能技术，可以引爆数字经济，充分发挥数据和算力效能，并催生出海量的新商业模式。它可以赋能产业数字化，并通过人机协同的方式解决行业专家资源不足的问题。数字人、个人助理、搜索引擎等形式也为数字经济新业态、新模式提供了发展动能。此外，通用人工智能技术还可以深刻改变教育、社会治理、司法等领域的生态，大幅提升行业水平。

当然，我们也必须正视，目前的通用人工智能技术尚且存在很多不足，包括随机性、不可控、容易“一本正经地胡说八道”等，不过，相信这些方面都将在未来通过各种方式逐步得到改进。或许正如图灵奖得主、著名人工智能专家杨立昆所言，下一代模型应该更加具有事实性、无害性、即时性，并且能够灵活使用计算器、数据库、搜索引擎、模拟器等各种辅助工具，而这也是人们亟须重点解决的时代课题。

对于下一阶段的大型语言模型来讲，我们目前重点需要去做的事情就是让模型和现实世界以及人类的价值观“对齐”，让模型成为一个真正的智能体，具有自身学习、跨模态学习、知识和工具利用等能力。与此同时，AI与人类价值观“对齐”也同样不可忽视，毕竟如果AI的价值观和人的价值观背道而驰，那将会是非常危险的。

有学术的思想有思想的学术

聚焦中国问题

秉持人文立场

人文社科学者的平台

欢迎一起“探索与争鸣”

继续滑动看下一个

探索与争鸣杂志

向上滑动看下一个

泪目！8死17伤！江苏一职校持刀伤人案，背后隐情令人心惊！

突发！宜兴一学校发生持刀伤人案件！致8死17伤！太恶劣了！

一小学门口突发！多名学生被撞伤！

“占坑式辩护”，侵犯了谁？

突发！一小学门口发生撞人事件

邱锡鹏｜解剖大型语言模型：原理、应用及影响｜大文明视野中的ChatGPT反思（之二）

您可能也对以下帖子感兴趣

泪目！8死17伤！江苏一职校持刀伤人案，背后隐情令人心惊！

突发！宜兴一学校发生持刀伤人案件！致8死17伤！太恶劣了！

一小学门口突发！多名学生被撞伤！

“占坑式辩护”，侵犯了谁？

突发！一小学门口发生撞人事件

生成图片，分享到微信朋友圈

邱锡鹏｜解剖大型语言模型：原理、应用及影响｜大文明视野中的ChatGPT反思（之二）

您可能也对以下帖子感兴趣