ChatGPT之后,下一代大型语言模型在哪里?
OpenAI 首席执行官 Sam Altman(左)和 Meta AI 首席执行官 Yann LeCun(右)对未来有不同看法...
【编者按:ChatGPT的爆火,让大语言模型受到了人们的关注,然而这些来自不同公司的大语言模型,像OpenAI的GPT-3、Google的PaLM或LaMDA、Meta的Galactica或OPT等,都是在相同的基本方式上构建的,都是基于Transformer构建的自回归、自我监督、预训练、密集激活模型。虽然各种大模型表现类似惊人的能力,但目前的人工智能远远没有到达其能力的终点。那么未来大语言模型的出路在哪里?The Next Generation Of Large Language Models(下一代大语言模型)根据一些最新的研究结果提出了一些猜想。比如大模型可以产生训练数据来用于改善自己;大模型可以核查确认事实;海量稀疏专家模型等。该文由Radical Ventures的合伙人,同样也是You.com的投资者Rob Toews撰写,并发表在最近一期的福布斯杂志。】
也许您还没有听说过,人工智能是最热门的新事物。
如今,从硅谷到达沃斯,每一位风险投资家、企业家、财富 《500》 强首席执行官和记者都在谈论生成人工智能。
对于那些在 2022 年开始真正关注 AI 的人来说,他们认为像ChatGPT 和 Stable Diffusion 这样的技术似乎是凭空冒出来,席卷了全球。
早在 2020 年,我们就在本专栏写过一篇文章,预测生成式 AI 将成为下一代人工智能的支柱之一。
至少自2019 年GPT-2 发布以来,该领域的工作人员已经清楚,生成语言模型有望引发巨大的经济和社会变革。同样,虽然文本到图像模型去年夏天才引起公众的注意,但自 OpenAI 于 2021年1 月发布最初的DALL-E以来,该技术的优势似乎已经不可避免地。
出于同样的原因,重要的是要记住,人工智能的当前技术水平远未达到人工智能能力的最终状态。相反,人工智能领域的发展从未像现在这样快速。尽管 ChatGPT 目前在我们看来令人惊叹,但它只是下一步的垫脚石。
下一代大型语言模型 (LLMs) 会是什么样子?这个问题的答案已经存在,目前正在人工智能初创公司和研究小组的开发中。
本文重点介绍了三个新兴领域,它们将有助于定义生成式 AI 和 LLM 的下一波创新浪潮。对于那些希望在这个瞬息万变的世界中保持领先地位的人来说,请继续阅读:
01、可以自己生成训练数据以提高自己的模型
想想人类是如何思考和学习的。我们从外部信息来源收集知识和观点——比如,通过阅读一本书。但我们也会通过思考一个话题或思考一个问题,自己产生新颖的想法和见解。我们能够通过内部反思和分析来加深对世界的理解,而不直接依赖于任何新的外部输入。
人工智能研究的一条新途径旨在使大型语言模型能够做类似的事情,有效地引导它们自己的智能。
作为他们培训的一部分,今天的 LLMs 吸收了世界上积累的大部分书面信息(例如,维基百科、书籍、新闻文章)。如果这些模型一旦经过训练,就可以使用它们从这些来源吸收的所有知识来生成新的书面内容,然后将这些内容用作额外的训练数据来改进自己,那会怎样?初步研究表明,这种方法可能可行且功能强大。
在最近的一项名为“大型语言模型可以自我改进”的研究工作中, Google 的一组研究人员构建了一个 LLM,它可以提出一组问题,为这些问题生成详细的答案,并过滤自己的答案以获取最高质量的输出,然后根据精选的答案进行自我微调。值得注意的是,这导致了各种语言任务最新的最先进的性能。例如,该模型在 GSM8K 上的性能从 74.2% 提高到 82.1%,在 DROP 上从78.2% 提高到 83.0%,这两个流行的标准用于评估LLM 性能。
最近的另一项工作建立在称为“指令微调”的重要 LLM 方法的基础上,它是ChatGPT 等产品的核心。ChatGPT 和其他指令微调模型依赖于人工编写的指令,而该研究小组构建了一个模型,可以生成自己的自然语言指令,然后根据这些指令进行自我微调。性能提升非常显著:这种方法将基础 GPT-3 模型的性能提高了 33%,几乎与 OpenAI 自己的指令调优模型的性能相当。
在一项与主题相关的工作中,来自谷歌和卡内基梅隆大学的研究人员表明,如果一个大型语言模型在遇到问题时,在回答之前先背诵它对该主题的了解,,它会提供更准确和复杂的回答。这可以粗略地类比为一个人在谈话中,他不会不是脱口而出关于某个话题的第一个想法,而是在分享观点之前搜索她的记忆并反思她的信念。
当人们第一次听说这方面的研究时,往往会产生一个概念上的异议——这难道不是循环的吗?模型如何生成数据,然后使用这些数据来改进自身?如果新数据首先来自模型,那么它包含的“知识”或“信号”不应该已经包含在模型中了吗?
如果我们将大型语言模型设想为数据库,存储训练数据中的信息,并在出现提示时以不同的组合再现这些信息,那么这种反对意见是有道理的。但是——尽管听起来让人不舒服,甚至令人毛骨悚然——我们最好还是按照人脑的思路来构想大型语言模型(不,这个类比当然不完美!)。
我们人类从世界上吸收了大量数据,这些数据以不可估量、无数的方式改变了我们大脑中的神经连接。通过反省、写作、交谈——有时只是睡个好觉——我们的大脑就能产生新的见解,这是我们以前从未有过的,也没有出现在世界上任何信息源中。如果我们将这些新的见解内化,它们可以让我们变得更聪明。
鉴于世界可能很快就会用完文本训练数据,LLM 可以生成自己的训练数据的想法尤为重要。这还不是一个广为人知的问题,但却是许多人工智能研究人员担心的问题。
据估计,全球可用文本数据的总存量在 4.6 万亿到 17.2 万亿个Token之间。这包括世界上所有的书籍、所有的科学论文、所有的新闻文章、所有的维基百科、所有公开可用的代码,以及互联网的大部分经过了质量过滤的内容(例如,网页、博客、社交媒体)。最近的另一项估计将总数定为 3.2 万亿Token。
DeepMind 的 Chinchilla 是当今领先的 LLMs之一,接受了 1.4 万亿个Token的训练。
换句话说,我们可能在一个数量级内,耗尽世界上所有有用的语言训练数据供应。
如果大型语言模型能够生成自己的训练数据,并使用它来继续自我改进,这可能会使迫在眉睫的数据短缺变得无关紧要。对于LLMs来说,这将代表一个令人费解的飞跃。
02、能够对自己进行核查的模型
最近流行的说法是,ChatGPT 和类似的对话式 LLMs 即将取代 Google 搜索,成为世界上最重要的信息来源,颠覆曾经强大的科技巨头,如 Blockbuster 或 Kodak。
这种叙述严重地将事情简单化了。今天存在的 LLM 永远不会取代 Google 搜索。为什么不?简而言之,就是因为今天的LLms在编造东西。
尽管它们很强大,但大型语言模型经常会产生不准确、误导或错误的信息(并自信且令人信服地呈现)。
ChatGPT 的“幻觉”(这些错误陈述被称为幻觉)的例子比比皆是。这并不是要针对 ChatGPT;目前存在的每一个生成语言模型都以类似的方式产生幻觉。
举几个例子:它推荐不存在的书;它坚持认为220 这个数字小于 200;不确定刺杀Abraham Lincoln’s的凶手在遇刺时是否与林肯在同一个大陆;它对 provides等概念提供了看似合理但不正确的解释。
大多数用户不会接受搜索引擎有时会把这些基本事实搞错;即使是 99% 的准确率也不足以让市场广泛采用。OpenAI 首席执行官 Sam Altman 本人也承认这一点,他最近警告说:“ChatGPT 非常有限,但在某些方面已经足够出色,足以给人一种伟大的误导性印象。现在依赖它来做任何重要的事情都是错误的。”
LLMs 的幻觉问题是否可以通过对现有架构的渐进式改进来解决,或者是否有必要对 AI 方法论进行更基本的范式转变以赋予 AI 常识和真正的理解,这是一个悬而未决的问题。深度学习先驱 Yann LeCun认为是后者。LeCun 的逆向观点可能被证明是正确的;时间会证明一切。
不过,在近期内,一组有前途的创新至少可以减轻 LLM 在事实上的不可靠性。这些新方法将为LLM在现实世界中部署准备方面发挥重要作用。
当前使语言模型更准确的工作的核心是两个相关的功能:(1) LLM 从外部来源检索信息的能力,以及 (2) LLM 为他们提供的信息提供参考和引用的能力。
ChatGPT 仅限于已经存储在其中的信息,在其静态权重中捕获。(这就是为什么它无法讨论 2021 年之后发生的事件,那时模型被训练。)能够从外部来源获取信息将使 LLM 能够访问最准确和最新的可用信息,即使当该信息经常变化时(例如,公司的股票价格)。
当然,能够访问外部信息源本身并不能保证 LLM 将检索到最准确和相关的信息。LLM 提高了人类用户的透明度和信任的一种重要方法是包括对他们从中检索信息的来源的引用。此类引用允许人类用户根据需要审核信息源,以便自己决定其可靠性。
该领域的重要早期工作包括REALM(来自 Google)和RAG(来自 Facebook)等模型,它们均于 2020 年发布。随着近几个月对话式 LLM 的兴起,该领域的研究正在迅速加速。
去年,OpenAI发布了一个名为 WebGPT的 GPT 模型的微调版本,可以使用 Microsoft Bing 浏览互联网,以便对提示提供更准确和深入的响应。WebGPT像人类一样浏览互联网:它可以向 Bing 提交搜索查询、跟踪链接、在网页上上下滚动,并使用 Ctrl+F 等功能查找术语。当模型在互联网上找到相关信息并将其合并到输出中时,它会提供引用,以便人类用户可以看到信息的来源。
结果是令人鼓舞的:对于相同的查询,WebGPT 的响应在 56% 的情况下优于人类受试者编写的响应,在 69% 的情况下优于 Reddit 上评分最高的响应。
DeepMind 也在沿着这些方向进行研究。几个月前,DeepMind 发布了一个名为Sparrow的新模型。与 ChatGPT 一样,Sparrow 也是基于对话的;与 WebGPT 一样,它可以在互联网上搜索信息并为其断言提供引用。Sparrow 建立在 DeepMind 早期的重要工作之上,包括SpaLM、RETRO和GopherCite。