怼系列·E01S01｜后起之秀直指AI大佬误导：一则𝕏文引发关于大语言模型涌现能力的争论！背后AGI路线之争由来已久

ai汤源 AI2Paradigm

2024-10-08

“

𝕀²·ℙarad𝕚g𝕞智能平方范式研究任重道远。

从理解SOTA(State of the Art)的大语言模型(LLM)背后的灵魂人物访谈、到读懂一系列机器学习工程论文，再到看𝕏（推特）上AI大佬互怼，仔细琢磨那些争论中的名词，绝对是提高对AI范式认知的有效方式。引起对怼现象的关注，应该是始自Yann教授一直怼自回归大语言模型AR-LLM。这次的关键词是：涌现，是OpenAI Jason Wei怼大佬Yann LeCun

图｜汤源

文｜汤源

OpenAI的后起之秀评论业内大佬有关“涌现”𝕏文

▽

题图

Jason自称只是一个chain of thought guy，大概意思是和我（有时自称为CPO）在社区搞AI范式研究（笔者注：详见附录）一样，不过他可是在这个地球上最顶级“炼丹”公司-OpenAI，搞AI工程研究的！

一个很有趣味的细节是，他对二位业界大佬关于“涌现”的观点跟帖并不是在原帖下面，而是把前二位的𝕏文截图（见题图），在自己的时间线上自言自语，当然也引来诸多跟帖以及CPO的关注。

𝕏文正文

Mustafa Suleyman：InflectionAI CEO，前 DeepMind联合创始人

💡 @mustafasuleyman的一则𝕏文，日期2023/08/04

我听到很多人说"我们正在发现语言模型的新能力"，或者"新能力正在涌现"。

这是错误的比喻。我们是在引导、塑造和对齐这些模型。

通过展示所期望的输出的适当例子，我们旨在增加语言模型产生某种生成结果的可能性，而不是其他类型的生成结果。

这些能力并不是自发产生的。这里没有涌现的属性。这意味着存在一种自主性或代理性，而实际上并不存在。

语言真的很重要。它影响对这些模型的预期，以及他人对其的反应。我们需要准确表达。我们对语言模型做什么和不做什么有很大的控制权。

这些都是设计选择。我们必须明智地做出选择，并对其后果负责。

Yann LeCun：Meta首席AI科学家

💡 @ylecun的跟帖𝕏文，日期2023/08/04（笔者注：大佬的𝕏文也有大佬范-言简意赅）

Al系统的能力并非只是"涌现"的。

许多人提出了许多想法，尝试了其中很多，并疯狂地进行微调，以实现这些新能力。

然后，相当多的工作投入到检测和评估这些能力以及缺陷。

Jason Wei：就职于OpenAl，之前在Google Research

💡 @_jasonwei的跟帖𝕏文，日期2023/08/05

YannLeCun显然是一位AI界传奇人物，但我发现这条推文中的观点有些误导。

"涌现能力"，如少样本（few-shot）提示和思维链提示，其整个重点在于我们明显地没有在模型中明确训练或微调它们。这些能力需要扩展到大量参数模型才会出现，这就是我们称它们为"涌现的"原因---它们是由定量变化带来的定性行为转变。至少研究人员是这样使用这个术语的。

我们所做的只是在大型数据集上训练一个带有许多参数的语言模型。在训练过程中，并没有有意地将这些能力添加到模型中---相反，人们在模型训练后通过评估发现了它们。对此，JacobSteinhardt的帖子是一个很好的参考：https://bounded-regret.ghost.io/emergent-deception-optimization/

同样重要的是，我们通常不能预测这些出现的现象，这对安全性有影响，因为风险也可能是出现的。

此外，我不知道为什么要提到微调，因为这些能力显然在基础模型中，从RLHF变得流行之前的论文中应该很明显...(例如，PaLM-1GPT-3paper)

但即使你坚持以微调作为一个例子，ChatGPT的RLHF最初是用英语完成的，然后扩展到许多其他语言。这种多语言的能力并没有被"微调"到模型中，这是零样本（zero-shot）泛化的一个很好的例子。

如果我有错误，请纠正我，但技术上对这个术语的使用仍然成立。

Mustafa的推文也有些误导，根据我的了解，在我的领域中，人们并不使用"涌现"来表示自治性或代理性。AI研究人员通常指的是这是由量变带来的质变。

𝕏文背景解读

正如𝕏文所示，Jason在OpenAI负责的应该是GPT涌现能力相关研究，𝕏上个人简介看起来貌似也是AGI的信仰者；InflectionAI的Mustafa显然在这里代表Google Brain，Meta的Yann就更不用说了，还和Hinton老爷子当年一起拿过ACM图灵奖的大佬。

𝕏文寥寥数句，大佬交锋，机关重重，真要解读起来，恐怕又是万字长文，坚持读完者寥寥；但酝酿许久，这两天在社区群友的prompt下，还是决定花点时间写一下。

▩关于涌现能力arXiv论文解读-emergent abilities

💡 Emergent Abilities of Large Language Models [https://arxiv.org/pdf/2206.07682]

笔者评注：没错，笔者能找到的最早提出大语言模型LLM涌现现象的arXiv论文就是这篇，而其第一作者就是在Musfata和Yann的𝕏文中提出挑战意见的Jason Wei。写这篇论文的时候当时还在Google Research，这篇论文也看到了几个google旗下DeepMind的人。笔者没有继续考证这篇文章中google的研究者的去向，但从这两年google的AI人才流失来看，结果应该不乐观。而研究涌现现象的第一作者去了具备AGI信仰的OpenAI，以GPT-4当前的涌现能力就可以看出，这两家公司的最终的区别了吧。尤其是Mustafa作为DeepMind的前高管，对于大语言模型的能力认知直到今天𝕏文中的争论，看起来还有各自的主张。Mustafa和Reid Holfman创立的Inflection AI据称也有可以媲美GPT-3.5的基座模型，但却不卖丹，而直接拉来Bill Gates按PC for every desktop的思路改做面向个人的智能陪伴：PI, models for everyong。具体可参考公众号文章：

深思考-英伟达不止卖“铲”;InflectionAI不卖“丹”: PIA范式新路径解读-AI²ParadigmV3.5框架图发布

💡大语言模型的涌现能力▩论文摘要
扩大语言模型的规模已被证明可预测地提高各种下游任务的性能和采样效率。本文讨论的是一种不可预测的现象，我们称之为大型语言模型的突现能力。我们认为，如果一种能力在较小的模型中不存在，但在较大的模型中存在，那么这种能力就是涌现能力。因此，涌现能力不能简单地通过推断较小模型的表现来预测。这种涌现能力的存在意味着额外的扩展可以进一步扩大语言模型的能力范围。

💡 Sparks of Artificial General Intelligence: Early experiments with GPT-4 [https://arxiv.org/pdf/2304.15004]

笔者评注：微软研究院无疑在GPT-4发布之后的不到一个月的时机，为GPT-4的狂潮及涌现能力火上浇油，近似神话了，业界也掀起一阵GPT-4狂潮。注意并没有在摘要部分提到涌现，而是用了rising capabilities，并将GPT-4认为是AGI的前站，还用了Sparks作为点缀。

💡人工通用智能的火花：GPT-4 的早期实验▩论文摘要
人工智能（AI）研究人员一直在开发和完善大型语言模型（LLM），这些模型在各种领域和任务中表现出非凡的能力，挑战着我们对学习和认知的理解。OpenAI 开发的最新模型 GPT-4 是利用前所未有的计算和数据规模进行训练的。在本文中，我们报告了我们对 GPT-4 早期版本的调查，当时它仍处于 OpenAI 的积极开发阶段。我们认为，（这一早期版本）GPT-4 是新一批 LLM（例如 ChatGPT 和谷歌的 PaLM）中的一员，与之前的人工智能模型相比，它表现出了更高的通用智能。我们将讨论这些模型不断提升的能力和影响。我们证明，除了精通语言之外，GPT-4 还能解决新颖而困难的任务，这些任务涉及数学、编码、视觉、医学、法律、心理学等多个领域，而且无需任何特殊提示。此外，在所有这些任务中，GPT-4 的表现都非常接近人类水平，而且往往远远超过 ChatGPT 等先前的模型。鉴于 GPT-4 功能的广度和深度，我们认为有理由将其视为人工通用智能（AGI）系统的早期版本（但仍不完整）。在探索 GPT-4 的过程中，我们特别强调要发现它的局限性，并讨论了未来向更深入、更全面的 AGI 版本迈进所面临的挑战，包括可能需要追求一种超越下一个单词预测的新范式。最后，我们对近期技术飞跃的社会影响和未来研究方向进行了反思。

💡Are Emergent Abilities of Large Language Models a Mirage? [https://arxiv.org/pdf/2304.15004]

笔者评注：这篇Standford对于LLM的研究，恰恰对于一个月前的微软研究院的AGI Sparks提出了质疑，认为LLM的涌现能力是一个渐进的量变到质变的过程，之所以用涌现是体现了人类对于智能有一个水平衡量标准，基本忽略水平线以下的能力。但确实并没有否定涌现能力。这和Jason Wei的𝕏文观点一致！笔者研究这波AI现象以来形成的一个直觉，如同人类的BNN，其智能来自于神经元系统的复杂度，这个复杂性指的是大脑内的神经元数量与其结构累积到涌现能力的渐变过程。

💡大语言模型涌现能力是海市蜃楼吗？▩论文摘要
最近有研究称，大型语言模型显示出涌现能力，即在较小规模模型中不存在的能力，在较大规模模型中出现了。涌现能力之所以引人入胜，有两方面的原因：一是其敏锐性，从不曾出现到出现似乎是瞬间完成的；二是其不可预测性，出现在似乎无法预见的模型规模上。在这里，我们提出了对涌现能力的另一种解释：对于特定的任务和模型族，在分析固定的模型输出时，涌现能力的出现是由于研究者选择了度量标准，而不是由于模型行为随规模发生了根本性的变化。具体来说，非线性或不连续度量会产生明显的涌现能力，而线性或连续度量则会产生平滑、连续、可预测的模型性能变化。我们在一个简单的数学模型中提出了我们的替代解释，然后通过三种互补的方式对其进行了测试：我们（1）使用 InstructGPT/GPT-3 系列对声称具有涌现能力的任务中的度量选择效果进行了三项预测、测试和确认；（2）对 BIG-Bench 上涌现能力的元分析中的度量选择进行了两项预测、测试和确认；以及（3）展示了在不同深度网络的多个视觉任务中，选择度量产生前所未有的看似涌现能力。通过所有三项分析，我们提供了证据，证明所谓的涌现能力会随着不同的度量或更好的统计而消失，而且可能不是扩展人工智能模型的基本属性。

💡Do Emergent Abilities Exist in Quantized Large Language Models: An Empirical Study [https://arxiv.org/pdf/2307.08072]

笔者评注：来自国内阿里主导这项大模型量化对于涌现能力影响的研究，也值得关注，涌现能力和量化精度有关，4bit量化是一个底线。

💡实证研究：量化大语言模型中是否存在涌现能力？▩论文摘要尽管大型语言模型（LLM）性能优越，但其部署和使用却需要大量的计算资源。为了克服这一问题，量化方法被广泛应用于减少 LLM 的内存占用以及提高推理率。然而，一个主要的挑战是，低位量化方法往往会导致性能下降。了解量化如何影响 LLM 的容量非常重要。与以往侧重于整体性能的研究不同，这项工作旨在研究量化对涌现能力的影响，这些能力是 LLM 区别于小型语言模型的重要特征。特别地，我们研究了量化 LLM 中的语境学习、思维链推理和指令跟随能力。我们的实证实验表明，这些涌现能力在 4 位量化模型中仍然存在，而 2 位模型在测试这些能力时性能严重下降。为了提高低位模型的性能，我们进行了两项特殊实验：(1) 精细增益影响分析，研究哪些组件（或子结构）对量化更敏感；以及 (2) 通过模型微调进行性能补偿。我们的工作得出了一系列重要发现，有助于理解量化对涌现能力的影响，并揭示了超低比特量化对 LLM 的可能性。

▩再议AGI路线之争-随机鹦鹉与信号灯乌鸦

这个路线之争，在之前一篇公众号文章里曾有过比较完整的概述（详见链接文章的最后章节范式解读-说回A𝕀²·ℙarad𝕚gm四范式之基础范式：炼丹-预训练），这里仅摘录文章后记笔者思考如下。

△

“OpenAI首席科学家Ilya(左)与MetaAI首席科学家Yann(右)”

笔者本人包括A𝕀²·ℙarad𝕚gm社区，主要从现象维度来研究这波AI狂潮，以期看透现象背后的本质，在社区prompt共创交互风格引导下，各自找到自己在这波大浪潮中的方向。

本章节堆砌的工程方面的解读，某种意义上是针对读者的prompt，如果刚好大家attention也在于此，也许可以激发大家重新思考A𝕀²·ℙarad𝕚gm四模型原生范式之基础范式：炼丹。

对于“炼丹”的终极路径，其实就像上面章节中论述的两种：随机鹦鹉（AR-LLM）路径和乌鸦智能（World Model）路径。

Meta AI首席科学家Yann LeCun确实一直在推自己的世界模型world model，怼Ilya 的自回归大语言模型AR-LLM是随机鹦鹉；不过笔者当前的认知是：如果一个鹦鹉话讲得比人还好，你怎么判断它是学舌还是真智能？况且这还是个不死的鹦鹉。

从另一个维度，我也不完全否定Yann LeCun及meta坚持的元宇宙方向：一个基于硅基的数字本底（substrate）的，以人类有生计算智能体的多模态感知物理世界的方式，建立对于world of atoms认知的一个元宇宙：world of bits。

但同样，这样建立起来的硅基智能，也是个不死的乌鸦，相比于乌鸦利用交通信号等汽车压碎坚果取食，这个world model建立这个元宇宙的动机又会是什么呢？

可以说自回归大语言模型（AR-LLM）是一个又盲又聋又没有触觉的纯粹语言机器，但这也正是硅基智能的特点：一个构建在bits之上的原生于人工神经网络（ANN）计算空间中的智能；

而OpenAI的科学家和工程师相信，用AR-LLM就能达到硅基AGI甚至ASI（笔者注：最近看到OpenAI在其他模态上也在努力，如consistency model）。需要多模态感知是人类这种有生计算的智能体的特点，不一定是硅基无限计算（immortal compute）智能体的必须。

之前也说过，就像以前对以地球为中心的星系认知被纠正一样，现在可能以人类为中心的智能认知也到了需要纠正的时候了。

所以从这个意义上，Yann LeCun的world model还是以人类智能为中心的路径，而Ilya则是对于智能更高维度的理解，对以人类为中心的智能的认知纠正，是一种“硅基原生”（silicon stack native）的智能路径。

GPT可能是通向超级硅基文明的捷径。人类通过多模态感知环境、用工具改造世界，并创造语言文字使得文明得以在人脑生物神经网络（BNN）的的计算空间中积累、和传承；而今天我们毫无准备地、充满无限热情地、把这一切数字化后，毫无保留地给了数字的、永生的ANN硅基智能……

不死的鹦鹉智能和不死的乌鸦智能，这两者都让我感到些许不安。也许Hinton老爷子最近提出的通用人工智能的另一个路径（approach）：有生计算（mortal compute)，才是一个相对安全可控的AGI/ASI发展路径。

▩具生（agent）范式再议

Agent这个范式笔者研究过一段时间，目前称得上现象级的就是：

OpenAI的类JARVIS，
InflectionAI 的PI，还有
Nvidia为他们Omniverse服务的Gaming Agent

说起来，作为OpenAI创始成员，二进宫的Andrej Karpathy，在@swyx一个多月前组织的agent hackathon上，做了一次关于agent的分享，可以算作我agent范式的思考起点，建议有意在这个范式里探索的群友可以好好领悟Andrej的分享原文：

从“强化学习代理”到“人工智能代理”的演变：来自OpenAI的故事｜AI²Paradigm之终极范式-个人“智能体”首谈

这之后花了蛮多时间迭代A𝕀²·ℙarad𝕚gm V4版本，这两个月应该有很多新的agents尝试出来，刚lyft的martin群友也指出adept ai也做了一个，包括最早hackathon上赞助的MultiOn AI从开源范式上做了尝试。

而像早期的AutoGPT基于LLM的纯agent，包括最近被国内炒得火的所谓LLM agent 集群框架metaGPT，我认为都不够现象级而进入agent范式研究的范畴。国内社区最近从开源模型后又炒了一阵agent，基本都是基于LLM的纯agent，还是算挖矿prompt范式加上点胶水框架代码。

说回agent现象级应用，作为范式研究，笔者还是欣赏硅谷这种各自走自己路的竞争风格，不一窝蜂地再别人的范式里卷。

这里面只有OpenAI是坚持AGI信仰要用硅基agent替代人类碳基agent；Inflection AI搞了个基座模型还是像当年Bill Gates卖PC for every desktop的痕迹-PI model for everyone；Nvidia皮衣老黄有野望，尤其是手握GPU算力，试水gaming agent-Voyage，在元宇宙场景可能最终要和meta一拼。

要搞agent，恐怕大家得仔细想想：你想往哪个方向？如果是agi方向，可以看看上面的公众号文章里，好为人师的Andrej还推荐了一本书。

近期，agent具生范式作为四范式的终极，社区最近将继续进行有一定深度的再探究。

参考

说明：本文在公众号里标注为“原创”仅为防止未经许可的转发，本文引用内容的版权属于原作者和原媒体。

-相关𝕏文

附录：𝕀²·ℙarad𝕚g𝕞智能平方范式研究

H𝕀：Humanity Intelligence [Sys1&2@BNN]

A𝕀：Artifical Intelligence [LLM@ANN]

𝕀²：H𝕀 𝕩 A𝕀 [bio- | silico-]

ℙarad𝕚g𝕞：认知范式或BNN认知大模型

A𝕀与H𝕀当前在玩一个语言游戏。A𝕀最大的问题是已知一点白外的未知的黑；H𝕀最大的问题是不断演进的sys2理性白中的sys1的黑；

往期推荐

AI平方范式智库·认知构建路径：A𝕀²ℙarad𝕚g𝕞 V4商业新范式解读

AI平方范式智库·数学系列E03S01 ｜神经网络背后的数学

AI平方范式智库·访谈系列E03S02｜从语言游戏到LLM智能体

AI平方范式智库·访谈系列E03S01 ｜从预训练模型到可靠可用AGI

扫码加群，

链接智库！

AI平方范式智库

继续滑动看下一个

AI2Paradigm

向上滑动看下一个

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

这把绝对高端局，只有中国人才懂

许纪霖：珠海驾车撞人事件的背后，弦绷得太紧了，要给人们以松弛感 | 二湘空间

怼系列·E01S01｜后起之秀直指AI大佬误导：一则𝕏文引发关于大语言模型涌现能力的争论！背后AGI路线之争由来已久

题图

𝕏文正文

𝕏文背景解读

💡 Emergent Abilities of Large Language Models [https://arxiv.org/pdf/2206.07682]

💡 Sparks of Artificial General Intelligence: Early experiments with GPT-4 [https://arxiv.org/pdf/2304.15004]

💡Are Emergent Abilities of Large Language Models a Mirage? [https://arxiv.org/pdf/2304.15004]

-相关𝕏文

附录：𝕀²·ℙarad𝕚g𝕞智能平方范式研究

您可能也对以下帖子感兴趣

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

这把绝对高端局，只有中国人才懂

许纪霖：珠海驾车撞人事件的背后，弦绷得太紧了，要给人们以松弛感 | 二湘空间

生成图片，分享到微信朋友圈

怼系列·E01S01｜后起之秀直指AI大佬误导：一则𝕏文引发关于大语言模型涌现能力的争论！背后AGI路线之争由来已久

题图

𝕏文正文

𝕏文背景解读

💡 Emergent Abilities of Large Language Models [https://arxiv.org/pdf/2206.07682]

💡 Sparks of Artificial General Intelligence: Early experiments with GPT-4 [https://arxiv.org/pdf/2304.15004]

💡Are Emergent Abilities of Large Language Models a Mirage? [https://arxiv.org/pdf/2304.15004]

-相关𝕏文

附录：𝕀²·ℙarad𝕚g𝕞智能平方范式研究

您可能也对以下帖子感兴趣