从“强化学习代理”到“人工智能代理”的演变：来自OpenAI的故事｜AI²Paradigm之终极范式-个人“智能体”首谈

ai汤源 AI2Paradigm

2024-10-07

题图｜deviantart.com

正文编译整理｜汤源

“

𝕀²·ℙarad𝕚g𝕞智能平方范式研究任重道远。

整理这篇文章的时候，Andrej老师已经从OpenAI退出，专职做个AI届的超级老师了。。。算是圆了他的训练人类大脑神经网络大模型的梦想，以及好为人师的名副其实。

JAVIS人机界面来自MARVEL电影-Iron Man

▽

题记

George Holz的爆料后，笔者跟进写了快思考、慢思考以及再观察等一系列3篇；上面再观察这篇题图使用了BingImage创作的George Holz的头像，试图体现其黑客精神的一面，也是AI范儿重点关注这波AI狂潮中不可忽视的开源社区力量。也因此更关注硅谷社区的活跃人士如@swyx等。

这两天由@agihouse_org组织了一场有关AI Agents主题的黑客马拉松#AIAgentsHackathon, 现场的赞助商：

@CRV专注于早期的种子期和A轮创业公司，已经投资了500多家公司，包括Airtable、DoorDash和Vercel。

@MultiON_AI @inworld_ai 则分别专注于C端个人AI代理的平台创业企业。类似B端为主的HuggingFace这样的社区平台。

这场被众多关注AI Agents领域的社区大佬称之为“另一场史诗般的黑客马拉松 Another Epic Hackathon “，邀请到现场有主题分享的有：

@karpathy：建立一种JARVIS@OреոΑӏ。曾任特斯拉的人工智能总监，CS231n，斯坦福大学博士。我喜欢训练大型深度神经网络。

@hwchase17：现在@LangChainAI，曾在@robusthq @kensho；专注于MLOps ∪生成性人工智能 ∪体育分析

@swyx：标榜：反典型生活的反自我想法。正在做一些关于smol的事（笔者注：面向AI开发者的项目）；运营AI新闻和采访：@latentspacepod；写过关于原则的书：@coding_career（笔者注：George爆料的采访主持就是他）

@amasad：CEO @replit，利用人工智能的力量，在任何设备上协同构建和部署软件，而无需花费一秒钟的时间进行设置。

@DrJimFan：@NVIDIA 高级人工智能科学家。@斯坦福大学博士。多模态LLM，通用代理，机器人学；MineDojo（NeurIPS最佳论文），Voyager，Prismer；前雇主：@OpenAI @谷歌AI

@adamdangelo：Quora CEO，主要精力在Poe：@poe_platform （笔者注：就是那个大家都在蹭免费GPT的App）

@jerryjliu0：联合创始人/CEO @llama_index，专注于LLM数据框架

△

“@agihouse_org组织的黑客马拉松-左上为@kapathy”

有参会社区推友感叹：很高兴看到黑客们的创造力和聪明才智建立在开源社区的平台之上，其中目前在Nvidia的@DrJimFan现场干货很多，会后还放出了其演讲PPT。

△

“@DrJimFan的Voyager GPT演讲内容截图显示比AutoGPT优势明显”

不过，本文关注的焦点是@karpathy，就是在上个月微软Build大会上讲了State of GPT的Andrej，公众号曾经编译整理过他的演讲：

如何训练以及prompt你的GPT助手-二进宫OpenAI创始人Andrej倾情奉献「GPT现状」

除了现场把GPT预训练以及后续针对具体场景做的微调（fine-tuning）讲得非常透彻之外，笔者印象最深的就是在OpenAI内部经常说prompt现象的一句话：

Those GPTs need more tokens to think!

真是极简又深刻的道出了GPT Prompt现象的精髓。

另外一个契合笔者在AI²Paradigm范式迭代的终极范式attention的是，Andrej有意无意在那场演讲中提到了OpenAI继ChatGPT之后的另一个现象级超级App的发力方向：

一个类似漫威电影钢铁侠里的智能体助手J.A.R.V.I.S.。Andrej的推特简介也提到了他在二进宫OpenAI后的主要工作 - 建立一种类似JARVIS的AI Agents。

▩ Takeaways from @karpathy

从2017年的RL Agents到今天的AI Agents，构建智能体的工具箱已经发生了巨大变化。
很容易建立演示，但实际上却很难做出产品来。很多事情都属于这个类别：如自动驾驶、VR，相信AI Agents也会经历这个过程。
AI Agents要发展，LLM肯定是一部分，还要回归神经科学，向“人脑与行为”模式学习借鉴，和深度学习早期一样，视听觉皮层、海马体、丘脑这些人脑神经科学中的组成应该在AI Agents的实现上有对应物。
OpenAI在LLM上可能已经登峰造极，但在AI Agents反倒是开源社区的探索处在这一领域的前沿。
AGI将采取某种AI代理的形式；而且它不仅仅是一个单一的代理，也许会有许多代理。也许会有数字实体的组织或文明。

▩ Takeaways from AI范儿CPO

AI²Paradigm 从V1到V3的迭代，是一种全新的尝试，基本是沿着：

从GPT现象-看Prompt本质-找创投应用方向

这样的路径，在“AI范儿”一众群友prompt下共创并逐步思考迭代的过程。

AI²Paradigm v1-v3范式迭代
▩大模型炼丹(pre-training) (v1. AIGC)
▩大模型挖矿(prompting) (v1.AIGC)
▩大模型蒸馏(distillation) (v2. Models Anywhere)
▩大模型智能体(promptless) (v3. Intelligent Agents)

△附：AI²Paradigm v1-v3范式迭代，详情请阅读下一章节：AI²Paradigm价值模型迭代路径

作为AI²Paradigm终极范式-智能体的迭代，实际上先是从HuggingGPT和Gorrila的发展路径来探索的面向企业的智能体。

像Gorilla、HuggingGPT这样的类似LLM集成器的应用框架，可以整合通用GPT和垂直模型，应用到B端场景，无疑给一众以大模型重构企业B端服务的ISV提供了一个非常好的方向和应用基础。

而在面向个人的智能体（类似本文说的AI代理），则是来自Andrej在“State of GPT”演讲中透露的OpenAI继ChatGPT后的超级App发展方向：类似JARVIS的个人智能代理（或面向个人智能体）：

Andrej在本次AI Agents专题黑客马拉松上，讲到了从早期玩强化学习代理到今天的人工智能代理的过程与区别，而在@Karpathy离开OpenAI的那5年内，笔者记起Ilya在访谈中提到过的利用大规模强化学习来玩Dota2的故事，在2018年的某个时候，这个由5个神经网络组成的人工智能游戏小组，可以与最顶级的Dota2人类选手同台竞技。

△

“Ilya在NVIDIA硅谷园区年度NTECH谈到Dota 2游戏结果”

并在2019年发了论文：Dota 2 with Large Scale Deep Reinforcement Learning。

Dota 2 with Large Scale Deep Reinforcement Learning
▩OpenAI Five2019年4月13日，OpenAI Five成为第一个在电竞比赛中击败世界冠军的AI系统。Dota 2游戏为人工智能系统提出了新的挑战，如长时间范围、不完善的信息和复杂、连续的状态动作空间，所有这些挑战将成为更有能力的人工智能系统的核心。OpenAI Five利用现有的强化学习技术，按比例从每2秒约200万帧的批次中学习。我们开发了一个分布式训练系统和持续训练的工具，使我们能够对OpenAI Five进行为期10个月的训练。通过击败Dota 2世界冠军（OG战队），OpenAI Five证明了自我游戏强化学习可以在困难的任务中取得超人的表现。

△附：论文来自https://arxiv.org/pdf/1912.06680 [Submitted on 13 Dec 2019]

无疑结合Andrej回归OpenAI并负责类JARVIS项目后的这次分享，提供了不少洞见；尤其是提到在AI Agents这个领域，显然开源社区与OpenAI这样的大厂，处在类似的水平，甚至社区还更处于前沿；当然像所有对等的智能体方向，产品化落地实用的周期会很长。

这也是笔者首次较深入的谈到AI²Paradigm终极范式-智能体，会在接下来的公众号文章中整体对四范式做一个回顾与再思考。

附录：Andrej现场分享录音整理编译

@karpathy

好的，大家好。麦克风开着的，对吗？我想是的。

好，我被邀请参加（今天的Hackathon），就人工智能代理（AI Agents）的主题给大家一些鼓舞或启发的话，接下来我实际上想以一个故事开始。

我想AI Agents在某种程度上，在我心目中，是既亲近又深爱。

这个故事发生自OpenAI早期，当时可能只有十几个人，那是在2016年左右，那个时代的（深度学习）潮流实际上是RL（Reinforcement Learning）代理。因此，每个人都对建立代理非常感兴趣、

但在当时的背景下，这主要是在用RL Agents来玩游戏。因此，这个兴奋点主要围绕着Atari游戏公司和他们所有游戏。

Atari平台游戏Montezuma's Revenge
▩《蒙特祖玛的复仇》是1984年的一款平台游戏，平台游戏（通常简化为平台游戏，有时也被称为 "跳一跳 "游戏）是动作视频游戏的一个子类型，其核心目标是在环境中各点之间移动玩家角色。
适用于雅达利8位家族、雅达利2600、雅达利5200、苹果II、ColecoVision、Commodore 64、IBM PC（作为自启动磁盘）和ZX Spectrum（作为巴拿马乔）。它是由Robert Jaeger设计和编程的，由Parker Brothers出版。该游戏的标题参考了访问墨西哥时感染腹泻的俗语。
1988年，为Master System出版了一个移植版，它保留了基本的游戏性和关卡结构，但改进了图形、声音和附加功能。

△附：来自wikipedia

因此，在OpenAI的这个项目中，我们试图将这些RL Agent的重点，不是放在-蒙特祖马的复仇(Montezuma's Revenge)等等这些游戏本身玩法上，而是如何操作使用电脑，使用键盘和鼠标来进行游戏。

当时是我、Tim Shee和Jim Fan一起工作，他们俩今天也在现场这里的某个地方，让我找找...，我看到他们了。所以我们三个人最后发表了一篇论文。这不是一篇超级惊人的论文，因为基本上当时你所拥有的“锤子”（深度学习方法）只是“强化学习”(reinforcement learning)。

World of Bits: An Open-Domain Platform for Web-Based Agents
▩虽然模拟游戏环境大大加快了强化学习的研究，但现有的环境缺乏计算机视觉或自然语言处理任务的开放领域的现实，这些任务是在自然、有机的环境中由人类创造的人工制品上操作的。
为了促进这种环境下的强化学习研究，我们介绍了比特世界（WoB），这是一个平台，代理通过执行低级别的键盘和鼠标操作在互联网上完成任务。两个主要的挑战是：(i) 策划一套多样化的基于网络的自然任务，以及(ii) 确保这些任务有一个明确的奖励结构，并且在网络的过渡时期也是可重复的。为了解决这个问题，我们开发了一种方法，在这种方法中，众人创造了由自然语言问题定义的任务，并提供了如何使用键盘和鼠标在真实网站上回答问题的示范；HTTP流量被缓存起来，以创造一个可重复的离线近似的任务。
最后，我们表明，通过行为克隆和强化学习训练的代理可以完成一系列基于网络的任务。

△附：Andrej提及的论文发表于ACM：https://dl.acm.org/doi/pdf/10.5555/3305890.3306005

我想让他们（这些RL Agents的方法）变得有用，我想让他们做更多任务，这个项目被称为 "比特世界(world of bits)"。

然后我们应用在了这些非常简单的网页操作上，比如我们试图订购一个航班、或者订购一些食物，非常简单的网页。我们按动按钮，点击鼠标，等等；

我们试图用笨拙的深度学习方式来获得高额回报，但显然这行不通。所以说技术在那个时候还没有准备好，而且当时也不适合做这个工作。

因此，事实证明，当时正确的做法实际上是完全忘记人工智能代理，并开始构建语言模型（LLM），然后语言模型，5年之后，把现在我们带回到这里，当然我在那段时间里被自动驾驶分了一点心（笔者注：这里应该指Andrej中间被Elon挖到Tesla做自动驾驶；视频里Andrej说到这句话的时候，现场一众业内人士都会心的笑出声好一会）。

但今天看起来人工智能代理又变得酷起来了。但是构建AI Agents的工具箱已经完全改变了，所以你今天处理这些问题的方式是完全不同的。事实上，今天你们所有人都在研究人工智能代理，但你们可能没有使用任何强化学习方法。因此，这太疯狂了，我不认为我们当时会预见到这一点。这只是这种方式的发展，是非常有趣的。因此，我要花一点时间谈谈是什么导致了所有这些炒作。

我想很明显，你们所有人对这个话题感兴趣的原因是，我认为对很多人来说非常明显的是，AGI将采取某种AI代理的形式；而且它不仅仅是一个单一的代理，也许会有许多代理。也许会有数字实体的组织或文明,我认为这是非常鼓舞人心的想法，甚至有点疯狂。

不过，我也想在这上面浇点冷水。我认为可以非常容易想象到的一大类问题，是：

很容易建立演示，但实际上却很难做出产品来。

[Very easy to build demos for, but are actually extremely hard to make products out of.]

我认为很多事情都属于这个类别。我想说的是，自动驾驶就是一个例子：自动驾驶想象很容易，很容易建立一个汽车绕街区行驶的演示，但是把它变成一个产品需要十年时间。（笔者注：鬼知道Andrej在Tesla搞了5年自动驾驶都经历了些啥？）

我认为，同样的情况也是如此，例如，VR，非常容易想象，建立演示，但让它发挥作用，同样需要十年时间。

我认为AI代理也是如此。非常容易想象，为之兴奋，建立演示。但我认为，如果你参与其中，你应该在其中待上十年，并使其真正发挥作用。

我想说的另一件事是，有点有趣的是，我认为现在回到神经科学，并在某些方面再次从它获得灵感。我认为这在深度学习的早期是真的，但现在对人工智能代理来说也是真的。

对我来说，思考所有这些同等情形是一种有趣的事情。特别是，我认为我们很多人，很清楚语言模型是解决方案的一部分，但你如何建立一个拥有人类所有认知工具的整个数字实体？

所以很明显，我们都认为，需要某种潜在的系统，来实际地提前计划，并思考和反思我们正在做的事情；而且还有很多你可以从中得到启发的东西，因此，例如，海马体（hippocampus）是很重要的。

对于人工智能代理来说，相当于海马体的是什么？嗯，它在某种程度上就像记录记忆的痕迹，也许使用嵌入（embedding）来索引它们，并从中检索，类似这样的东西。因此，也许这有点像大脑中的检索一类的东西。

我认为，我们大致了解如何建立视觉、听觉皮层（visual auditory cortex），但是还有很多东西，在人工智能代理中，它们的对应物是什么？我们正在做的视觉游戏是什么（笔者注：相对于LLM中的语言游戏？）？它在人工智能代理中是什么样子的？

丘脑（thalamus）在做什么？丘脑有点像把所有这些信息整合在一起，它有点像潜在的意识的所在地、它有一个非常有趣的神经回路，如果你认为你的大脑有点像多个实体在争夺麦克风，以决定你要做什么，丘脑可能就是发生这种情形的地方。

这是很有趣的。所以我实际上带来了一本我喜欢的神经科学的书。这本书叫《大脑与行为》，作者是大卫-伊格尔曼、我发现这本书非常有趣和有启发性、所以我把它留在这里，供大家翻阅。

△

“Andrej提到的David Eagleman的书-大脑与行为”

我只是认为这都是，再次从神经科学中汲取的一些有趣灵感，就像我们早期在设计单个神经元方面所做的那样，我们今天可以再次这样做，也许吧。

最后，我想用一些启发的话来结束。

一个有趣但不甚明显的是，现场你们这些构建人工智能代理的人，实际上是处于今天人工智能代理能力的最前沿，而所有的大厂AI实验室、LLM实验室，如OpenAI和DeFi等等，我怀疑他们并不处于这一领域能力的边缘，你是在它的前面。

所以OpenAI，例如，在训练大规模的Transformer语言模型方面非常出色；因此，作为一个例子，一种说法是如果有一篇论文出来，提出了一些不同的训练Transformer的方法，OpenAI的内部Slack上是这样的：哦，对了，两年半前有人试过，结果是这样的，这就是为什么它不起作用，这些坑OpenAI都已经踩过而且很好地规避了。

但是，当一个新的AI代理论文出来时，我们都很感兴趣：我们看论文、我们思考，哦，这论文方法真的很酷，这很新颖。而这是因为团队有五年的时间没有花在这上面，而且对于OpenAI这样的大厂来说，现在正在与你们所有的人、企业家和黑客等等，进行竞争，对大厂来说，这也真的很难做到。

所以我认为，你们处于AI Agents领域能力的前沿，这真的很鼓舞人心，而且在转型中显然是非常重要的东西。

因此，用这些话，我感谢Hop，看到你们建立的东西感觉非常好。

参考

-相关推文及视频

附录：𝕀²·ℙarad𝕚g𝕞智能平方范式研究

H𝕀：Humanity Intelligence [Sys1&2@BNN]

A𝕀：Artifical Intelligence [LLM@ANN]

𝕀²：H𝕀 𝕩 A𝕀 [bio- | silico-]

ℙarad𝕚g𝕞：认知范式或BNN认知大模型

A𝕀与H𝕀当前在玩一个语言游戏。A𝕀最大的问题是已知一点白外的未知的黑；H𝕀最大的问题是不断演进的sys2理性白中的sys1的黑；

往期推荐

微调工程研究系列·转译(3) ｜开源LLM的历史：模仿与对齐（三）

AI平方范式智库·数学系列E03S01 ｜神经网络背后的数学

AI平方范式智库·访谈系列E03S02｜从语言游戏到LLM智能体

AI平方范式智库·访谈系列E03S01 ｜从预训练模型到可靠可用AGI

扫码加群，

链接智库！

AI平方范式智库

继续滑动看下一个

AI2Paradigm

向上滑动看下一个

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

这把绝对高端局，只有中国人才懂

许纪霖：珠海驾车撞人事件的背后，弦绷得太紧了，要给人们以松弛感 | 二湘空间

从“强化学习代理”到“人工智能代理”的演变：来自OpenAI的故事｜AI²Paradigm之终极范式-个人“智能体”首谈

题记

附录：Andrej现场分享录音整理编译

-相关推文及视频

附录：𝕀²·ℙarad𝕚g𝕞智能平方范式研究

您可能也对以下帖子感兴趣

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

这把绝对高端局，只有中国人才懂

许纪霖：珠海驾车撞人事件的背后，弦绷得太紧了，要给人们以松弛感 | 二湘空间

生成图片，分享到微信朋友圈

从“强化学习代理”到“人工智能代理”的演变：来自OpenAI的故事｜AI²Paradigm之终极范式-个人“智能体”首谈

题记

附录：Andrej现场分享录音整理编译

-相关推文及视频

附录：𝕀²·ℙarad𝕚g𝕞智能平方范式研究

您可能也对以下帖子感兴趣