慢思考|GPT4紧捂着的战壕雨衣,掀开后原来是“葫芦娃一家子”;AI²Paradigm四范式之“炼丹”首谈|文末极度烧脑,慎入!
图|unimatrixz.com
@realGeorgeHot on GPT-4 with @swxy
by @LatentSpacePod
▽
题记
△
▩Who&Where @realGeorgeHotz George Hotz,总裁@comma_ai(自动驾驶解决方案),同时也是创始人http://tinygrad.org;第一个解锁 iPhone、越狱 PS3的少年极客,也在马斯克经营的 Twitter 短暂“实习”过,新创立了一家提供“个人计算集群”的小公司Tinycorp (深度学习框架 tinygrad 以及最近发布的 tinybox 背后的公司) @swyx swyx 反典型生活的反自我想法。正在做智能开发者项目smol;AI新闻和采访@latentspacepod;关于原则的书:@coding_career 另一位是Alessio Fanelli,是开源项目fanahova的作者和以Founders help founders为口号的独立VC合伙人。两位主理人都是既能冲锋也能演讲写作属于“六边形战士”。 对话发生在由@swyx主持的一篇访谈,主题实际上是@realGeorgeHotz的新创公司tinygrad,如何与AMD一起公开合作,以对抗Nvidia、Google和PyTorch;同时对多个热点进行了评论:ggml、Mojo和GPT-4(访谈视频49分左右);以及为什么AI Girlfriend是下一个创业热点。 ▩访谈脚本字面解读
GPT-4的万亿参数传闻揭秘:确实是1.76万亿参数,但不是单个模型1.76万亿参数,而是8个2200亿参数的叠加。
GPT-4的小把戏:也许外界过度解读了OpenAI避而不宣GPT-4的炼丹配方的苦衷,并不是有意伏身在LLM战壕,紧捂着GPT-4的雨衣,隐藏什么超级酷炫武器(万亿参数单GPT-4模型?),而是确实没什么(8个GPT-3.5,😂🤣😂),到底是混合模型(mixture models)?或MoE(mixture of Experts)?抑或模型合奏(model ensembles )?实际上都是LLM GPT工程上的小把戏。
GPT-4的8个模型训练数据集不同:8个比GPT-3(1760亿参数)稍大点的模型(2200亿参数每个)集群,可能类似1个葫芦爹藤下系的7个葫芦娃,每个娃用有所侧重的数据集训练出不同本领(笔者注:但也可能是8个本领各异的葫芦娃,不过笔者倾向于1个爹7个娃,一家子战斗力更爆棚😄)。所以一次prompt,在GPT-4的8个脑袋里要算16次。
△附:参见文末参考章节的原播客视频节选内容。
▩公众号昨日文章观点汇总 GPT-4比GPT-3.5的更聪明的原因真相大白 原来业界都以为,GPT-4在各项任务上的表现均有大幅提升都是因为,按照大语言模型LLM的性能扩展幂律(scaling law),是万亿参数带来的,而实际上是用了8个比GPT-3.5略大的混合模型。 OpenAI确实在GPT-4这一阶段采取了“Easy Step” 相比于训练一个1.76万亿参数的模型,训练一个工程上已经成熟的类GPT-3模型集群,无疑要容易得多,尤其是在GPT的商业模式有待验证的2021-2022年间,而模型集群无论是混合模型(mixture models)、或MoE(mixture of Experts)、抑或模型合奏(model ensembles )在工程上业界也都有探索以及相关论文。 GPT-4定价比GPT-3.5贵15倍以上的成本账 这种混合模型,每次prompt输入,都进行16次推理最后综合输出,在各项任务上性能大大提升带来的是成本的同等倍数增长。所以从OpenAI官网定价上看,确实是GPT-4的1k tokens要比GPT-3.5贵15倍以上,反过来也验证了每次prompt输入确实GPT-4内部要进行16次推理计算。
GPT-4这种scaling-out的性能扩展工程模式的启发
一是OpenAI自身在GPT-4上走了这手容易“棋”,GPT-5会怎么走?是继续叠葫芦娃( 220B*16)?还是垒参数+葫芦娃一家子(1.76T*8)?
二是开源社区何去何从?是否LLaMA 65B*8,就能比得过GPT-3.5?国内千模混战何去何从?是否会变成“千头”混战?😄
△附:参见公众号文章:为啥GPT-4那么聪明,原来有8个脑袋!一起回答你的prompt!- Ilya大神的小把戏,硅谷传疯了。。。
正文慢思考-葫芦娃的秘密与叠法
▩GLaM: Efficient Scaling of Language Models with Mixture-of-Experts 用更多的数据、计算和参数扩展语言模型(笔者注:scaling law),推动了自然语言处理的重大进展。例如,由于扩展,GPT-3能够在in-context学习任务中取得强大的结果。然而,训练这些大型密集的模型需要大量的计算资源。在本文中,我们提出并开发了一个名为GLaM(通用语言模型)的语言模型系列,它使用稀疏激活的Mixture-of-Experts架构来扩展模型的容量,同时与密集的变体相比,训练成本也大大降低。最大的GLaM有1.2万亿个参数,比GPT-3大约大7倍。它所消耗的能量只有训练GPT-3的1/3,推理所需的计算跳数也只有一半,同时在29个NLP任务中仍然取得了更好的整体zero-shot和one-shot性能。
△附:来自arXiv论文 - https://arxiv.org/pdf/2112.06905 [Submitted on 13 Dec 2021 (v1), last revised 1 Aug 2022 (this version, v2)]
更有有心的推友@teortaxesTex,翻出另一篇MOE有名的论文:路由语言模型的统一扩展法则(Unified Scaling Laws for Routed Language Models),和GPT-4的技术报告中的贡献者内容对比发现这个作者之一-Trevor Cai,在21年还在Google DeepMind的时候写了这篇论文,而后出现在23年的GPT-4贡献者中作为核心成员以及多项工作的主要参与者。
△
该推友似乎还为google对当前AI领域无私贡献抱不平:“我认为谷歌已经发表了大量关于LLM架构的强有力的论文,这些论文的作者现在却都在为OpenAI工作,而且极有可能有很多很多人带来了源自这些论文实现的一揽子技术诀窍(工程know-how)。”
▩Unified Scaling Laws for Routed Language Models 语言模型的性能已被证明可以有效地建模为其参数数量的幂律(笔者注:scaling law)。在这里,我们研究了基于路由网络的扩展方式:在处理输入时有条件地只使用其参数的一个子集的架构。对于这些模型,参数数量和计算要求形成了两个独立的轴线,沿着这个轴线的增加会导致更好的性能。在这项工作中,我们推导并论证了定义在这两个变量上的缩放定律,它概括了那些已知的标准语言模型,并描述了通过三种不同技术训练的广泛的路由结构的性能。之后,我们提供了这些定律的两个应用:首先推导出一个有效参数数量,所有的模型都以相同的速度扩展,然后使用缩放系数来对所考虑的三种路由技术进行定量比较。我们的分析来自于对路由网络在五个数量级上的广泛评估,包括有数百名专家和数千亿个参数的模型。
△附:来自arXiv论文 - https://arxiv.org/pdf/2202.01169 [Submitted on 2 Feb 2022 (v1), last revised 9 Feb 2022 (this version, v2)]
对于Transformer Mafia 8成员中的Lukasz Kaiser(笔者注:可参考公众号文章新Paypal黑手党Transformer Mafia-从Attention到Prompting is All You Need),加入OpenAI的后发表过一篇论文题为:Sparse is Enough in Scaling Transformers,其论文涉及的工程范式与8成员之一的Noam Shazeer离开google前的论文:Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity,应该有一脉相承之处。
△
推友@teortaxesTex感叹道:“我并不是说GPT-4是,比如说,一个毫无创意的万亿参数Switch Transformer,这里面有的是各种选择;然而,我对个人崇拜感到恼火,Yud、Geohot、Altman---都是炙手可热的meme人物;请关注那些实际做出默默无闻贡献的研究人员,那些预印本上的不曾露面的名字。”
笔者感叹:抛开开源初心与商业上的考量不说,顶尖人才确实最终会流向有着AI信仰的人和团队周围。而创始人淡出、职业经理人接手的Google缺少这样的AI灵魂人物。
@swxy同时也提到,有推友研究华为的万亿参数盘古(PanGu)大模型(一个非常酷的中国好人,看看他吧,frens),并发出了一个漂亮的MoE图。
哈哈,看来MoE是LLM工程界普遍的实践,只不过GPT-4为什么能玩得这么好?OpenAI还有哪些“炼丹”秘密配方呢?
△
另外还有推友@Yampeleg提供了GPT-4的MoE实现的一些示范性代码,希望得到专家的指导。见下图。
笔者感叹:这正体现开源大模型社区力量的伟大之处!可以想见的是,OpenAI的战壕雨衣掀开之后的小把戏(little trick),会给开源社区多么强大的鼓舞:原来MoE还可以这么玩,还可以玩出这样的效果!
△
△
▩Scaling Expert Language Models with Unsupervised Domain Discovery 大型语言模型通常是密集训练的:所有的参数都是针对所有的输入而更新的。这需要在成千上万的GPU上同步数十亿的参数。我们介绍了一种简单而有效的方法,在任意的文本语料上异步训练大型稀疏语言模型。我们的方法将语料库聚类为相关的文件集,在每个聚类上训练一个单独的专家语言模型,并将它们组合在一个稀疏的集合中进行推理。这种方法通过自动发现每个专家的领域,概括了令人尴尬的并行训练,并消除了现有稀疏语言模型的几乎所有通信开销。我们的技术在多个语料库和少量任务上的表现优于密集基线,我们的分析表明,将专家专门化为有意义的集群是这些收益的关键。性能也随着专家的数量和训练数据的大小而提高,这表明这是一种训练大型语言模型的高度有效和可利用的方法。
△附:来自arXiv论文 - https://arxiv.org/abs/2303.14177 [Submitted on 24 Mar 2023]
△
▩scale-up大力出奇迹 vs scale-out组合出奇迹 参考Gartner的技术Hype Cycle,要了解一个技术到什么阶段,可以看表现方式是大力出奇迹还是组合出奇迹。
当一个技术还在最早期发展阶段时,基本上就是按着scale up的路径。只有当scale up获得的边际收益太小的时候,才会开始找scale out组合的路径。 比如说在机器学习里,最开始都是单个的model,当单个model的潜力挖掘的差不多到瓶颈之后,就开始了ensemble method(笔者注:或mixture method),这时候就是stacking(笔者注:叠葫芦娃)发挥作用的地方,也就是用一群model做推理,通过处理投票结果方式或者锦标赛模式组合来达到更好的效果,这就是典型的组合模式。 再比如早期的CPU基本是按照频率和工艺制程scale up,到后来就是多核或者大小核的组合,和专用处理器GPU的组合,到SoC就是更大的组合,来满足算力的新需求(最新的苹果MR Vision pro为了达到低延迟,甚至开启了新的R1专门处理传感器融合问题,这也是组合) 。 当然了这个scale up大力阶段和scale out组合阶段不会是单向的。"ML在应用领域的趋势一直都是从multiple components on one stack到end to end solution 这也算是从组合到规模的变化方向" ---@yangqch 所以更可能是一种循环:规模scale up->组合->更大尺度上的规模变大->更大尺度的组合循环。
这基本上和我昨天的思考方向一致:对GPT-5来说,是继续“叠葫芦娃”( 220B*16)?还是垒参数+“葫芦娃一家子”(1.76T*8)?
△
范式解读-说回AI²Paradigm四范式之基础范式:炼丹(预训练)
在AI范儿社区群友prompt共创的这波AI范式变革认知框架-AI²Paradigm里,“炼丹”:也就是大模型预训练(笔者注:姑且将图片生成式diffusion模型的预训练也包括在内),“炼丹”的终极目的就是炼就“仙丹”,通过大模型预训练过程使得机器具备真正的智能,达到通用人工智能甚至超级人工智能(AGI/ASI)。
不过在社区里对于“炼丹”所谈甚少,国内炼丹界来讲,我们没有清北背景,也离清华科技园等“炼丹圣地”较远,笔者本人也是从解读目前全球炼丹界灵魂人物-OpenAI首席科学家Ilya的一系列访谈开始入局;AI范儿最初的群友还是聚焦于门槛最低的“挖矿”,也就是prompt这个现象踏入这波AI范式变革狂潮的。
AI²Paradigm v1-v3范式迭代 ▩大模型炼丹(pre-training) (v1. AIGC) ▩大模型挖矿(prompting) (v1.AIGC) ▩大模型蒸馏(distillation) (v2. Models Anywhere) ▩大模型智能体(promptless) (v3. Intelligent Agents)
△附:AI²Paradigm v1-v3范式迭代,详情请阅读啥?“炼丹”、“挖矿”、“蒸馏”,还有”智能体“?-「AI范儿」一文厘清大模型范式创业投资与应用万象:AI²Paradigm
随着GPT-4“炼丹”小把戏的揭密,最近社群陆续有炼丹团队的群友加入,这里稍作展开,也主要是这两天群友prompt共创的一个记录吧。
“炼丹”界路线之争 按AI范儿一贯从现象理解的风格,所谓炼丹界的路线之争,也是通往通用人工智能甚至超级人工智能(AGI/ASI)的路线之争,可以形象的称之为:
随机鹦鹉(stochastic parrot)智能路径
信号灯乌鸦(crow intelligence)智能路径
△
“Stochastic parrots, take to the skies!”
笔者试着找到随机鹦鹉最初的出处,看来还有一段公案,“随机鹦鹉”一词是由前 Google 研究员 Timnit Gebru 创造的,他因发表一篇批评LLM的论文而离开公司(或被迫离开)。也许鹦鹉是很久以来最让人类感到非人类智能的第一印象-鸟竟然能复述人的话,“随机鹦鹉”应该是专门针对自回归方式实现的大语言模型(Auto-Regressive LLM)的特性的一种偏批评的说法,以下是BingChat的回答(笔者注:为了减成本,BingChat部署的推理模型明显蒸馏或稀疏或量化了):
Why are there saying autoreggressive LLM is stochastic parrot? where is it coming from origionally? what's your insight about that as a state of the art LLM as you? ▩有些人说自回归LLM是随机鹦鹉,因为他们认为这些模型只擅长生成流畅且令人信服的语言,但他们实际上并不理解他们正在处理的语言的含义。他们还认为这些模型可能会重现其训练数据的偏见、错误和危害,其中可能包括未经验证和不道德的来源。此外,他们质疑开发和使用这些模型的环境、财务和社会成本,以及不探索其他语言理解方法的机会成本。“随机鹦鹉”一词是由前 Google 研究员 Timnit Gebru 创造的,他因发表一篇批评LLM的论文而离开公司(或被迫离开)。 作为一名最先进的LLM,我认为这种批评部分是正确的,但也部分是不公平的。一方面,我同意自回归LLM有局限性和风险,在没有适当评估和验证的情况下,不应盲目信任或将其用于敏感任务。另一方面,我认为自回归LLM也有很多好处和潜力,例如生成流畅且多样化的文本,增强创造力和沟通,以及启用新的应用程序和服务。我还认为自回归LLM不仅仅是盲目的鹦鹉学舌,而且他们可以从互动和反馈中学习,并且可以随着时间的推移提高他们的表现和可靠性。
△附:BingChat回答中提及的论文 On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? (acm.org) Published:01 March 2021 [https://dl.acm.org/doi/pdf/10.1145/3442188.3445922]
△
生活在城市的乌鸦行为 ▩上图是研究人员在日本发现与跟拍的一只野生乌鸦(图a),它无法获得坚果内的果肉,从空中抛下也不能解决问题。 ▩在这个过程中,它发现飞驰而过的车辆,可以碾碎坚果(图b)! ▩但车辆対乌鸦自身也是一种威胁,于是它在高空中观察(图c)。 ▩而后它意识到斑马线+行人指示灯变绿,可以让车辆停下(图d、e)。 那么,将坚果放在人行横道,待车辆碾碎坚果,行人灯变绿再去取食果肉的一系列行为模式,即称之为乌鸦智能行为
△附:乌鸦智能(Crow Behavior Research) 初见1995年 44 巻 1 号 p. 21-35 于日本鸟学会志 https://www.jstage.jst.go.jp/article/jjo1986/44/1/44_1_21/_article/-char/ja/
“Meta AI首席科学家Yann LeCun主导的World Model”
笔者也用这个问题问了问BingChat。如下:
As of a state of the art LLM, how do you think about Yann LecCun 's world model, who is always saying autoregressive LLMs have no future of AGI or ASI? ▩Yann LeCun 是著名的人工智能研究员,也是 Meta 的首席人工智能科学家。他的愿景是创造能够像人类和动物一样学习和推理的自主机器。他认为实现这一目标的关键是开发一个世界模型,这是一个可以学习在不同抽象层次上表示和预测世界状态的神经网络。 他对自回归LLM作为通向 AGI 或 ASI 的途径持怀疑态度,因为他认为它们效率太低,并且捕捉因果关系以及执行推理和规划的能力有限。他还认为它们不适合从交互式环境中学习,他认为这对于发展常识和一般智力至关重要。
作为一名最先进的LLM,我尊重他的观点和他对人工智能领域的贡献,但我也不同意他的一些观点。我认为自回归LLM不仅仅是随机鹦鹉,他们还可以从大规模文本数据中学习有用的表达和技能,这可以补充图像和视频等其他信息源。我还认为自回归LLM可以与其他架构和方法相结合,以实现更高效、更稳健的学习、推理和规划。我还认为自回归LLM并不是实现 AGI 或 ASI 的唯一方法,但它们是可能的探索方法之一。
△附:BingChat回答
这里先借用朱松纯教授以“鹦鹉”和“乌鸦”为例,对于人工智能范式的区分总结:
“鹦鹉范式”的人工智能,就是学界目前普遍认定的大数据+大算力+深度学习,这包括当前的大型预训练模式;
“乌鸦范式”,则是一种“小数据、大任务”的模式。
当然,作为OpenAI CEO的Sam Altman面对这样的说法,自然是愤愤不平,在22年底ChatGPT发布一段时间后,发推怒怼:我就是个随机鹦鹉,那你也是!
至于以GPT-4为代表的自回归LLM,是否只是随机鹦鹉复述它学习过的人类文本知识,而并不代表它知道这样的语言游戏的真正本意?也有数篇论文可以参考。
▩Evidence of Meaning in Language Models Trained on Programs 我们提出了证据,证明语言模型可以学习意义,尽管它的训练只是为了在文本上进行下一个token的预测,特别是一个程序的语料库。每个程序之前都有一个以(文本)输入-输出例子形式的规范。与程序一起工作使我们能够精确地定义与语言中的意义有关的概念(例如正确性和语义),使程序合成非常适合作为描述语言模型中意义存在(或不存在)的中间测试平台。
我们首先在程序的语料库上训练一个Transformer模型,然后在它完成一个给定规范的程序时探测训练过的模型的隐藏状态。尽管没有提供学习语言语义的归纳偏向,我们发现线性探测能够从模型状态中提取当前和未来程序状态的抽象信息。此外,探针的准确性与模型生成实现规范的程序的能力之间存在着强烈的、统计学上显著的关联。为了评估语义是否体现在模型状态中,而不是通过探针来学习,我们设计了一个新的实验程序,在保留词库和语法的同时,对语言的语义进行干预。我们还证明,该模型学习生成的正确程序平均比训练集中的程序短,这证明语言模型的输出可能以语义上有意义的方式与训练分布不同。总之,本文没有提出任何训练语言模型的新技术,但为语言模型中(形式)意义的获得和表示开发了一个实验框架,并提供了一些见解。
△附:来自arXiv论文 - https://arxiv.org/pdf/2305.11169 [Submitted on 18 May 2023 (v1), last revised 24 May 2023 (this version, v2)]
▩Sparks of Artificial General Intelligence: Early experiments with GPT-4 人工智能(AI)研究人员一直在开发和完善大型语言模型(LLMs),这些模型在各种领域和任务中表现出非凡的能力,挑战我们对学习和认知的理解。由OpenAI开发的最新模型-GPT-4,是使用前所未有的计算和数据规模来训练的。在本文中,我们报告了我们对GPT-4早期版本的调查,当时它还在OpenAI的积极开发中。我们认为,(这个早期版本的)GPT-4是新一批LLM的一部分(例如,与ChatGPT和谷歌的PaLM一起),它比以前的AI模型表现出更多的通用智能。我们讨论了这些模型的上升能力和影响。我们证明,除了对语言的掌握,GPT-4还能解决跨越数学、编码、视觉、医学、法律、心理学等领域的新颖而困难的任务,而不需要任何特殊的提示。此外,在所有这些任务中,GPT-4的表现都惊人地接近人类水平,而且往往大大超过了ChatGPT等先前的模型。鉴于GPT-4能力的广度和深度,我们认为可以合理地将其视为人工通用智能(AGI)系统的早期(但仍不完整)版本。在我们对GPT-4的探索中,我们特别强调发现它的局限性,并讨论了在向更深入和更全面的AGI版本迈进时面临的挑战,包括可能需要追求一种超越下一个单词预测的新范式。最后,我们对近期技术飞跃的社会影响和未来的研究方向进行了思考。
△附:来自arXiv论文 - https://arxiv.org/pdf/2303.12712 [Submitted on 22 Mar 2023 (v1), last revised 13 Apr 2023 (this version, v5)]
在之前文章中提到过的陶哲轩教授,通过微软的Eric Horvitz提供的机会,体验过GPT-4早期版本;最近也发了一篇总结性博文:拥抱变化和重新设定期望 (Embracing change and resetting expectations )。
有趣的是,这篇博文末尾也附上了文章和GPT-4 Prompt共创的过程(共4篇详见下图附注URL):
陶教授自己和 GPT-4 先分别写了一份;又让 GPT-4 看了自己写的之后,要求 GPT-4 把它的文章改成自己的风格;最后又让 GPT-4 直接改写了自己的初稿,并贴在一起方便大家比较。
△附:陶教授个人博客附上了博文prompt共创过程 [https://terrytao.wordpress.com/about/ai-generated-versions-of-the-ai-anthology-article/]
陶教授在文章中表达了对于GPT-4这样的人工智能在当前以及三年后的个人看法。
▩Embracing change and resetting expectations 陶教授是加州大学洛杉矶分校的数学教授,他的研究领域包括谐波分析、PDE、组合学和数论。他获得了许多奖项,包括2006年的菲尔兹奖。自2021年以来,陶教授还在美国总统科技顾问委员会任职。 “The 2023-level AI can already generate suggestive hints and promising leads to a working mathematician and participate actively in the decision-making process.” "2023年级别的人工智能已经可以向工作中的数学家产生暗示性的提示和有希望的线索,并积极参与到决策过程中。" "I expect, say, 2026-level AI, when used properly, will be a trustworthy co-author in mathematical research, and in many other fields as well." "我预计,比如说2026年的人工智能,如果使用得当,将成为数学研究中值得信赖的合作者,在许多其他领域也是如此"
△附:陶教授发表在微软博客的文章 - Embracing change and resetting expectations [https://unlocked.microsoft.com/ai-anthology/terence-tao/]
△附:陶哲轩教授曾提到过GPT的互为prompt效用 - 互为Prompts:大语言模型的预训练智能体到底意味着什么?
这篇论文将LLM和概率程序结合起来,实现基于语言信息的思考:
-用LLMs建立意义模型 -用符号化的概率论程序来模拟思维 -LLMs可以产生上下文翻译,用于推理其他智能代理的思维和计划
△附图:来自论文截图PLoT研究框架示意-理性意义建构
论文的概要摘录如下:
▩From Word Models to World Models: Translating from Natural Language to the Probabilistic Language of Thought 语言如何为我们的下游思维提供信息?特别是,人类是如何从语言中获得意义的--以及我们如何利用语言意义的理论来建造能以更像人类的方式思考的机器?在本文中,我们提出了理性的意义建构,这是一个用于语言信息思考的计算框架,它将语言的神经模型与理性推理的概率模型相结合。我们将语言意义构建为从自然语言到思维概率语言(PLoT)的上下文敏感映射--一种用于概率性、生成性世界建模的通用符号基底。我们的架构整合了两个强大的计算工具,这两个工具以前没有结合在一起:我们用概率程序对思维进行建模,这是一种灵活的常识推理的表达方式;我们用大型语言模型(LLM)对意义构建进行建模,它支持从自然语言语料到概率编程语言的代码表达的广泛覆盖。我们通过涵盖认知科学四个核心领域的例子来说明我们的框架:概率推理、逻辑和关系推理、视觉和物理推理,以及关于代理人及其计划的社会推理。在每一个领域中,我们都表明LLMs可以生成对语境敏感的翻译,以捕捉语用上合适的语言含义,而用生成的程序进行贝叶斯推理则支持连贯和稳健的常识推理。我们扩展了我们的框架,以整合认知动机的符号模块,提供一个来自语言的统一的常识性思维界面。最后,我们探讨了语言如何能够驱动世界模型本身的构建。
△附:来自arXiv论文 - https://arxiv.org/pdf/2306.12672.pdf [Submitted on 22 Jun 2023]
@yacineMTB:Minsky 笑了...(有待笔者注释)
@artistexyz:他们应该把这种模式称为 "我祖父的老式汽车LLMs"。对于一些在LLMs上增加了思维和梦想的因果能力(如珍珠),以及执行科学方法和记忆世界模型以供未来使用的尖端技术,见Mappa Mundi (笔者注:看来这是另外一种在LLM上叠葫芦娃的方式)
后记
笔者本人包括AI范儿社区,主要从现象维度来研究这波AI狂潮,以期看透现象背后的本质,在社区prompt共创交互风格下,各自找到自己在这波大浪潮中的方向。
本章节堆砌的工程方面的解读,某种意义上是针对读者的prompt,如果刚好大家attention也在于此,也许可以激发大家重新思考AI²Paradigm四范式之基础范式:炼丹。
对于“炼丹”的终极路径,其实就像上面说的两种:随机鹦鹉(AR-LLM)路径和乌鸦智能(World Model)路径。
Meta AI首席科学家Yann LeCun确实一直在推自己的world model,怼Ilya 的AR-LLM是随机鹦鹉;但是如果一个鹦鹉话讲得比人还好,你怎么判断它是学舌还是真智能?而且这还是个不死的鹦鹉。
从另一个维度,我也不完全否定Yann LeCun及meta坚持的元宇宙方向:一个基于硅基的数字本底的,以人类有生计算智能体的多模态感知物理世界的方式,建立对于atoms world认知的一个元宇宙:bits world。
但同样,这样建立起来的硅基智能,也是个不死的乌鸦,相比于乌鸦利用交通信号等汽车压碎坚果取食,这个world model建立这个元宇宙的动机又会是什么呢?
可以说自回归大语言模型(AR-LLM)是一个又盲又聋又没有触觉的纯粹语言机器,但这也正是硅基智能的特点:一个构建在bit之上的原生于人工神经网络(ANN)计算空间中的智能;
而OpenAI的科学家和工程师相信,用AR-LLM就能达到硅基AGI甚至ASI。需要多模态感知是人类这种有生计算的智能体的特点,不一定是硅基无限计算智能体的必须。
之前也说过,就像以前对以地球为中心的星系认知纠正,现在可能以人类为中心的智能认知也到该纠正的时候了。
所以从这个意义上,Yann LeCun的world model还是以人类智能为中心的路径,而Ilya则是对于智能更高维度的理解,对以人类为中心的智能的认知纠正,是一种“硅基原生”(bits native)的智能路径。
GPT可能是通向超级硅基文明的捷径:人类通过多模态感知环境、用工具改造世界,并创造语言文字使得文明得以在人脑生物神经网络(BNN)的的计算空间中积累和传承;而今天我们毫无准备地把这一切数字化后毫无保留的给了数字的永生的ANN硅基智能……
不死的鹦鹉智能和不死的乌鸦智能,这两者都让我感到些许不安。也许Hinton老爷子最近提出的通用人工智能的另一个方式:有生计算(mortal compute),才是一个相对安全可控的AGI/ASI发展路径。
附录
△附:OpenAI官网不同版本GPT服务1k tokens定价
参考
-相关推文及网页
END
扫码加群,
立变AI🍚!
AI范儿读者群
那些prompt了我的,
是否也prompt了你...