查看原文
其他

我们距离AGI还有多远?



作者:Alex Irpan

编译:Lavida、Tianyi

编辑:Siqi

推荐人:Max

排版:Scout

如果说 scaling law 是 AI 发展的摩尔定律,那么 AGI 就是遵循这一定律所能达到的高性能处理器,代表了模型性能提升的最终目标。


上篇文章中,我们讨论了 scaling law 是否会最终带领我们通往 AGI,本文将延续这一话题,讨论 AGI 实现的预测时间线,并深入探讨关于 AGI 的两个核心假设,以及它们在 2020 年至 2024 年间的发展和验证。


本文编译自 Alex Irpan 博客文章 My AI Timelines Have Sped Up (Again)。Alex Irpan 是谷歌机器人团队的软件工程师,主要关注深度学习在机器人操控上的运用。2020 年,Alex 在 Sortia Insightful 上发表了关于 AI 发展时间线的文章,当时他把 AGI 定义为“能够在 95% 以上经济活动的工作中达到人类水平,甚至超过人类”。


但 LLM 领域的进展比 Alex 预想的更加迅速。在本篇文章中,Alex 结合 LLM 领域的最新进展重新审视了自己 4 年前给出的判断。2020 年,Alex 认为,到 2035 年我们有 10% 的概率实现 AGI,但到了今年,他认为我们在 2028 年就有 10% 的概率接近 AGI,到 2035 年则有 25% 的概率实现 AGI。



他认为模型永远无法完全实现人们的所有预期,但模型的能力却在持续扩展,而且不可逆转。未来即使所有 VC 都失败,LLM 不再流行,我们也依然拥有了已经成型的大模型和衍生出的先进理念。


(注:本文中的引用均为作者在 2020 年发表的文章内容)


以下为本文目录,建议结合要点进行针对性阅读。


👇


01 计算与无监督学习

02 更好的工具

03 Scaling Law

04 Trying Hard to Say No

05 搜索和 Q*

06 AI Hype





01.


计算与无监督学习


2020 年,我对 AGI 的思考主要围绕以下两个理论展开:


假设 1:我们只需要做 scaling 就能实现 AGI。虽然 scaling 本身并不简单,但很多问题会随着模型规模扩大被解决,也能更容易解决其他问题。


假设 2:在当下的路径上进行 scaling 不是正确的范式。scaling 固然很重要,但它是有天花板的,等 scaling 到达极限时,我们就会意识到 AGI 还很遥远。要真正实现 AGI,我们需要的是突破现有技术的全新思路,但这就需要很长时间来实现。


2020 年我在文章里写道:


AI 能力的提升,在多大程度上通过现有模型基于更好的硬件 scale up 来实现?又在多大程度上需要更先进、更好的算法和架构?这个问题很难回答,尤其是这二者并不是孤立存在的。新架构让我们更好地利用硬件,而硬件则让我们有能力去探索更多新架构。2015 年,我对这个问题的回答是 50% 计算 + 50% 算法,那时的模型距离成为 AGI 还有很多关键部分的缺失,我并不确定计算量增加能不能填补这个空缺。


从那时起,我们见证了 scaling 带来的各种突破,所以我现在更倾向于认为模型成功因素的占比是 65% 计算 + 35% 算法。很多我们认为是人类学习行为的特征,可能只是模型规模扩大后自然就有的特性。我也开始怀疑很多被人类定义为“智能”或“有意识”的行为,只是人类想要突出自己的优越性,而事实也许并不是这样。实际上,机器学习模型需要达到的标准并不像我们以为的那样高。


我之所以在 2020 年开始相信 AI 的发展速度会加快,是因为在当时我已经看到 scaling 被验证了,即上面提到的“假设 1 ”被验证成立。虽然还不能很确定地说 scaling 一定会通往 AGI,但也足够获得社区的关注度了。


现在是 2024 年了,可以说我的想法得到了验证。“things emerge at scale”的观点已经成为主流,这也是为什么我在本文开头对 50% 和 90% 概率的预测时间不变,但认为有 10% 概率实现 AGI 的时间应该更早。如果 scaling 的进程停止了,那么实现目标可能需要更长时间;但如果它持续下去,我认为不会花费太久。目前的证据表明,scaling 的假设更有可能是正确的。


如果说有什么是我在 2020 年没有预料到的,那就是预测下一个 Token 的灵活性:


GPT-3 的问题很明显,它的注意力窗口是固定的,没办法在预测文本中下一个 token 时学到任何东西。要想知道 GPT-3 都会什么,需要学会如何引导 GPT-3 产生你想要的输出,而且并非所有简单的提示都能有效。它也没有意图或代理的概念,只是下一个词的预测器,我认为改变训练集 loss、添加意图或代理都极为困难。


事实证明,只要对足够多的数据做 finetune,模型在预测下一个 token 时就能假装理解用户意图,结果也和真实意图差不多。也就是说,在大量的数据上进行监督式微调,并且使用相同的损失函数,这种简单的方法已经足够好了,而且并不比其他方法更难实现。一个较小的模型(15 亿参数)经过指令微调,性能是可以超过一个未经 fine-tune 过的大模型( 1750 亿参数)的,这个重大发现是我们在现有计算能力下能做出来 ChatGPT 的关键。


上图是 GPT、预训练 GPT、SFT(有监督微调)和 InstructGPT 在不同模型大小下的输出质量对比, x 轴是模型大小(15 亿参数— 1750 亿参数),y 轴是模型输出的质量评分(1—7 分)。结果显示 RLHF (InstructGPT 经过了这一步) > SFT > prompt engineering > 预训练 GPT 输出。在 APl 上提交给 GPT-3 模型的 prompt 也有类似的结果。


InstructGPT 的分析图表中对比了 1.5 亿参数的监督式 finetune 模型与未经 finetune 的 17.5 亿参数模型,蓝色线条包含了 RLHF。


我确实预见到了 scaling 会带来重大变革,但我低估了要充分发挥 scaling 的作用需要多少新算法和架构来支撑。


如今,越来越多证据表明,即使仅通过计算规模增加和使用正确数据集,也能把不成熟的技术原型转化为成熟的产品。我现在完全信仰计算的力量,并且认为要想实现 AGI,计算的占比是 80%,剩下 20% 是理论。


当然,理论依旧很重要,LLM 思维链(chain-of-thought)等理论一直很有影响力,毕竟提升 LLM 依然是一个思想的游戏。现在已经有研究员用模型推测指令并优化 prompt 质量,还有人提出 OPRO 方法 LLM 生成 prompt。其实基于大家对 DALL-E 3 的了解,如果现在有很多未公开的 prompt 自动生成工作在进行也是很正常的事。


Large Language Models are Human-Level Prompt Engineers


Yongchao Zhou, Andrei Ioan Muresanu 等人在 2023 年 ICR 上发表了 Large Language Models are Human-Level Prompt Engineers  的研究,该研究提出了 APE 方法(自动指令生成方法),事先准备好输入-输出数据集,利用 LLM 模型根据部分输入输出示例去推测指令是什么,再评估这些指令的质量。


Large Language Models as Optimizers  


Chengrun Yang, Xuezhi Wang, Yifeng Lu 等人 2023 年发表了 Large Language Models as Optimizers  的研究,该研究介绍了一种名为 OPRO 的优化方法,通过自然语言描述优化任务,在每一步优化中,语言模型根据包含先前生成解决方案及其值的提示生成新的解决方案,然后评估并添加到提示中进行下一步优化。



2020 年时我曾提出“无监督学习比我想的发展得快得多,深度强化学习发展也很快,然而迁移学习反而比我预期的慢。”


很久之前有篇关于迁移学习(transfer learning)的论文,那时大家看到这种内容还会觉得兴奋,而现在人们的关注点都转移到了学习了全网文本的大模型上,这些模型经过了大量预测下一个 token 的训练,能够在没有特定任务训练的情况下 zero-shot(零样本学习)广泛的任务类别,就像 Deepmind 的一篇论文提到的:“Large language models are general pattern machines”(大模型是通用的模式识别机器)。然而据我所知,像 PCGrad 这样专门用于迁移学习的技术不仅没有被广泛使用,也没有得到进一步的研究和开发。


Large Language Models as General Pattern Machines


Suvir Mirchandani, Fei Xia, Pete Florence 等人 2024 年在 CoRL 发表了 Large Language Models as General Pattern Machines 研究,该研究系统性地探索了 LLMs 在 NLP 领域之外应用的可能性,在没有任何额外训练的情况下, LLM 也可以作为通过上下文学习来驱动的通用 Sequence Modeler 。



可以说无监督和自监督学习方法一直是推动每个 LLM 和多模态模型发展的“暗物质”,是让计算和数据发挥效用的最佳方法。就像是把一切都扔进黑洞里,黑洞会告诉我们答案。


2020 年时我在想,如果实践表明大型 Transformer 可以分别独立处理音频、图像和文本,那为什么不试试三个模态一起做呢?假设所有模态都能通过类似的神经网络架构来处理,这种多模态学习会更加容易,而且目前的研究也证明 Transformer 架构能胜任这样的任务。


现在,我认为无监督学习在算法层面的进步还不足以影响原本的时间线,因为无监督学习的发展更依赖于提高计算资源,而非算法的创新。


至于其他学习算法,监督学习和强化学习(RL)仍然是重要的机器学习方法,但这两种方法背后没有那么多炒作。在深度强化学习(DRL)被炒到最热时,有人批评它效率极低,事实也确实如此。我对这种批评的回应一般是,虽然从零开始使用深度强化学习可能代价很大,但它作为一种评估 RL 算法性能的基准测试是有用的。长远来看,有效的 RL 应用可能会建立在已经通过其他学习方法(如监督学习或无监督学习)预训练好的模型之上,而不是完全从零开始。


如今我 4 年前的愿景已经实现,但这个结果还没有达到我的预期。支持 RLHF 的观点认为,只要有足够好的偏好数据(preference data),几乎任何 RL 算法都会得到不错的结果,最重要是围绕 RL 算法的问题。



Yann LeCun 在 2016 年的 NeurIPS 2016 会议上发表演讲,介绍了著名的“蛋糕类比”理论。他提到人们虽然很认可和尊重“樱桃”,也就是 RL 这样的热门技术,但实际上都更在意“蛋糕”,也就是无监督学习(或预测)学习。这张幻灯片对一些技术专家来说可能有些冒犯,但我觉得它在某种程度上是正确的。


我认为还存在着更好的通用 RL 算法,这些算法可以提高 RLHF 的性能。但是当我们可以把额外的计算资源用于更多的预训练或监督式微调时,就很难证明有更好的通用 RL 算法是必要的,所以也许在进行了充分的预训练和监督式微调后再考虑这点更合适。在机器人学习领域,因为模仿学习(imitation learning)更容易实现,并且能更有效地使用计算资源,所以大家已经趋向于采用这种方法。至少在我的研究领域已经可以看到一种趋势转变:大家逐渐从开发使用于不同场景的通用 RL 方法,转变为开发哪些可以充分利用偏好数据结构的算法,比如 DPO 等类似的方法。不过我还是觉得有必要提一下我在 2023 年参与的 Q-Transfomer 研究工作,这是一篇结合了通用 RL 和 Transformer 模型的论文。


Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions


Yevgen Chebotar, Quan Vuong, Alex Irpan 等人 2023 年发表的 Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions 研究,这项研究的主要贡献是 Q-Transformer,这是一种用于机器人离线强化学习的基于 Transformer 的架构,其对 Q 值使用了按维度的 token 化,关注的重点是通过离线强化学习使用 Transformer 并整合之前收集的大型数据集。





02.


更好的工具


在机器学习的实证研究中,理念和计算预算是众所周知的关键因素,但还有一些不太明显但同样重要的因素,比如编码和调试技能,以及如何有效地使用计算资源。如果你写的代码没有充分利用所有处理器,那么每台机器有多少处理器也没用。


...


机器学习的研究堆栈由很多部分组成,整个堆栈上的每一个部分不断发生改进,并且这些改进大多具有乘数效益,能够互相促进产生更大的进步。


工具领域没有特别显著的变化。但随着越来越多的人转向默认使用 Transformer,工具变得更加专业化和集中化。像 FlashAttention 这种技术之所以受到广泛关注,是因为它与现在几乎所有的现代机器学习项目都密切相关。


FlashAttention 是 NVIDIA 提出的一种高效的 Transformer 模型中的自注意力机制的实现,旨为在 GPU 上提供更快的性能。自注意力机制是 Transformer 架构的核心部分,它允许模型在处理序列数据(如文本或图像)时考虑序列中不同位置之间的关系。自注意力机制通常需要大量的内存和计算资源,特别是当处理长序列或大型模型时。FlashAttention 的目标是优化这个过程,降低内存使用,并加速计算。


FlashAttention 在训练和推理过程中被广泛采用,能够加速现有模型的训练、微调和推理,有助于在现有的硬件上训练更长上下文长度的语言模型,理解长篇书籍、报告、高分辨率图像、音频和视频。



如果我要说有什么我没关注到的话,那就是通过调用 API 进行研究的趋势。API 的所有者现在有了更广泛的受众,包括业余爱好者、开发者和研究人员,经济价值更高,所以公司也更有动力提升用户体验。我很赞同 Pete Warden 的看法,人们现在更感兴趣的是“已经集成了 LLaMa 或 Whisper 的代码库”,而不是通用的 ML 框架。


总的来说,我认为工具的进展还是符合预期的。LLM 助手的出现让我很惊喜,但我也预料到会出现这样的工具。然而,我没有预见到的是,随着 AI 变得更受欢迎和更易使用,会有越来越多的研究群体和相关人士参与进来,这应该也是 AI 能够加速发展的部分原因。




03.


Scaling Law


2020 年我写文章时,关于 scaling law 大家广泛接受的还是 Kaplan 等人的研究,当时 scaling law 还有几个数量级的提升空间。


两年后,Hoffman 等人提出了 Chinchilla scaling law,表明在固定的 FLOPs 预算下,只要有更大的数据集,模型规模可以设计得更小。Chinchilla scaling law 有一个很重要的细节,它提出模型可以更小的实现前提是模型在训练完成后,只会对一组固定数据执行一次推理任务。然而,这个假设没考虑到在实际应用中,很多大模型需要运行多次推理任务,比如说作为产品或 API 服务的一部分被使用。


Training Compute-Optimal Large Language Models


Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch 等人 2020 年在 NeurIPS 2022 发表了 Training Compute-Optimal Large Language Models 研究,该研究的重点在于如何在给定计算资源条件下,用多少 tokens 训练最优大小的 LLM,团队发现模型和训练数据规模需要同比增大,使用与 Gopher (280B) 同样的计算量且 4 倍的数据,训练出了 70B 的最优模型 Chinchilla。



因此,从推理的角度看,让模型训练的时间比 Chinchilla optimial 推荐的更长,是对模型计算效率更高效的实操方式。Thaddée Yann TYL 后来也在个人博客上发文,进一步分析表明也许模型的大小还可以比先前假设的更小。


尽管在这种假设下模型规模可以大大缩小,但我认为这种调整对模型能力并不是很重要。我猜想效率和性能之间的最优边界(即 Preto frontier,帕累托前沿)可能有略微改变,但变化并不剧烈。当然也有可能我猜错了,因为我没有看到确切的数据,现在好像实验室都公认 scaling law (相关的数据)是商业机密。至少目前来看,我认为 FLOPs 和数据是 AI 发展的瓶颈。如果能控制好这两个因素,我们可以小幅度地提升效率,但新的 scaling law 对目前的时间线影响不大。


我认为最重要的变化是,模型现在的推理时间比之前预计的要短得多。此外,量化技术也取得了很大进展,这使得模型在时间或内存有限的情况下可以变得更小,也会让产品速度能够比 Chinchilla 之前更快。2010 年代初期,谷歌做了大量的关于延迟对搜索引擎使用影响的研究,并提到“速度极为重要”。当搜索引擎变慢时,即便搜索结果质量很高,人们的使用频率也会降低,机器学习产品也不例外。




04.


Trying Hard to Say No


在 2020 年的文章中,我做了一个“trying hard to say no”的思维练习。我假设短期内实现 AGI 是可能的,然后围绕这一假设做出最佳猜想,最后验证这些猜想的可信度。我这样做的意义在于,如果我们真的想论证 AGI 还很遥远,那就必须给出能反驳“短期内会实现 AGI”的最有力论点。


我还在那篇文章中描述了一个假想的未来,在这个未来中只需要做 scaling,不需要太多新算法和架构,并且有人开发了一个能够帮助普通人的 AI 应用。


也许有人基于 GPT-3 或规模更大的模型开发了一个应用,这将会极大地提高生产力,就像第一台计算机、Lotus Notes 或 Microsoft Excel 一样,可能会席卷整个商业领域。


这个假设的产品会带来大量收入,也更有助于产品的进一步提升。


如果这个产品带来的生产力提升非常有价值,能够让企业盈利,并且在扣除掉推理和训练成本后还有净利润,那么这就有生意可做。换句话说,当大企业为你的工具付费时,付费客户带来更多资金和投资,这些资金又可以用来购买更多硬件,进而支持更大规模的训练运行。


因为 scaling 是这个假设的基础,所以研究工作会集中在一小部分方法上。


随着模型不断扩大,性能不断提升,研究开始逐渐聚焦在一小部分已经证明能够随着计算资源的增加而有效扩展的方法上。深度学习领域就是这样一个例子,而且这种趋势还在继续。当许多领域采用同样的技术时,知识共享就会更加普遍,这有助于推动更高质量的研究。也许五年后,我们将会有一个新的热门词汇来取代“深度学习”的位置。


以上就是我做的思维练习,最后我的总结是“(这种假设下)需要确保无误的事情太多,所以我觉得成功的可能性不大,但还是值得好好想想的”。


然而现在的结果我们都看到了,我本认为不可能实现的一切都成为了现实。


我们有了爆火的 ChatGPT,还激发了一大批竞争对手。虽然它并不是一个特别有效的生产力提升工具,但人们已经愿意为这个产品付费。据说 Microsoft 在 Copilot 上的每个用户都会带来 20 美元的亏损,David Holz 则称 Midjourney 已经盈利。总的来说,大多数 AI 服务都是可以盈利的,但有些选择了以亏损的方式运营,以此来追求增长。


这又进一步促使科技巨头和 VC 投资数十亿美元用来购买硬件,以及招募机器学习领域的人才。深度学习已经过时,现在每个人都在谈论“ LLM ”、“Generative AI ”或“prompt engineering”。Masked Autoencoders 可以处理音频,多模态的 Gemini 和 GPT-4V 可以处理视觉信息,还有很多视频生成模型的表现都很出色。


Transformer 架构将会比历史上任何其他机器学习模型架构得到更深入的推广和应用。尽管现在围绕 Transformer 有太多炒作,但模型 scaling 是一个必然的趋势。现在的确有越来越多的人不看好 scaling law,但同时也有很多支持者会继续推动 AI 发展,解决 AI Safety、Alignment 和公平性问题。Gwern 曾经在文章中提到,那些充满信心相信某项技术会成功的专家是推动 speculative technology(投机性技术,即尚未被广泛接受或证明可行的技术)发展的主力军。很多专家的观点往往超前于时代,在当时会被看作是疯狂或不合理的,但如果他们的想法真的是对的,那就会在世界理解他们之前取得成功。信仰最坚定的专家往往能够理解可能出现的负面外部性,同时相信一切都会好起来,无论结果是好是坏。


现在,让我们再次假设“短期内可以实现 AGI”,来看看比起 2020 年有什么变化。


这一次,我们假设 AGI 实现主要依赖于更大的计算预算和规模。虽然现在 Transformer 很流行,但到最后也许不一定是 Transformer,而是被更高效的架构取代,比如有些人很看好的 Mamba 和其他 state-space model(状态空间模型)。如果有足够的计算和数据,代码中增加参数就会更容易。因此,假设瓶颈在计算和数据上,我们可以形成一个增长飞轮——机器学习推动产品开发,产品的成功带来资金,这些资金再被用于支持机器学习。这也是正在发生的事,问题在于是否会有导致 scaling 失败的因素出现。


Mamba: Linear-Time Sequence Modeling with Selective State Spaces


Albert Gu 和 Tri Dao 2023 年发表了 Mamba: Linear-Time Sequence Modeling with Selective State Spaces 研究,研究介绍了 Mamba,该架构在推理速度上比 Transformer 快 5 倍,并且在序列长度上具有线性扩展性;在语言、音频和基因组等多个模态上实现了最先进的性能;在语言建模方面,Mamba-3B 模型在预训练和下游评估中都优于相同规模的 Transformer,并且与两倍大小的 Transformer 相当。



我对硬件了解不多,没办法讲太细,在这里我们就假设硬件会继续发展。现在包括政府在内的各方都在关注芯片问题,导致芯片价格也越来越贵。但即使模型无法 scaling,计算机和机器学习模型也都是有用的,人们仍然希望能在手机上用到 GPT-4 这样的模型,所以可以合理假设通过充分竞争最终会出现解决办法,毕竟“The silicon must flow, after all。拾象注:这句话仿照了《沙丘》中的名言“The spice must flow”。"spice" 在小说中指的是一种名为 melange 的虚构物质,这种物质只在沙漠星球 Arrakis 上找到,也是整个宇宙中最宝贵的商品。“The spice must flow” 这句话意味着麦克斯的供应必须保持不断,以确保整个宇宙社会的稳定和繁荣)


数据看起来是一个更为棘手的问题,或者至少是我认为值得讨论的问题。用互联网上所有可用数据来训练机器学习模型的阶段已经过去了。因为公开可用的数据已经被广泛使用,各个研究实验室之间越来越难以仅凭这些数据来展示他们的独特性和优势。相反,非公开的高质量数据更有竞争力,还可以补充公开的低质量数据。有传言称 GPT-4 在编码方面表现出色,一部分原因是 OpenAI 在获取优质编码数据上投入了大量的时间、精力和资金。去年,Adobe 曾公开征集“真实场景中的 500 到 1000 张香蕉照片”来扩充 AI 图片库;根据招聘广告,Anthropic 还专门设立了“tokens”团队负责获取和理解数据。每家公司都想获得高质量数据,他们愿意为此付费,因为他们相信只要有数据,模型就能更高效。


到目前为止,所有 scaling law 和数据集大小都遵循 power law。传统的数据收集方式已经不足以支持我们迈向下一个阶段,我们需要更好的手段来获取高质量的数据。


OpenAI 早期很喜欢用自对弈(self-play)的训练方法,并且用这种方法训练出了一个打败 Dota 世界冠军的 Dota AI 玩家。拾象注:我们在《OpenAI 创始人的 AGI 预言:AI Safety、Scaling laws 与 GPT-20》一文中对这个训练过程有详细解释)经过长时间的自训练,agent 可以与自身的互动来提升自己的性能,并最终学习到复杂的策略。我记得当时 OpenAI 首席科学家 Ilya 很重视这个方法,因为它可以把计算资源转化成数据。自对弈让模型通过与环境互动获取数据,数据反馈给模型,模型就能够不断提升优化,Elo 评分也会增加。现在已经证明自对弈很有效,但它自有特定的适用范围和条件。


我认为自对弈和类似的方法都可以提升 LLM 的能力。如果把这个自对弈方法比作模型的对话环境,模型的环境就是对话,模型和环境的互动是 LLM 生成的文本,互动后的反馈来自于所设定的奖励模型。相较于依赖真实数据训练 LLM,自对弈方法也许已经能够生成可用于训练的数据。


很多论文都探索了这一领域,大部分研究都和合成数据有关。有早期研究发现,GPT-4 打标签的准确性竟然可以与人工众包相媲美。2023 年有研究表明基于扩散的图像增强方法(diffusion-based image augmentation)可以通过对图像进行变换或增强,提高机器人学习的效果。Anthropic 探讨了 Constitutional AI  的概念,使用 RLAIF 监测和调整减少 AI 的负面影响。此外,NeurIPS 还在 2023 年 12 月举办了关生成式 AI 与合成数据的 workshop。近期多份论文中都直接对自对弈(self-play)展开研究,探索 LLM 的自主改进。


如今语言模型的发展让我想起了 2016 年深度学习在图像分类上的突破,GAN 被应用于图像生成和图像增强等任务。我的一篇有关 GraspGAN 的早期论文就和这个主题有关,研究一系列模拟方法和领域适应( domain adaptation)技术来提高深度学习在机器人抓取任务中的效果,使用 GraspGAN 方法提高了低数据情景下的抓取率,并在训练过程中不断提高能力。然而现在,对于 LLM 来说,即便互联网有海量的图片资源,对于某些需要特定类型或特定场景的图像数据的机器学习任务,每一张图片都可以被认为是一种低数据情境,仍然存在数据不足的问题。


如果模型不会陷入自我复制的循环,模型进步最终将不再取决于人类的智力努力,而是取决于投入到系统中的 FLOPs 计算资源的数量。即使合成标签(synthetic labels)比真实标签准确度更差,但它的成本也低,能大量用于模型训练。我认为未来合成数据和模型自我监督都会投入使用,到时的场景也许是这样:人类的直接反馈仅仅被用来引导或初始化奖励模型,或者对已有的数据进行合理性检查,而不是直接被用来训练模型。其他一切都将由模型自主生成和自我监督,然后不断反馈,不再依赖于人类直接的指导或监督。


LLM 就像互联网上模糊的 JPEG 图,但那可能是因为目前的数据质量本来就不够高,训练出来的结果只能是互联网的模糊化。如果未来模型能够生成出更高质量的合成数据,也许就能成为比互联网数据质量更高的“模糊 JPEG 图片”。




05.


搜索和 Q*


在 Sam Altman “被离任”的事件发酵期间,路透社报道了一种叫做 Q* 的方法,引起了很多猜测。我周围的人都普遍认为这是一种由 Q-Learning 驱动的搜索过程。后来 Yann LeCun 发了一篇文章,提醒大家要冷静下来,因为几乎每个实验室都研究过将搜索算法与 LLM 结合的方法,就算这种尝试真的成功了也不应该意外。


他说的完全正确,确实有很多公司都在尝试这个方法。DeepMind 在 2014 年 12 月发布了一项研究,指出 CNN 可以有效评估围棋走法,随后加入了通过蒙特卡洛树搜索(MCTS)的搜索算法,并在一年内开发出了 AlphaGo。AlphaGo 的成功被认为是十年来机器学习领域的一个重大成功故事,人们不会忘记从机器学习取得的重大成就中学到的经验教训。


搜索方法通常在计算上非常效率,而且我不确定我们的基础模型是否足以用作搜索的子程序。以 MuZero拾象注:DeepMind 开发的一个强化学习系统,它不需要先验知识就能够从头学习游戏的规则,并通过自对弈来提高性能) 的棋盘游戏为例:


在训练每个棋盘游戏的模型时,我们使用了 16 个张量处理单元(TPUs),而在模型进行 self-play 以提高能力时使用了 1000 个 TPUs。


相对于训练使用的 16 个 TPUs,自我对弈使用的 1000 个 TPUs 大约增加了 100 倍的计算硬件资源,但搜索确实是机器学习中最可靠的理念之一,它的一大优势就是真实有效性。我们现在使用搜索较少,是因为我们已经找到了更好的计算使用方法。如果我们没有更好的算法,搜索将始终是一种会消耗额外 FLOPs 的选择。所以我们需要更加认真思考,尽量寻找直接和高效的方法来解决问题,而不是依赖于计算密集型的搜索。




06.


AI Hype


总的来说,我认为我们还会继续 scaling 下去,一些当下的瓶颈可能并不那么重要,我们会发现新的方法,来利用现有模型解决这些问题。


scaling law 的有效性很大程度上依赖于模型生成数据的成功。也有可能这一理论并不成立,或者它能带来一些成果,但最终逐渐边际效应递减。不过目前还没有迹象表明 scaling law 会停止或遇到问题。


2016 年,几个知名的机器学习研究员搞了个恶作剧,建了一个叫做“ Rocket AI ”的网站,说是用了一种神秘的“时间递归最优学习”(TROL)方法,然后谎称会在 2016 年的 NeurIPS 上大办一场震撼的发布会,最后被警察强制关停。这是一场闹剧没错,但也足以说明 AI 在当时被炒得有多热。


下图是自 2016 年以来“AI”一词在谷歌搜索趋势图上的变化情况,数据比例缩放至 0-100,让我们看看 2016 年 AI 炒作最热时和当下情况的对比。



AI 是为数不多的维护学术交流、远离炒作的研究主题之一,我也一直在尽力不被外界声音影响。我在此前的文章提到不喜欢 Twitter 上 AI 的内容,尤其是 ChatGPT 出现之后,所以我说 AGI 也许很快就会实现并不是在跟风或者为了获得认可,而是真的认为这是可能的,且它的优化路线也很明确,唯一的问题就是会消耗数十亿资金。


在 AI 领域,模型永远无法完全实现人们的所有预期,但模型的能力却在持续扩展,而且从不倒退。今天的 AI 技术水平将会是未来几年的低点,因为 AI 还会继续进化。即使所有 VC 都失败,LLM 不再流行,我们依然拥有了目前已经训练好的模型和衍生出的思想。技术的发展是不可逆转的,我们都应该好好思考这一点。


自上一代人出生以来,一切都在不断变化。而对变化的抗拒如同双刃剑一样,既有其危害也有其价值。





延伸阅读


Scaling能通往AGI吗?


专访月之暗面杨植麟:lossless long context is everything


Perplexity CEO:AI 创业公司要先做产品,后做模型


八问Canva:在AI时代称王还是落败?


新摩尔时代:拾象 2024 LLM 猜想

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存