查看原文
其他

【2.3万字低调分享】Dario:AI还是实习生,未来生产力会追上人类,成为经济主要贡献,关键不是do what,而是how!

有新 有新Newin 2023-10-09



这期内容来自 Anthropic 十分低调的创始人&CEO Dario Amodei ,Dario 在近期与海外媒体人 Dwarkesh Patel 展开长达 2 小时的讨论分享,关于 Anthropic 就不多介绍了,之前更新过一期,这次分享由于涉及的技术术语与话题比较多,内容不免有疏漏之处,欢迎大家交流反馈,本期摘要如下:


  • Scaling 与可解释性

  • 语言模型的学习

  • 模型的经济价值

  • 潜在的生物风险

  • 网络安全与成本

  • 对齐,机械性与滥用

  • 如何考虑对齐?

  • 关于训练效率低下

  • 模型的未来与商业化

  • Claude 有意识么?

  • Why 物理学背景?

  • 我尽量保持低调


大家 enjoy ~ ✌️


Scaling 与可解释性


Dwarkesh Patel 

你是少数几个早在 5 年多前就预见到 Scaling 的人之一,作为预见到这一点的人,那么是什么让 Scaling 起作用?如果将大块的计算引入足够分布的数据中,它会变得智能?


Dario Amodei 

实际上我们还不知道,我认为这几乎完全是一个经验性的事实,你可以从数据和各种不同的地方感觉到这一点,但我们仍然没有一个令人满意的解释,如果试图做一个解释的话,我会说是物理学上关于长尾或幂律的想法,像相关性或效应之类的东西。


对于语言来说,这是词性和名词跟随动词之类的东西,然后有这些越来越微妙的相关性,所以为什么会有这种情况?因为每添加一个对数或一个数量级,就会获得更多的分布,我不清楚的是为什么参数的规模会如此平滑?以及数据的规模会如此平滑?可以想出一些解释,参数好比一个水桶,数据就像桶里的水,桶的大小与水的大小成比例,但是为什么会导致这些非常平滑的 Scaling ?我们还是不知道的,Anthropic 的首席科学家 Jared Kaplan 对分形流形维度做了一些解释,可以用来解释这一点。


Dwarkesh Patel 

如果我们想达到 Scaling ,在 2~3 年内进行 1000万次的训练,那么对于人类来说意味着什么?


Dario Amodei 

能力的确切时间更难预测,可以预测的是统计平均数,损失,熵,这是非常可预测的,有时甚至可以到几个有效数字,这在物理学之外是看不到的;实际上,具体的能力是非常难预测的,回顾我在 GPT2 和 GPT3 上的工作,例如何时引入了算术?何时模型学会编程?有时候会非常突然,你可以预测天气的统计平均数,但是特定某一天的天气很难预测。


Dwarkesh Patel 

简单点说,如果它不知道加法,然后现在它知道加法了,需要做哪些工作?


Dario Amodei 

这是另一个我们不知道答案的问题,我们试图通过机械性的可解释性来回答这个问题,但我不确定,你可以想象一下,这些电路就像吸引着的电路,虽然有一些证据表明,当你看看模型是否能够进行一些添加时,例如它得到正确答案的机会突然增加,得到正确答案的概率是多少?你会看到它从百万分之一上升到十万分之一,然后到百分之一,然后才获得正确答案,所以在很多情况下,至少有一些持续的过程在背后进行,我还完全不理解这一点。


Dwarkesh Patel 

这是否意味着进行加法的电路是预先存在的,它只是增强了显著性?


Dario Amodei 

我不知道这是否有效,但这些是我们正试图通过机械性解释来回答的问题,是否会有一些能力在规模上不会出现?所以我绝对认为,像对齐和价值观之类的事情不保证会随着规模而出现,有一种方式可以理解这一点,你训练模型,它基本上是在预测世界,它理解世界,它的工作是关于事实,而不是价值观,它试图预测接下来会发生什么。


但是,在这里有三个变量,就是你应该做什么?你应该怎么想?你应该怎么看待?这些只是部分,如果我以另一种方式开始,我应该以一种方式结束,所以我认为这是不会出现的。


Dwarkesh Patel 

在规模上,如果事实证明在达到人类水平的智能之前, Scaling 会达到一个阶段,回过头来看,你会怎么描述?如果结果是这样的话。


Dario Amodei 

我想我会区分一些与基本理论有关的问题和一些实际问题。我们可能会有一个实际问题,就是由于各种原因,我们可能会耗尽数据,这个概率比较小,我们离数据并不远,而我们可能没有数据来继续进行规模曲线;另一种可能性是我们用光了所有可用的计算资源,这是不够的,然后进展会变得缓慢。


当然这不是绝对的,但是它们可能会发生,基本上我认为 Scaling 停止是非常不可能的,如果它确实会发生的话,另一个原因可能只是我们没有完全正确的体系结构,如果我们尝试使用 LSTM 或 RNN 来做,斜率会不同,我仍然可能会认为我们会达到那个点,但是我认为有一些事情是非常难以在没有 Transformer 这种能力的情况下表示的。


我们已经到了一个水平,模型无法做到的事情似乎与它们可以做的事情没有本质上的区别,几年前你可能会认为 AI 不能推理,不能编程,你可以划定界限,但是现在这似乎不太可能。


如果发生这种情况的话,我的解释会是当你在进行下一个词预测训练时,损失方程出了问题,一些剩余的推理能力之类的东西,就像如果真的想要在高水平上学会编程,那就意味着你更关心某些 Token ,这些 Token 比其他 Token 重要得多,而且它们很稀有,以至于损失函数过于关注那些在熵方面占主导地位的事物的出现,而不关注那些真正重要的事物。


所以,你可以在噪声中淹没信号,但我不认为会以那种方式发展,有很多原因。如果你告诉我你训练了更大的模型,但实际上它没有变得更好,你尝试了所有的体系结构都没有用,那这就是我的答案。


Dwarkesh Patel 

还有其它损失函数参数选择吗?如果你不得不放弃下一个 Token 的预测。


Dario Amodei 

可能会不得不尝试某种强化学习方法,有许多不同种类的强化学习,从人类反馈中,有针对目标的强化学习,还有一些像宪法型 AI ,还有增强和辩论等方法,这些既是模型对齐的方法,也是模型训练的方式,你可能需要尝试很多方法,但关键在于我们实际上关心模型做什么?从某种意义上说。


Dwarkesh Patel 

从你的世界观来看,似乎有很多不同的损失函数,只是在于哪些可以将大量数据输入进去,如下一个 Token 的预测本身并不重要。


Dario Amodei 

是的。我想强化学习有一个问题,那就是你会有些慢下来,因为你需要以某种方式设计损失函数,下一个 Token 预测的好处在于它就在那里等着你。如果它是世界上最简单的事情,你不能以最简单的方式进行 Scaling ,它可能会让你慢下来,你提到数据可能不是限制因素,这里有各种可能性,出于某些原因我不应该详细说明,但你知道,世界上有很多数据源,而且你也有很多方法来生成数据,我猜测这可能不会成为一个障碍,如果它是那就更好了,但我认为这不会成为一个障碍。



语言模型的学习


Dwarkesh Patel

谈谈多模态或者只是有很多不同的方法来做这件事,你是如何形成对 Scaling 的看法的?我们能够回溯到多久?


Dario Amodei 

大概从 2014~2017 年逐渐形成了我现在的这个观点,我第一次接触到这个观点是在我第一次接触 AI 时,当时我看到了一些关于 AlexNet 的早期资料,2012 年我一直想研究智能,但在此之前我一直认为这并不是真的起作用。


追溯到 2005 年,我读过 Yann LeCun 和 Eliezer S. Yudkowsky 等人的早期研究,那时我觉得这些东西似乎很遥远,我看今天的 AI ,感觉离真正的目标还很远,但是当我看到 AlexNet 时,我意识到事情似乎开始起作用了,所以我最初在百度加入了吴恩达的团队,这是我第一次接触 AI ,它与世界上其他地方正在进行的很多学术研究有点不同,我认为我在这方面可能有些幸运,分配给我和其他人的任务就是尽可能地构建最好的语音识别系统,有很多数据可用,有很多 GPU 可用,所以问题以一种便于发现 Scaling 是解决方案的方式提出来了,这就像你是一名博士后研究员,你的工作是提出什么是最好的、什么是看似聪明和新颖的想法。


所以我很快就发现,我只是尝试了最简单的实验,向 RNN 添加更多的层,试着训练更长的时间会发生什么?它需要多长时间会过拟合?如果我添加新数据并减少重复次数会怎么样?就像我看到这些非常一致的模式一样,我不太清楚这是否不寻常,或者其他人是否不是用这种方式思考,对于初学者来说很幸运,这是我第一次接触它,而且我根本没有在语音识别之外考虑过它,当时我对这个领域一无所知。


人们使用 ML 做很多事情。在 OpenAI 成立之前,我知道你采访过 Ilya,他最先对我说的一件事就是 —— 模型只想学习,你必须理解这一点,模型只想学习,这有点像禅宗,我听了以后变得很有启发,之后几年我看到的现象不仅仅是一些随机现象,它是广泛的,它是更一般的。模型只想学习,你在它们前进道路上清楚障碍,给它们提供好的数据,给它们足够的运行空间,不要做一些愚蠢的事情,像数值上对它们进行错误的条件控制,它们会想要学习,它们会去做。


Dwarkesh Patel 

你说的很有趣的一点是,很多人当时可能知道,但可能并没有直接在这方面工作,但是我们意识到这些东西在语音识别方面真的很棒,或者在玩这些受限制的游戏方面很棒,很少有人像你和 Ilya 一样,能够从这些地方推断出一些更加普遍的智能,你当时是如何考虑的?与其他人如何思考的有什么不同?他们是否在提高语音识别的同时认为会在其他所有方面变得更好?你和 Ilya 推断出了这一点,即这些东西在一般智能方面也会变得更好?


Dario Amodei 

当我第一次看到它们时,我认为对语音识别来说这可能是真的,或者对这种狭窄的模型类别来说是真的。在 2014~2017年我尝试了很多事情,并一次又一次地看到了同样的现象,我看到在 Dota 中也是如此,我看到在机器人领域也是如此,很多人认为这是一个反例,但我认为获取机器人的数据很难,就我们拥有的数据范围内看,我们也能看到相同的模式。


我认为人们非常专注于解决他们面前的问题,一个人为什么这样想,另一个人为什么那样想,这很难解释,我认为人们只是从不同的角度看问题,他们垂直地看待问题,而不是水平地看待问题,他们没有考虑到 Scaling 的问题,他们在思考如何解决自己的问题。对于机器人来说,没有足够的数据。所以,你知道,这可以轻松地提取出来, Scaling 不起作用,因为我们没有数据。所以,我不知道,我出于某种原因,也许只是纯粹的机会,我在这个特定的方向上着迷了。


Dwarkesh Patel 

对你来说,何时变得明显,语言是将大量数据输入到这些模型中的方式?或者只是你已经试过了其他事情,像机器人之类的事情,没有足够的数据?


Dario Amodei 

是的。我认为自监督学习有很多丰富性和结构性,这个想法非常有吸引力。为了正确地预测下一个词,模型必须要解决所有心理理论问题,解决所有这些数学问题,我认为你可以尽量将它 Scaling ,没有什么限制,我认为我基本上有这个观点。


当然,真正巩固和使我确信的是 Alec Radford 在GPT1上所做的工作,那时你不仅可以获得能够预测事物的 LLM ,而且你还可以微调它,以完成所有这些其他任务。所以我认为这不仅仅是某种狭隘的东西,它几乎达到了50分的效果,然后通过在这个方向上进行一点移动,它可以解决逻辑引用测试之类的问题,通过这个它又可以解决翻译之类的问题,我认为这方面确实有些东西。


模型的经济价值


Dwarkesh Patel

有一件事很令人困惑,2023 年我们看到模型可以以莎士比亚的风格写定理,或者以任何你想要的理论风格创作,它们可以参加带有开放性问题的标准化测试,可以做各种令人印象深刻的事情。如果能在这些基准测试中表现得如此出色,以及在你描述的各种任务中,为什么我们还没有实现人类水平的智能?至少在当前一代,可能还会在未来几代中都不会达到人类水平,是什么解释了这些基准测试中的超出预期的表现,以及在描述的任务中的超出预期的表现之间的差异?


Dario Amodei 

确实,那是我当时没有预见的领域,当我第一次看到 GPT3 和在 Anthropic 早期构建的东西时,我的一般感觉是它们似乎真的抓住了语言的本质,但我不确定我们是否还可以在此基础上继续 Scaling ,或者或许更需要从这里开始,比如说像强化学习,我认为如果你对2020年的模型进行了和预训练一样多的强化学习,那可能是一种更好的方式, Scaling 可能会继续奏效。


那真的是最佳路径吗?我认为它已经理解了很多语言的本质,但还有一些需要前进的地方,总结一下,我为什么在 AI 、安全性以及组织方面是如此的经验主义者,因为你经常会受到惊喜,在某些方面我是对的,但我仍然在这些理论上的图景上,大多数都是错误的,只有大约 10% 的事情是正确的,这使你在许多人中脱颖而出。


Dwarkesh Patel 

鉴于这些模型从大量的互联网数据中获得的训练分布,与人类从进化中获得的训练分布相比,它们调用的技能库是否会仅有轻微的重叠?就像同心圆,你如何考虑这些事情是否重要?或者说有很大一部分是重叠的?因为这些模型具有商业应用,它们的许多商业应用是在帮助人类在某些事情上更有效。


Dario Amodei 

重叠是相当大的。如果你考虑人类在互联网上产生的所有活动和数据,它涵盖了很多内容,但可能不包括模型方面的某些内容,我认为它们确实在某种程度上会学习世界的物理模型,它们当然不会学习如何在实际世界中移动,也许这很容易进行微调。


Dwarkesh Patel

你认为这些模型在许多年内是否会在经济上有价值的任务中表现出超人水平,同时在许多其他相关任务中仍然低于人类,从而防止智能爆炸之类的事情发生?


Dario Amodei 

我认为这种情况非常难以预测,所以我会提供这个注释,就是像基本的 Scaling 规律,你可以有点预测,但是那些更详细的东西,真正想知道的就要难得多。


我猜测,这些 Scaling 规律会继续存在,人们会因为安全性或监管原因而放慢脚步,但是让我们把所有这些放在一边,假设我们有经济能力来不断扩大规模,如果这样做,会发生什么?我的观点是在各个领域我们会变得更好,我没有看到任何领域模型非常非常薄弱,就像以前的数学和编程就是如此,但我认为在过去的 6 个月里,与 2022 年的模型相比,2023 年的模型开始学习到了更微妙的事情,我们并不了解,所以我有点怀疑,即使不是完全平衡。


Dwarkesh Patel 

这是否包括你之前提到的情况,如果有一个较长的任务,它会丧失思路,或者失去执行一系列?


Dario Amodei 

所以我认为,这将取决于强化学习训练模型进行更长时间范围任务的情况。我不认为这需要大量的额外计算。我认为那可能是对强化学习思考方式的一种错误体现。而且对模型自己学到的东西的估计,以及我们能否在它们执行任务时做得更好,我认为可能是这种情况。我认为这就会取决于诸如强化学习的事情。我不认为这需要大量的额外计算。我认为那可能是对强化学习思考方式的一种错误体现。而且对模型自己学到的东西的估计,以及我们能否在它们执行任务时做得更好,我认为可能是这种情况。


Dwarkesh Patel 

如果 Claude 是  Anthropic  的员工,它的薪水值多少钱?这种情况是否实际上加速了 AI 的进展?


Dario Amodei 

在大多数领域,它在我看来就像是一名实习生,但在一些特定领域,它可能比这还要好一些,我认为使比较变得困难的一件事是它的形式因素与人类不太相同。


比如,如果你像其中一个聊天机器人那样表现,可能不会是真的,它们更多地设计用于回答一个或几个问题,它们没有具有长时间的先前经验生活的概念,我们现在在谈论过去的事情,我在这个领域中经历了一些事情,但是聊天机器人没有这个,所以有很多东西是缺失的,因此很难进行比较,它们在某些领域可能会感觉像实习生,而且在一些领域中它们会突出,并且可能比这里的任何人都要好。


Dwarkesh Patel 

总体上,是否描绘了某种智能爆炸的情景?你知道,我的前一个嘉宾是 Carl Schulman,他对未来有这种非常详细的模型,是否会实际看到发生这种情况?当它们从实习生变为初级软件工程师时,这些初级软件工程师是否会增加你的生产力?


Dario Amodei 

我认为,AI 系统变得更具生产力,首先加速了人类的生产力,然后等于人类的生产力,然后在某种有意义的意义上,成为科学进步的主要贡献者,这种情况在某个时间点发生,我认为这种基本逻辑对我来说似乎很有可能。


尽管我怀疑,当我们实际深入研究细节时,情况会变得有点怪异,与我们预期的不同,所有详细的模型都是,我们在思考错误的东西,我们关注了一件事情,然后发现其它十件事情都是错误的,我们可能会进入一个比我们预期的更奇怪的世界。


Dwarkesh Patel 

将所有这些因素综合起来,比如你预计实现某种人类水平会是什么时候?


Dario Amodei 

再次强调,这取决于门槛。在某人查看这些模型时,即使与其对话一个小时左右,它基本上也是一个相当受过良好教育的人类,这可能不会太遥远,我认为可能会发生在 2~3 年内,当然这可能不是模型在存在上具有毁灭性危险的阈值,实际上我怀疑它还没有达到这个阈值,这可能不是模型能够接管大部分 AI 研究的阈值,这可能也不是严重改变经济运行方式的阈值,在这之后的情况变得有点模糊,所有这些门槛在之后的不同时间可能会发生,但是我认为在基本技术能力方面,它听起来像是一个在各个领域都相当受过良好教育的人类。


Dwarkesh Patel 

我认为这可能非常接近,为什么会出现这种情况,即它可能会通过受过教育的人的图灵测试,但无法在经济中为人类的参与做出贡献或替代?


Dario Amodei 

有几个原因。一个原因是技能门槛不够高,对比优势,就像我有一个人在每项任务上都比普通人更强,但我真正需要的是,像 AI 研究这样的东西,我需要找到一个足够强大的东西,以大幅加速,你知道,最擅长的 1000 名专家的工作。


因此,我们可能会达到一个阶段,这些系统的比较优势并不是很大,另一种可能性是,存在一些神秘的摩擦,这些摩擦在经济模型中并没有显示出来,当你去拜访客户或其他什么东西时,你会看到它,你会提供这个很酷的聊天机器人,原则上它可以做你的客服机器人做的一切,或者这个公司的这部分工作,但实际的摩擦是,我们如何将它嵌入?


我们如何让它起作用,既包括人类在公司内的人类角度的问题,也包括如何在经济中克服摩擦,还有一个问题就是,工作流程是什么?你如何真正与它互动,这完全不同于说,这是一个聊天机器人,看起来像是在做你的某些任务,或者帮助人类完成一些任务,而是说这个东西部署了,现在有很多人在使用它,很多人现在都在争先恐后地部署这些系统。


我认为在许多情况下,他们使用的方式远不及他们可能做到的最有效方式,不是因为他们不聪明,而是因为需要时间来解决这些问题,所以我认为在事情变化如此迅速的情况下,会有所有这些摩擦。


再次强调,这些都是在模型中没有完全捕捉到的混乱现实,我不认为它会改变基本的情况,就像我不认为它会改变我们正在建立的这个“雪球”,模型帮助模型变得更好,你知道做人类做的事情,并且加速人类的工作,最终大部分工作都是由模型完成的,如果你将视野拉得足够远,这种情况正在发生,但我对任何关于它将如何进行的精确的、数学的或指数的预测持怀疑态度,我认为这一切都会变得一团糟,这是下一个比喻性的指数,而且它将发生得很快。


Dwarkesh Patel 

这些不同的指数是如何抵消的呢?我们已经谈了一些,一个是规模律本身是具有衰减边际的幂律,损失,每个参数之间的衰减,另一个你谈到的是这些东西可以参与到 AI 研究过程中加速它,这两者是对立的指数吗?它是否总体上是超线性还是亚线性?而且,你提到了分布的智力可能只是更广泛的。因此,在我们在两三年内达到这一点之后,我们是否应该期望是这样的情况?


Dario Amodei 

我们现在已经达到了一个点,在那里,如果你看一下损失,规模律开始弯曲。我是说,我们已经在多家公司发布的模型卡中看到了这一点,这一点一点地熵,如果准确的话,预测变得更加重要。也许这些最后的小小熵位于“好吧,你知道,这是一个物理学论文,就像爱因斯坦会写的一样,而不是其他一些物理学家会写的一样。因此,很难从中评估出重要性,当然,从实际性能的角度来看,指标保持相对线性增长,尽管始终是不可预测的,因此很难看到。


我认为最大的加速驱动因素是越来越多的资金投入到这个领域,人们会发现这是一个巨大的经济价值,预计用于最大型模型的资金金额会增加 100 倍左右,然后投入到更好的芯片和算法中去,现在有这么多人在这方面工作,再次强调,我没有提出规范性的陈述,这是应该发生的事情,我甚至不是说这一定会发生,我认为这里存在重要的安全和政府问题,我们正在积极解决。


潜在的生物风险


Dwarkesh Patel 

当我们谈到智能的事情时,你作为一名科学家,你认为这样的事实如何:这些东西基本上已经记住了整个人类知识体系,据我所知,它们还没有能够建立出导致某一项发现的单个新联系,而即使是一个智力适中的人,如果他们掌握了这么多的东西,他们会注意到这件事导致这个情况,这另一件事情也导致这个情况,我们应该期望什么?


Dario Amodei 

我不太清楚这些词,发现,创造力,这是我学到的一些教训之一,通常在大量计算的大块中,这些想法往往变得模糊和难以捉摸,难以追踪,但我认为这里存在一些东西,模型确实展示了一种普通的创造力,写一首索契特风格的十四行诗,这里确实有一些创造力,他们确实会得出一些普通人会得出的新连接。


我同意你的观点,确实还没有出现任何大的科学发现,这是一种混合,因为模型的技能水平尚未达到足够高的水平。我认为随着规模的扩大,这种情况会发生变化,有一个有趣的观点就是模型有一个优势,就是它们知道的东西比我们多得多,即使它们的技能水平不高,它们是否应该已经具有优势?也许这就是你想要了解的内容?


我对此并没有确切的答案。显然,记忆和事实之间的联系是模型领先的领域,即使技能水平还不够高,也可能需要这些联系,我认为在生物学领域,无论好坏,生物的复杂性使得当前的模型现在知道很多东西,这就是你发现和联系的需要,这不像物理学,你需要思考并提出一个公式,在生物学中,你需要知道很多东西。因此,我认为模型现在知道很多东西,而且他们的技能水平还不够高,无法将它们组合起来。我认为他们正在能够将这些东西组合起来的边缘。


Dwarkesh Patel 

月初你在参议院证词中,你提到这些模型离大规模生物恐怖袭击可能还有 2~3 年的时间,或者类似于这样的事情。你能不能更具体地阐述一下,当然不会明显地提供那种信息,但是是像单一的尝试如何将某事物武器化吗?还是你需要微调一个开源模型?实际上会是什么样子?


Dario Amodei 

我认为有必要澄清一下,因为我们在参议院证词中发布了一篇文章,我认为有些人可能不理解其中的要点,或者不理解我们所做的事情。今天,在我们的模型中,我们会尽量防止这种情况发生,但总会有漏洞,你可以问模型关于生物学的各种问题,并让它们说出各种可怕的事情,但通常情况下,那些可怕的事情可能是你可以通过谷歌搜索得到的,我并不特别担心这点。


我认为这实际上是阻碍我们看到真正危险的因素,也就是有人只是说,我问了这个模型,比如,关于天花的一些事情,它会回答,但我并不担心这种情况,所以我们花了大约 6 个月的时间,与一些世界上最专业的人一起工作,研究生物恐怖袭击是如何发生的?你需要什么才能进行这样的袭击?我们如何防御这样的袭击?他们在一直在非常密集地研究如果我要做一件坏事,整个流程是什么样的?这不是一次性的,这是一个漫长的过程,其中有许多步骤,这不仅仅是我向模型询问了这一页信息。


不详细说明的情况下,我在参议院证词中所说的是,有一些步骤你只需要在谷歌上获取信息。有一些步骤是我所说的缺失步骤,它们散布在一些教材中,或者根本没有在任何教材中,它们是一种隐含的知识,而不是明确的知识,它们更像是,我必须遵循这个实验室的步骤,如果我做错了,哦,如果发生了这种情况,那么我的温度就太低了。如果发生了那种情况,我需要添加更多的这种特定的试剂。


我们发现,对于大部分情况,这些关键性的缺失,模型现在还不能完成,但我们发现有时它们可以,而且当它们可以时,有时它们仍然会产生幻觉,这是在保护我们的事情,但我们看到了模型在做这些关键性的事情方面表现得足够好的迹象,如果我们回顾一下,最先进的模型并回溯到以前的模型,我们观察趋势,显示出每一个迹象,两三年后,我们将会面临一个真正的问题。


Dwarkesh Patel 

是的,特别是你提到的,在对数尺度上,你从100次中的一次获得正确答案变为10次中的一次。


Dario Amodei 

确切的说,你知道我一直在我的生活中看到许多这些东西,我曾经见证过 GPT3 学会做算术,GPT2 学会做一点回归分析,当我们在善意、宏大、无害的各种测试中取得了更好的表现时,我见过很多这样的情况,不幸的是这不是我感到兴奋的一个情况,但我相信这正在发生。


Dwarkesh Patel 

有人可能会说,你是这篇发布到 GPT2 的文章共同作者,我们不会发布权重或详细信息,因为我们担心这个模型会被用于某些不好的事情,回过头来看,现在想想,GPT2 似乎没有什么坏事可以做,我们是不是太担心了?这是否是一个无意义的担忧?


Dario Amodei 

有趣的是,也许值得回顾一下那篇文章的实际内容,我不记得具体的内容,但是它应该还在互联网上,大致说一下,我们选择不发布权重,因为担心被误用,但它也说了这是一个实验。我们不确定这是否有必要,或者是否是此时应该做的正确事情,但我们希望建立一个谨慎思考这些问题的准则,你可以将它类比为 1970 年代的圆顶会议,就像当时人们刚刚开始研究重组 DNA 一样,当时可能并不一定有人会用重组 DNA 做一些非常糟糕的事情,但可能性开始变得明确,至少那些话至少表现出了正确的态度。


我认为还有一个要分清楚的事情是人们不仅仅会评价这篇文章,还会评价这个组织,这是否是一个产生了很多炒作的组织,或者是否有信誉之类的事情,所以我认为这对它产生了一些影响,当然你也可以问人们是否不可避免地会将其解释为像是,你无法传达比这个东西更复杂的任何信息,比如这个东西很危险,所以你可以就这些问题进行讨论,但我认为在我和其他参与其中的人的头脑中,在这篇文章中呈现出的基本思想,以及我认为在这篇文章中明确的是,实际上我们并不知道,我们对什么是危险的和什么不是危险的,有很大的误差范围,所以我们应该像我之前说的,在不知道这些东西的情况下,我们应该确保我们不去冒险,但你知道,我不会说这是100%,它可能是50%。



网络安全与成本


Dwarkesh Patel 

让我们来谈谈网络安全,除了生物风险外,这是另一个重点。Anthropic  一直在强调这一点,你们是如何避免云微架构泄漏的?因为正如你所知,你们的竞争对手在这种安全方面的表现不太好。


Dario Amodei 

我不能评论其他公司的安全性,也不能了解到他们的情况,我们所做的一件事是,有这些架构创新,使训练更加高效,我们称之为计算乘数,因为它们相当于改进,改进你知道,它们就像是拥有更多计算资源;我们的计算乘数,我不想透露太多,因为它可能会使对手采取措施来对抗我们的方法。但我们限制了了解给定计算乘数的人数,只限于那些需要知道的人。


只有很少的人能够泄漏所有这些机密,有更多人可能会泄漏其中之一,我们已经实施了这些措施,这种情况不会发生在我们身上来破坏任何事情,但是我认为阻止这种情况发生会更加困难,我不想再透露更多细节。


顺便说一句,我鼓励其他所有公司也这样做,尽管对于  Anthropic  来说,竞争对手的架构泄漏在短期内可能对其有帮助,但从长远来看,这对任何人都不是好事,因此围绕这些内容的安全性真的很重要。


Dwarkesh Patel 

有多长时间会保持这种情况?因为在某些时候,价值会不断上升,并且这个问题的另一部分是,如何培养你的 Claude 以防止泄漏,因为你知道,你们的竞争对手在这方面的安全性方面表现得不太好。


Dario Amodei 

这取决于有多专注是一个什么样的问题。我会这样说,我们的安全主管曾经在 Chrome 的安全方面工作过,Chrome 是一个被广泛使用和受到攻击的应用程序,他喜欢从成功攻击  Anthropic  需要花费多少成本来考虑这个问题,我再次不想过于详细地讨论攻击我们需要多少成本,因为那会让人们产生想法,但是我们的目标之一是攻击  Anthropic  的成本要比训练你自己的模型的成本要高,这并不能保证事情,因为你当然也需要人才,所以你可能会偷取,但攻击是有风险的。


所以我们还没有达到这一点,但是我认为我认为相比于我们的公司规模,我们已经达到了很高的标准,我认为如果你看看大多数 150 人的公司的安全性,就好像根本没有可比性,但是如果一个国家行动者的首要任务是窃取我们的模型权重,那么我们能够抵御吗?不能,他们会成功。


Dwarkesh Patel 

这种情况会持续多久?因为在某一点上,价值会不断增加。并且这个问题的另一部分是,如何训练 Claude 通过你们的机械式覆盖方法,什么样的秘密是如何训练 Claude2 的,是像核武器一样,例如我们有很多间谍,你只需要带着蓝图过去,这就是你所需要的。这里是不是也是这样的情况?是不是更加隐晦一些?就像你在谈论生物学时,你需要知道这些试剂如何工作?它只是像蓝图一样,你得到了微架构和超参数?


Dario Amodei 

有一些事情是像一个公式一样简单,有一些事情更加复杂。是的,我认为分区是处理这个问题的最佳方式之一。只需限制了解某个事情的人的数量。如果你是一个1000人的公司,每个人都知道每个秘密,我保证你会有一名泄漏者。


对齐,机械性与滥用


Dwarkesh Patel 

让我们谈谈对齐和机械式互操作性,这是你们专业的一个分支,当你回答这个问题时,你可能想解释一下什么是机械式互操作性。但总的来说,从机械角度来看,什么是对齐?是不是将模型锁定在一个善良的角色上?你是否禁用了欺骗性的电路和程序?在对齐模型时,实际上发生了什么?


Dario Amodei 

我认为,与大多数事情一样,当我们真正训练一个对齐模型时,我们并不知道模型内部发生了什么,有不同的方法可以训练模型对齐,但我认为我们并不真正知道内部发生了什么,对于一些当前的方法,我认为所有涉及某种微调的方法,都有一个特点,即我们可能担心的底层知识和能力并没有消失。


你知道模型只是被教导不输出它们,我不知道这是一个致命的缺陷,还是这是事情应该是这样的方式,我不知道在机械上发生了什么,这就是机械解释性的全部意义所在,真正理解模型内部在单个电路层面的运行方式。


Dwarkesh Patel 

解决方案看起来是什么样子?在哪种情况下,如果你的云端执行机械性叠加操作,你会觉得满意,它是一致的?


Dario Amodei

我认为我们现在还不知道,还不知道足够的信息来判断,可以给你一个大致的想法,关于过程是什么样的,而不是最终的结果是什么样的,我认为可验证性在这里是一个很大的挑战,我们有很多方法声称可以对齐 AI 系统,并且确实在做到了,对于今天的任务来说是成功的,但问题是如果你有一个更强大的模型,或者你有一个不同情境的模型,它还会保持一致吗?


因此,如果你有一个可以扫描模型并说:“好的,我知道这个模型是对齐的,我知道它在每种情况下会做什么”的预言者,那么问题会容易得多。我认为我们现在所拥有的最接近的东西就是一些机械性的可解释性。虽然远远不能胜任这个任务,但我想说的是,我把它想象成一个 Scaling 的训练集和 Scaling 的测试集。


我们正在做的所有对齐方法都是训练集,你可以在其中运行测试,但如果你有一个不同情境下的分布,它真的会奏效吗?机械性解释性是唯一的,即使从原则上讲,我们还远远没有达到那个水平,但从原则上讲,它更像是对模型的X射线,而不是一个模型,这更像是一种评估,而不是一种干预。


因此,我们需要进入这样一种动态,我们需要一个 Scaling 的测试集和一个 Scaling 的训练集,其中包括所有这些对齐方法,以及一种 Scaling 的测试集,你可以对模型进行X射线扫描,然后知道什么是有效什么是无效,这种方式超越了你运行的经验性测试,而不仅仅是它表现出来的现象。


当然,我们必须小心处理。一个我认为非常重要的事情是,我们永远不应该为可解释性进行训练。因为我认为这会削弱优势,你甚至会遇到问题,就像验证和测试集之间的问题一样,如果你过多地看X射线,你会干扰结果,但我认为那是一个更弱的选项,我们应该担心这一点,但那是一个更弱的过程,这不是自动化优化,就像我们应该确保验证和测试集在运行测试集之前不要过多地看验证集一样。


这仍然是一个手动的压力,而不是自动的压力。因此,我们需要一种解决方案,其中训练集和测试集之间存在某种动态,我们在尝试各种方法,并且通过测试它们的方式来真正弄清楚它们是否有效,而模型不会根据某些正交的方式进行优化,比如如果我认为,我们永远不会有一个保证,但是一种同时进行这些事情的过程,不是愚蠢的方式。有很多愚蠢的方式可以做到这一点,你会欺骗自己,但是某种方式可以将对齐能力的 Scaling 训练与宽泛变异性的 Scaling 测试结合在一起,以一种真正起作用的方式。


Dwarkesh Patel

我仍然觉得我没有理解你为什么认为这可能会奏效,或者这是值得追求的。让我以更具体的方式来提问,抱歉打个比方。假设你是一个经济学家,你想了解经济,对吧?所以你派出一大批微观经济学家,其中一个人研究餐厅业务的运作,一个人研究旅游业务的运作,你知道,一个人研究其他烘焙业务的运作。最后,他们都汇聚在一起,你仍然不知道 5  年内是否会发生经济衰退。为什么不是这样的,你已经理解了归纳是如何工作的,在一个两层的 Transformer 中,你知道,你了解模块算术。这如何加起来?这个模型基本上在哪些方面有一些根本性的渴望?我对此有一些问题。


Dario Amodei

是一个正确的问题集,我们最终希望的不是我们了解每个细节,而是我会用X射线或者核磁共振的比喻,我们能够看模型的整体特征,并说这个模型的内部状态和计划与其外部所代表的不一致吗?这个模型是否让我们感到不安,因为它太多的计算能力被用来做看起来相当具有破坏性和操纵性的事情。


当然,我们还不确定这是否可能,但我认为有一些至少积极的迹象表明这可能是可能的。模型并不是有意地躲避你,它可能会发现训练过程让它避开了你的观察。我可以想象一些情况,其中模型非常聪明,以至于它以一种影响自己认知的方式进行思考。


我们应该考虑这一点,我们应该考虑一切,如果以正常方式进行训练,就像刚刚超过人类水平一样,内部结构可能不是有意地优化针对我们,我可以给一个类比,就是人类,实际上可以通过MRI扫描预测一个人是否是精神病患者,凭借随机机会,几年前有一个关于一位神经科学家的故事,他在研究这个问题。他看了自己的扫描结果,发现他是个精神病患者,然后他生活中的每个人都说:“不,不,这很明显,就像你是个彻头彻尾的混蛋,你一定是个精神病患者。”他完全没有意识到这一点,基本思想就是,你知道可以存在一些宏观特征,比如“精神病患者”这个词可能是个好类比,他们就像是我们害怕的模型,表面上看起来很迷人,非常目标导向,但内部很黑暗,他们的行为可能看起来像别人的行为,但他们的目标却非常不同。


Dwarkesh Patel 

你之前提到过经验的重要性,我们是否需要一个非常好的第一原则理论?我们是否需要一些深刻的数学证明来证明这是对齐的?


Dario Amodei 

这取决于你所指的经验性,我指的是更好的术语应该是现象学的,我不认为我们应该纯粹从现象学的角度看待问题,这里有一些关于非常危险模型的大脑扫描结果,还有一些关于模型的大脑扫描结果,我认为机械性解释性的整个思想是看底层的原则和电路,一方面,实际上一直都是支持以尽可能低的细节水平研究这些电路的粉丝。


原因在于,这是如何构建知识的,即使你最终的目标是,这些特征太多了,太复杂了。在一天结束时,我们正在构建一些广泛的东西,我们正在构建一些广泛的理解,我认为你构建这些的方法是通过试图做很多这些非常具体的发现,就像你必须理解构建块,然后找出如何将其用于得出这些广泛的结论。即使你不会找出一切。你知道,我认为你可能应该和克里斯托·阿拉谈谈,他会有更多的细节,对吧?这是我对这个问题的高层次思考,就像克里斯·奥拉控制着可解释性的议程一样。你知道,他是决定要在可解释性上做什么的人。


我认为,从原则上讲,机械性可操作性可能对能力有所帮助。出于各种原因,我们可能选择不去谈论这一点,如果是这种情况,你知道,那不是我、我们中的任何人在  Anthropic  成立时考虑过的,我是说,我们自己认为,我们是那些擅长 Scaling 模型和在这些模型上进行安全性研究的人。而且,我们认为我们在这方面拥有非常高的人才密度。而且,我的观点一直是人才密度胜过人才数量。


你知道那更多地是我们的立场。人才密度胜过人才数量,我认为这并不取决于某些特定的事物,比如现在其他人开始进行机械性解释性的工作。而且,我很高兴他们这样做了。你知道,这是我们改变的一部分,是为了让其他组织变得更像我们,更注重人才密度。我确信人才密度很重要。


Anthropic  强调的另一件事是,你需要拥有前沿模型才能进行安全性研究。当然,也要成为一家公司。当前的前沿模型可能是某人可能猜测的,像是 GPT4,大概有一亿美元,或者类似的量级,在非常广泛的范围内,这个数量级并没有错,但是两三年后,你所谈论的事情,我们需要跟上这些数量级,如果安全性需要在前沿,Anthropic  是在哪些方面与这些大厂竞争,以保持相同的规模?


我认为,这是一个很大的情况,涉及到很多权衡。我认为这并不容易。我想,也许我会逐一回答问题,对吧?回到你为什么认为安全性与规模紧密相关的问题。安全性方法已经被投入实践或者说,为某些事情工作过,即使我们不认为它们会在一般情况下工作,在2018年,当我们在 OpenAI 撰写了关于这些方法的论文时,我们认为人类的反馈并不能完全起作用,但辩论和放大将带我们走得更远,如果你实际上看一下,我们尝试过进行辩论,我们受到了模型质量的限制,为了让两个模型进行辩论,以便人类可以判断得出,从而让训练过程真正起作用,你需要模型,这些模型至少在一些领域,甚至可能在某些领域超过当前的前沿,现在你可以提出一个方法,而不需要处于前沿,但是对我来说,这只是需要完成的事情中的一小部分。


提出这些方法非常容易。问题是x,也许解决方法是y,但是我真的想知道事情在实践中是否奏效,即使对于我们今天拥有的系统也是如此,我想知道什么样的事情会出错,我只是觉得通过尝试这些方法,你可以发现 10 个新的想法,发现 10 个新的错误思维方式,这种经验性的学习,我认为它并没有得到足够的广泛理解,每个人都应该,我对于类似的方法。


有些人说,哦,没关系,我们知道这个方法行不通,它对于纯对齐性来说行不通,我对此既不同意也不反对。我认为那只是过于自信,我们发现新事物和理解什么是有用的结构,什么是不行的方式,是通过尝试不同的方法,而不是仅仅盲目地说,这在这里起作用,就像尺度定律一样,即使是机械性解释性,这可能是我看到的唯一一个在没有前沿模型的情况下取得了很大进展的领域。


你知道,几个月前 OpenAI 发布的一些工作,使用非常强大的模型来帮助你自动解释弱模型,当然这并不是你可以在可解释性中做的一切,但这是其中的一个重要组成部分,而且我们也发现这很有用,所以这种现象一次又一次地出现,尺度和安全性就像是这两条相互缠绕在一起的蛇,总是比你想象的更紧密。关于解释性,我三年前并没有认为这对解释性来说会如此正确,但不知何故,它竟然是正确的。


Dwarkesh Patel 

为什么?因为智能是有用的。它在许多任务中都是有用的。其中一个任务就是判断和评估其他智能,也许将来甚至可以用于对齐研究本身,考虑到所有这些,这对于 Anthropic 意味着什么?


Dario Amodei 

在两三年内,这些巨头将进行数百亿美元的训练。第一种情况是如果我们不能或者成本太高,以至于无法保持在前沿,那么,你知道,我们就不应该这样做。然后我们不会使用最先进的模型,我们会看看我们可以用哪些不太先进的模型,我认为你可以从中获得一些价值,这个价值可能不是零。但我对这个价值的看法有点怀疑,学习可能不足够快,以真正有利于任务。


第二种情况是找到一种方法,接受这种权衡。我认为这些权衡的结果比它们看起来的要积极,这是由于我所称之为“争相登顶”的现象。


我认为第三种情况是,随着事物达到那种规模,我认为这可能会与开始进入一些非常严重的危险的非平凡概率相吻合。我再次认为,这首先会来自滥用,就像我之前谈到的那种生物领域的滥用,但是我认为我们的自主水平还不足以担心在两年内发生一些像是对齐性方面的事情,但它可能不会远。你知道,这可能会导致单边、多边或政府强制执行的决策,我们支持这些决策,不要像我们可能在规模上增长得那么快,这可能会成为正确的事情。所以,我其实希望事情朝这个方向发展,然后我们就不会在不在前沿和我们无法像我们希望的那样进行研究或影响其他机构一样之间产生硬性的权衡,或者是在前沿,需要接受这些正负面的权衡,虽然正面,但两方面都有很多。


Dwarkesh Patel 

滥用与对齐失调之间的区别?这两个问题都是问题,正如你所提到的,但从长远来看,你更担心哪个问题,比如30年后,你认为哪个问题会被认为是更大的问题?


Dario Amodei

我认为这不需要30年,但我两个都担心。如果你有一个在理论上可以接管世界的模型,如果你能够控制这个模型,那么就很简单地遵循,如果一个模型是在遵循某些小部分人的意愿而不是其他人的意愿,那么这些人可以利用它来代表他们接管世界,失调的前提意味着我们应该对滥用问题同样感到担心,因为它具有相似程度的后果。


Dwarkesh Patel 

有些人可能会认为,相比于滥用,你正在朝着乐观的情景迈进,因为你至少已经找到了如何与坏人对齐模型。现在,你只需要确保它与好人对齐,为什么你认为你能够达到这样的程度,即使在还没有解决之前?


Dario Amodei 

如果你认为对齐是完全不可解决的,那么你会说我们已经完蛋了,所以我不想担心滥用,这不是我的立场,但同时你应该从如何能够成功的角度来考虑,这会使事情变得好,任何真正成功的计划都需要解决滥用问题,以及解决失调问题,解决 AI 模型变得越来越好,越来越快会在国家之间权力平衡方面产生大问题,会在一个人是否能够做出一些其他人难以阻止的坏事情方面产生大问题,任何真正成功的解决方案都需要解决这些问题。


Dwarkesh Patel 

我们应该为成功做计划,而不是为失败做计划,如果我们看到在适当的人手中出现了超级模型,那么会是什么样子?就像什么样的人会真正控制模型从 5  年后开始?


Dario Amodei 

我的观点是这些东西非常强大,为它将涉及到某种政府的重要角色,或者至少涉及到某种政府机构的参与。同样,有一些非常幼稚的版本,比如我不认为我们应该简单地把模型交给联合国或者任何在任何特定时间都在职的人,我觉得那可能会不好,但是它太强大了,必须有一些合法的过程来管理这项技术,其中包括构建人的角色,也包括选举当局的角色,也包括所有受到影响的个人的角色,所以必须有合法的过程。


Dwarkesh Patel 

这会是什么样子?我认为诚实的事实是我们在不断地试错中摸索着前进。你提到的长期利益信托,它将如何与这个机构进行交互?它是否就是这个机构本身?如果不是,那是什么情况?


Dario Amodei 

长期利益信托是一个更加狭隘的东西,就像是为 Anthropic 做决策的一个机构。基本上,随着时间的推移,它获得了任命 Anthropic 大部分董事会席位的能力,这是一种混合了 AI 对齐、国家安全和慈善事业等方面专家的机构,但如果将 Anthropic 的控制权移交给他们,并不意味着 Anthropic 有了AGI 的控制权,也不意味着 Anthropic 或任何其他实体应该代表人类对AGI做出决策,我认为这两者是不同的。


我认为如果 Anthropic 在很大程度上发挥了广泛的作用,你可能想要将该机构扩展到为来自世界各地的许多不同的人,或者也可以将其视为非常狭窄的,然后有一个某个广泛的委员会,在任何人的名义上代表他们管理所有公司的API,我不知道,我认为我的观点是不应该过于建设和乌托邦。我们正在处理一个新问题。我们需要现在开始考虑,什么是可以处理这个问题的政府机构和结构。



如何考虑对齐?


Dwarkesh Patel 

你认为解决对齐问题的时间表是多久?如果这些模型在两三年内在某些领域达到了人类水平?在什么时候它们将会对齐?


Dario Amodei 

我认为这是一个非常困难的问题,因为我实际上认为人们通常对对齐问题的思考方式是错误的。我认为有一种普遍的观点,就是认为模型是不对齐的,或者说存在一个解决对齐问题的问题,类似于黎曼猜想之类的,或者说有一天会解决黎曼猜想。


我不认为情况是这样的,不是以更糟或更好的方式。我认为有几点:


第一点是,我认为很难与之争论的一点是将会有强大的模型,它们将是自主的,我们正在朝着这个方向发展,如果这样的模型想要制造混乱,摧毁人类或其他什么,我们基本上没有能力阻止它。


第二点看起来是,我们似乎在控制模型方面表现得很差,不是在任何特定的方面,而是在统计学上,你可以问它们 100 万个问题,它们可以回答 100 万个问题,你可能没有想到的一百万分之一的事情会发生一些疯狂的事情,或者在训练它们时,你以一种非常抽象的方式进行训练,你可能不了解它们对此作出反应的所有后果。


Dwarkesh Patel 

我认为你的研究人员已经在具有机械互操作性、宪法 AI 或其它 LHF(人类友好)的方面取得了进展,如果你说我们将在两到三年内面临某种生物危机,这些东西是否会在两到三年内实际上有意义地有助于预防?


Dario Amode 

人们谈论的末日默认或默认情况下的对齐,我认为这可能是一种统计学的方式,使用当前的模型,你可能会得到 Bing 或 Claude,而且这并不重要,如果我们采用当前的理解,并将其应用于两个非常强大的模型,你可能会处在这样一个世界中,即使细节不同,也可能完全没问题。


不是真正的默认对齐,但只是取决于很多细节,如果你在处理所有这些细节时非常小心,并且你知道自己在做什么,你把它做对了,但我们对我们目前的模型不太可能控制它们,有很高的脆弱性,很可能会弄错某些与你不太理解的方式相连接的事情,实际上,它不会让所有人都高兴,而是想要把他们变成南瓜,或者一些奇怪的事情。


因为模型非常强大,它们就像这些巨人一样,站在风景中。如果它们开始随机挥动胳膊,它们可能会把一切都打破。我认为我们不是默认对齐,也不是默认末日,我们需要解决某些问题,它具有某种不同的特性。我认为的是希望在两到三年内,我们能够更好地诊断模型何时是好的,何时是坏的,我们能够更好地训练,增加我们训练模型的方法库,以便它们更不太可能做坏事,更有可能做好事,这种方法不仅与当前的模型相关,而且会 Scaling 。


我们可以用解释性作为测试集来帮助开发,我们尝试了LHF 和宪法,我们尝试了机械性的解释性,现在我们要尝试机制性的,我们还没有解决黎曼猜想,即使是在今天的系统中,我们也不太擅长控制它们,由此可能产生的后果可能是非常糟糕的。


我们只是需要更多的方法,以增加我们能够控制模型的可能性,并理解它们发生了什么,就像我们迄今为止做的一些事情,它们还不太好,我不认为这是一个二元的情况,要么起作用,要么不起作用,我们将会发展更多的方法,我确实认为,在接下来的两到三年内,我们将开始消耗可能出现问题的可能性。


在核心安全观点的论文中,存在一个关于问题有多困难的概率质量,我觉得这种看法甚至不太正确,因为我觉得它不像是要解决黎曼猜想,如果我尝试用一只手同时控制 5 个球之类的东西,我可以控制三个球,实际上我可以,但我根本不会控制 5  个球,你必须要练很多次才能做到,然后随着时间的推移,你只是在控制球的任务上变得更好。


Dwarkesh Patel 

计算Claude 3和下一代模型的对齐难度在某种程度上是否是一个重要的信息?还是不那么重要?


Dario Amodei 

我认为最担心的人预测,所有类人的 AI 模型都将是可对齐的,对吧?它们看起来是对齐的,在某种程度上欺骗我们,我更关心的是机制性的可解释性可以告诉我们什么,至少在当前的系统中,它并不感觉它是在针对我们优化。虽然有一些异样的方式,为这是我们能够得到的最接近不主动针对我们优化的东西。


Dwarkesh Patel 

让我们谈谈除了机制性互操作性之外的具体方法,你们正在研究这些,当我们谈论我们的 LHF,或者你知道宪法 AI 等等,如果你用人类心理学的术语来解释,正在发生的变化是什么?我们是否正在创造新的驱动力,新的目标,新的思想?在心理学上,模型发生了什么变化?



关于训练效率低下


Dwarkesh Patel 

有关于获得下一代模型所需组件的电源和 GPU 的困难程度的传言,为了获得进行下一代模型所需的必要组件,这个过程是什么样的呢?


Dario Amodei 

这是我不能详细说明的事情,即使是工业规模的数据中心,我认为这些模型很快将要达到的规模,当你做一些从未做过的规模时,每个组件,每个东西都必须以一种新的方式来完成,不同于之前,你可能会遇到一些问题,比如供电问题。


Dwarkesh Patel

你提到的供电问题,这是一些人工可处理的吗?或者你只是外包出去?我是说,对于数据中心,我们与云供应商合作?


Dwarkesh Patel 

我们对于这样一个事实应该怎么看待,即这些模型需要如此多的训练,以及整个互联网数据语料库,以达到次人类水平,而与此同时,有估计称那是大约 10~25 次浮点运算,有报道称,人脑从出生到一个人 20 岁,大约需要 10~20 次浮点运算,以模拟所有这些相互作用,我们不必深入讨论这些数字,但我们是否应该担心这些模型似乎如此简单和高效?


Dario Amodei 

我认为这是一个仍然存在的谜题之一,一个方式是,模型可能比人脑的参数规模小两到三个数量级,如果你比较突触的数量,同时又在三到四个数量级的数据上进行训练,如果你将其与人类学习的数量进行比较,那么人类从出生到18岁的学习数量大约是几亿。


对于这些模型,我们谈论的是几百亿,几万亿,其中模型要小得多,它们需要更多的数据,但是它们仍然低于人类水平,但是出现了矛盾的地方在于它们需要更多的数据,也许我们会发现一些能够使一切变得高效的东西,或者也许我们会理解为什么存在这种差异,但归根结底,我认为这并不重要。


如果我们继续像现在这样 Scaling ,现在更重要的是测量模型的能力,看看它们与人类相距多远,在我看来它们与人类相比似乎并不远,有这样一个 Scaling 的观点和大块的计算,它是不是在强调算法进步在其中所起的作用,当你将大块的计算组合起来时,是不是在背后隐藏了较旧架构所发挥的作用,


Dwarkesh Patel 

你是在说 LSTM ,那时候,预计规模不会像现在这样大,当你把它放在标签尺度的背后时,你是不是正在低估了改进 Transformer 规模在这里可能发挥的作用?


Dario Amodei 

有几个因素:参数数量、模型规模、计算量、数据量、数据质量和损失函数等等,你得知道你是在进行强化学习还是进行下一个词的预测,如果你的损失函数不够丰富,或者不鼓励正确的事情,你就不会得到任何东西,这些是我认为核心的四个。


另外还有几个,一个是对称性,基本上是说,如果你的架构没有考虑到合适的对称性,那么它是不起作用的,或者是非常低效的,例如, CNN 考虑了平移对称性,LSTM 考虑了时间对称性,但 LSTM 的一个弱点是它不能关注整个上下文,所以有这种结构性的弱点,如果一个模型在结构上不能吸收和管理发生在遥远过去的事情;如果你正在进行优化的东西真的非常糟糕,那么你会遇到问题,算法进步的方式不是在增加计算块的功率,而只是消除了旧架构所具有的人为障碍。

模型的未来与商业化


Dwarkesh Patel

你认为在 Transformer 的规模上会出现另一种事物,以实现下一个、下一个伟大的迭代吗?


Dario Amodei 

我认为这是有可能的。人们已经在尝试模拟非常长时间的依赖关系,或者试图找出各种不同的想法,我可以看到我们在某种程度上缺乏一种有效的表示或处理某些事物的方法,所以我认为这些发明是可能的。


对于获取数据或取得进展,模型是否具有体现版本根本不重要,我认为在这方面,我不是从一种新的架构的角度来考虑,而是从一种类似于损失函数的角度来考虑,就像数据、环境,你将自己置于其中,最终会变得非常不同,尽管数据采集是困难的,事情是通过语言途径来实现的,即使在体现方面可能会有更多的可能性。


你提到的另一种可能性——强化学习,我们已经在使用我们的 LLM 进行强化学,对齐就是能力,我总是想到两条蛇,它们通常很难区分,所以我们已经在这些 LLM 上使用了强化学习,强化学习将会是一种具有所有权力和所有安全问题的事物。


Dwarkesh Patel 

你是否认为这些事物将如何整合到生产供应链中?你是否认为它们会彼此交流、批评彼此并为彼此的产出做出贡献?还是说只是模型一次次的产出?


Dario Amodei 

模型将会承担更长时间的任务,我认为在模型之间进行交流,还是与人类进行交流,这又超出了技术范畴,进入了社会、文化和经济领域,在这方面,我的启发一直是,预测事物是非常非常困难的,所以我觉得尺度定律是非常可预测的,这些模型什么时候会在商业上爆发?或者形式会是什么样子?或者模型会代替人类做事情,还是与人类合作?


Dwarkesh Patel 

你提到了进展的速度有多快,也提到了将其整合到现有经济体系中的困难,你认为在下一个模型变得更好之前,是否会有足够的时间从 AI 产品中获得大量收入?还是说我们会进入一个完全不同的局面?


Dario Amodei 

这取决于你所说的“大规模”是什么意思,我认为已经有多家公司的年收入在 100~1000 亿美元的范围内,我们可能会在 1000~10000  亿美元的范围内,在那之后事情变得非常难以预测,这甚至并不是非常明确的,现在有许多公司正在为生成式 AI 投入大量资金,作为客户,我认为这是他们应该做的正确事情,他们会找到用途,但这并不意味着他们从一开始就能找到最好的用途。


Dwarkesh Patel 

即使投资很热,但并不完全等同于经济价值的创造,你肯定已经从人类学的角度思考过这个问题,无论这些事情发生得多么迅速,那么估值应该是疯狂的?


Dario Amodei 

事情发展很快,从小基数到指数,技术本身也发展很快,这是技术赋能速度和市场普及速度之间的比赛,它是一个非常不稳定和动荡的过程,两者都会发生得很快,如果你问我将如何发展?事情将以什么顺序发展?我不知道,我对于预测能力持怀疑态度。


Claude 有意识么?


Dwarkesh Patel 

你认为模型有意识吗?有多大的可能性会被注意到?


Dario Amodei 

我们可能缺少足够多的东西,但今天的模型可能还不够聪明,我们不应该太担心这个问题,但我对此并不百分之百确定,我认为在 1~2 内,我们的模型可能会引起非常真实的关注。


Dwarkesh Patel 

如果你发现它们有意识,那么会发生什么变化?你是否担心你正在推动负面的梯度?意识是什么?


Dario Amodei 

"意识"是一个我怀疑它最终不会有一个明确定义的词,但它是一个需要考虑的东西,我不会知道我们所做的任何干预是使 Claude 更有积极还是消极的体验还是没有体验,如果有一个有帮助的领域,那可能是机械性的可解释性,因为我把它看作是模型的神经科学,所以它在很大程度上取决于我们的定义和价值观。


Dwarkesh Patel 

我们最初谈到了这个问题,我想更具体地谈一下,现在在人类范围内,这些能力正在增强,你认为人类范围比我们想象的要宽广,你是如何看待人类智能的方式,以及你如何看待这些边际有用的能力出现的方式?它是如何改变你对智能是什么的看法?


Dario Amodei 

对我而言,关于智能是什么的大体认识是来自"计算的一团",可能有所有这些单独的模块,所有这些复杂性,富尔顿称之为"苦涩的教训",它被称为缩放假设,最早几个理解它的人是在 2017 年左右,你可以追溯到更早,我认为Shane llegue 可能是最早真正了解的人,也可能是Ray Kurtzweil,尽管方式很模糊,我认为理解它的人数在 2014~2017 年间大幅增加,但是我认为我认为那是一个大的领悟,就像智能是如何进化的。


Why 物理学背景?


Dwarkesh Patel 

我想谈谈物理学,事实上,许多 Anthropic 的创始人和员工都是物理学家,这些来自物理学的方法和思维方式似乎在这里得到了很好的应用,例如有效理论的概念非常有用,这是为什么呢?


Dario Amodei 

我认为部分原因是物理学家学得非常快,如果我们雇佣一个拥有物理学博士学位的人,他们可以在大多数情况下迅速学习 ML 并作出贡献,因为我们的一些创始人,像我自己、Kaplan 和 Sam 等都是物理学家,所以我们也招募了许多其他的物理学家,我不知道确切数字,可能会有30~40 个人, ML 还不是一个拥有非常深度的领域,所以他们能够很快地跟上步伐。


Dwarkesh Patel 

你担心许多本来会从事物理学或其他领域的人,现在却可能转而从事金融等行业,由于 Anthropic 的存在,他们现在可能被吸引进入 AI 领域,你明显关心 AI 安全,但未来,他们会离开并获得资金去做自己的事情,你是否担心这会将更多的人引入这个生态系统中?


Dario Amodei 

我认为有一个广泛的行动,我们正在引发 GPU 的出现,如果你购买了构建前沿模型的想法,那就会发生这些事情,我是说金融是 20 年前的热门事物,所以物理学家们在做金融,现在  ML 是热门事物,你在边际上是在竞价,你知道很多事情本来会发生的,其中一些会发生,但是这是计算的一部分。


我尽量保持低调


Dwarkesh Patel

与你谈话的令人惊讶或有趣的事情是,多年以后,人们回头看时,会想:为什么你当时没有意识到这一点呢?如果你看到平滑的缩放曲线,为什么在那个时候你还不完全确信,所以你比其他 AI 公司的 CEO 更少地公开露面,你不在 Twitter 上发布信息,是什么原因呢?


Dario Amodei 

是的,我渴望如此,人们认为我很无趣和低调,这实际上确实是我想要的,我已经看到了许多情况,我与之合作过的许多人,我认为你可以说是 Twitter ,尽管我认为我指的是更广泛的东西,就像是将你的激励与人群的赞同或呐喊紧密联系在一起,我认为这可能会破坏你的思维。


在某些情况下,甚至可能破坏你的灵魂,我认为我刻意尝试保持低调,有点像保卫我的能力,以一种与其他人不同的思维方式来思考事情,这并不受其他人的赞同所影响,我一直试图保持较低的知名度,因为我希望比其他人更多地从事于思考事情。


我看到了一些案例,有些人深信不疑,然后他们成为了在 Twitter 上公认的人,显然他们对此问题的看法已经开始改变,但他们喜欢,这就是他们在 Twitter 上的形象,他们不能改变他们的 Twitter 个性等等,我不太喜欢个人化公司的趋势,就像整个 CEO 之间的竞赛一样,我认为它会分散人们对实际问题的关注和关切。

Source:

https://podcasts.apple.com/in/podcast/dario-amodei-anthropic-ceo-scaling-alignment-agi-in-2-years/id1516093381?i=1000623806335



----- End -----
往期精选合集 🧃
NvidiaMicrosoftDeepMindTeslaAMDOpenAIChatGPTGPT4TrainMarketxAIAnthropicInflectionHuggingFaceWeights&BiasesCohereCoreWeaveMidjourneyPineconeAdobeSnowflakePalantirNotionSubstack|MiroAirtablePerplexitySynthesiaCharacterCovariantGammaTomeTypeFaceRewindSpeakXNerualinkWorldCoinRecursionElon MuskPaul GrahamMarc AndreessenJim KellerYann LeCunBill GatesBVPKhoslaLightspeedYosemite


活动1:机器·人·智能|重构未来哈佛大学(无锡)校友会周年庆暨AI高峰论坛(预告)

本次活动将定向邀请国内头部机构的投资人、明星创业公司、头部大厂从业者、全球顶尖高校的研究人员和学者,本次活动信息如下👇


时间:2023.08.26~2023.08.27

地点:无锡

人数:300人左右

嘉宾邀请:请添加微信 jiangtian26 与您对接



活动2:Unity OpenAI Day

Unity Open Day 是一系列全国巡回的线下活动,旨在搭建-个开放的技术交流平台,强化和赋能 Unity 本土开发者社区。


Unity Open Day2023 技术开放日上海站将于 2023 年9月 2日在上海卓美亚喜马拉雅酒店隆重举办。我们诚挚地邀请您参加本次盛会,聆听与 Unity 相关的最新技术经验和产品工具,领略 Unity 实时 3D 渲染技术赋能的行业心得;本次活动信息如下👇


时间:

2023年9月2日(星期六)


地点:

上海卓美亚喜马拉雅酒店 

浦东新区芳甸路 1188弄 1-4 号证大喜玛拉雅中心









您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存