Anthropic创始人访谈：Scaling与强化学习，可解释性与AGI安全

海外独角兽 2023-09-10

收录于合集 #AI/ML 60个

作者：Dwarkesh Patel

推荐人：Cage

编译：海外独角兽

排版：Scout

本文编译自 Anthropic CEO Dario Amodei 的一期播客访谈。

Anthropic 是 LLM 赛道排名第二的公司，由 Dario Amodei 创立于 2021 年 1 月，今年 7 月，Anthropic 推出了最新一代模型 Claude 2。Dario Amodei 曾在 OpenAI 担任研究和安全副总裁，之所以创立 Anthropic 是因为他认为大模型中有很多安全问题亟需得到解决，因此 Anthropic 相当重视 AI Safety，愿景是构建可靠的（Reliable）、可解释的（Interpretable）和可操控的（Steerable）AI 系统。Anthropic 和 OpenAI 路线上最大的差异也在于他们对可解释性的关注。

在访谈中，Dario 解释了 Anthropic 在可解释性上的关注和投入。可解释性是保证模型安全的重要途径之一，类似于给模型照 X 光、做 MRI 检查，让研究人员有可能了解模型内部在发生什么、识别风险的可能来源。要真正理解 Scaling Law 为什么会起作用、以及如何实现 alignment 都离不开可解释性。Dario 认为， AI Safety 和 alignment 同等重要，一旦 alignment 出现问题，就应该以同样高度重视滥用带来的 AI 安全问题。

Dario 相信，模型在未来 2-3 年内的能力会有显著提升，甚至可能会“接管人类社会”，但还不能真正参与到商业经济环节中，这并不是模型能力的原因，而是因为各种隐形摩擦人们在现实生活和工作中使用模型的效率并不高，无法发挥模型的真正潜力。

和大部分 AI 公司的 CEO 相比，Dario 几乎不参加公开访谈、也很少在 Twitter 上发表观点，Dario 解释说这是自己的主动选择，通过保持低调来保护自己独立客观思考问题的能力。

以下为本文目录，建议结合要点进行针对性阅读。

👇

01 为什么 Scaling Law 会起作用

02 模型能力将如何和人类看齐？

03 Alignment：可解释性是给模型“照 X 光”

04 AGI 安全：AI Safety 与网络安全

05 商业化与 Long Term Benefit Trust

01.

为什么 Scaling Law 会起作用

Dwarkesh Patel ：你对 Scaling Law 的信仰从何而来？为什么随着数据规模的增大，模型的能力就会越来越强？

Dario Amodei ：Scaling Law 一定程度上是一个经验性总结，我们从各种数据和现象中感知到了这一现象，并将它总结为 Scaling Law，但目前还没有公认的、特别好的解释来说明它起作用的本质原理是什么。

如果一定要给一个解释的话，我个人推测这个可能和物理学中的长尾分布或者幂律定律（Power Law）比较类似。当存在有很多个特征（feature）时，占比较大的数据通常对应着主导性更强的基本规则和模式，因为这些模式经常出现，对应的数据量自然更多，而长尾数据则主要是一些更加细节和复杂规则。比如，在处理语言相关的数据时，大部分数据中都可以观察到一些基本的规律，比如词性、语序结构等等基本的语法规律，才相对长尾的则复杂语法。

这也是为什么数据每增加一个量级、模型能可以学习的行为规律就更多。但我们不清楚的是为什么二者之间的呈现出了一个完美的线性相关关系。Anthropic 的首席科学家 Gerard Kaplan 曾用分形维数（Fractal Dimension）来解释这件事，当然也有其他人在尝试其他验证 Sacling Law 的方法，但目前来看我们还是无法解释为什么。

分形维数（Fractal Dimension）：

数学家 Felix Hausdorff 于 1918 年首次提出分形维数的概念，后来也被称为豪斯多夫维数（Hausdorff Dimension）。分形维数可以被用来描述机器学习数据中隐含的特征关系结构，并提供了 Scaling 效应背后的一个数学解释模型，从而解释了 AI 模型为何能随规模提升表现。

并且，即便我们了解到了 Scaling Law 的存在，也很难预测模型具体能力的变化。在 GPT-2、GPT-3 的研究中我们永远不知道模型什么时候可以学会计算、编程，这些能力都是突然出现的。唯一可预测的是在数值层面，比如 loss 值、熵值的变化等是可以被预测得相当精确，但这就好像我们可以对天气数据进行统计、并对整个天气变化趋势进行预测，但要预测具体某一天的天气、温度则很难办到。

Dwarkesh Patel ：为什么模型可以突然拥有某项能力？例如它之前并不了解加法，但现在已经掌握了计算能力？是什么原因导致了这种变化？

Dario Amodei ：这是另一个我们还在探索的问题。我们试图用机制可解释性（Mechanistic Interpretability）方法来解释这件事，用类似于电路连接的思路来解释语言现象，你可以把这些东西想象成电路一个一个地接上去。

有一些证据显示，当模型被投喂了某些内容时，它给出正确答案的概率会突然增加，但如果我们观察模型能够真正给出正确答案之前的变化，会发现这个概率是从百万分之一、十万分之一慢慢爬升到千分之一这样递进的。在很多类似情况中，似乎有某个我们还没有观察到的逐渐变化的过程正在发生，我们暂时还没弄清楚这件事。

我们也无法确定类似于“加法”这样的“电路”是否从 day 1 就一直存在，只不过随着特定的过程逐渐由弱变强、进而让模型给出正确答案。这些都是我们想通过机制可解释性来回答的问题。

机制可解释性（Mechanistic Interpretability）：

机制可解释性是对神经网络进行逆向工程的研究，它可以用来帮助人们更容易地理解模型是如何将输入映射到输出的，是对模型解释性的一种实现思路。机制可解释性的主要目标是把深度学习当作自然科学来理解，利用模型的结构和参数来解释模型的决策过程和预测结果，以便人类用户可以理解和验证模型的工作原理。它的早期工作侧重于使用矩阵分解和特征可视化方法来理解视觉网络中间层的表示，最近集中在多模态网络的表示，以及神经网络算法的通路级理解。

Anthropic 曾发表过一篇机制可解释性的研究《Mechanistic Interpretability, Variables, and the Importance of Interpretable Bases》。

Dwarkesh Patel ：有哪些能力不会随着模型规模的扩大而出现？

Dario Amodei ：模型 alignment 和价值观相关的能力可能不会随着模型规模的扩大而自然涌现。一种思路是，模型的训练过程本质上是在预测和理解世界，它的主要职责是关于事实的，而非观点或价值观。但这里存在一些自由变量：你应该采取何种行动？你应该持何种观点？你应该重视哪些因素？但并没有这样的数据标签供模型学习。因此，我认为 Alignment 以及价值观等的涌现是不太可能的。

Dwarkesh Patel ：是否存在一种可能，即模型能力追上人类智能水平之前，可用来训练的数据就已经被用完了？

Dario Amodei ：我觉得这里需要区分这是理论层面的问题还是实际实操中的情况。从理论角度来看，我们距离数据不够这件事并不远，但我个人倾向于这种情况并不太可能发生。我们可以通过很多方式来生成数据，所以数据并不会成为一个真正的障碍。还有另一种情况是，我们用光了所有可用的计算资源，从而导致模型能力进步缓慢。这两种情况都有可能。

我个人的观点是，Scaling Law 大概率不会停滞，即便出现问题也更可能是计算架构的原因。举个例子，如果我们用 LSTM 或 RNN，那么模型能力的进化速度就会发生变化。如果在各种架构情况下我们都遇到了模型能力进化的瓶颈，那这件事将相当严重，因为这意味着我们遇到了更深层次的问题。

LSTMs：

长短期记忆网络（Long Short Term Memory networks），一种特殊的 RNN 网络（循环神经网络），可以学习长期依赖关系，解决传统 RNN 在学习长序列模式时的问题，并提取序列数据中的长短期信息。LSTM 的学习能力和表示能力比标准的 RNN 更强。

我认为我们已经到了这样一个阶段：讨论模型可以完成哪些任务、不能无法完成哪些任务可能在本质上没有太大区别。之前人们会给模型的能力设限，认为模型无法掌握推理能力、学不会编程，认为它可能会在某些方面遭遇瓶颈。虽然包括我在内的一些人之前并不这么认为，但在前几年这种瓶颈论更占主流，现在则发生了变化。

如果未来的模型 scale 过程中效果的确看到了瓶颈，我认为问题来自 loss function 设计时侧重于 next token prediction 任务。当我们过度重视推理、编程能力时，模型的 loss 就会重点关注体现这一能力 token，其他问题的 token 出现频率变低（拾象注：模型的预训练数据集会根据科学家对能力的重视程度，调整其配比），损失函数过于关注那些提供信息熵最多的 token，而忽略了那些实际上也很重要的内容，信号可能会在噪声中被淹没。

如果这个问题出现了，我们需要引入某种强化学习的过程，RL 有很多种，例如人类反馈的强化学习（RLHF），针对目标的强化学习，还有像 Constitutional AI 、增强（amplification）和辩论（debate）之类的方法。这些既是模型对齐的方法，也是训练模型的方式。我们可能要尝试很多种方法，但必须重点关心模型的目标是做什么。

强化学习的一个问题是，你需要设计出很完备的损失函数。而 next token prediction 的 loss function 已经设计好了，因此如果这条方向的 scale 看到了上限，AI 的发展会出现减速。

Dwarkesh Patel ：你对 Scaling 的理解是如何形成的？

Dario Amodei ：我这种观点的形成大致可以追溯到 2014 年至 2017 年期间。我一直关注 AI 发展，但很长一段时间里我都认为 AI 距离真正得到应用还需要很久，直到 AlexNet 的出现。随后我加入了吴恩达当时在百度的项目组，这也是我第一次接触到 AI 。

我认为我相当幸运，与其他同期的学术研究不同，当时我的任务是创建最优秀的语音识别系统，并且有大量数据和 GPU 可用。在这个项目的过程中，我很顺其自然地意识到 Scaling 是一种好的解决方案。这个过程和博士后的研究也不一样，我们并不一定需要提出前人没有提出过的聪明、创新的想法。

整个项目中我只需要进行一些最基础的实验，比如在循环神经网络（RNN）上添加更多层，或调整训练参数试图延长模型训练时间，在此期间，我观察模型训练过程，看过拟合何时发生。我也尝试加入新的训练数据，或减少重复训练轮次，观察这些调整对模型表现的影响。在这些实验的过程中，我注意到了一些规律性结果。不过，我还不清楚这些想象是否是突破性的事情、也不了解其他同行是否有类似发现。总体上这只是我作为一个 AI 初学者的很幸运的一段经历。我并不了解这个领域的其他内容，但我当时觉得这件事在语音识别领域得到了类似的验证。

在 OpenAI 成立之前，我就认识了 Ilya，他告诉我“我们需要认识到一点，这些模型只是想要学习”，这种观点很大程度上起发了我，让我意识到之前观察到的现象可能并不随机发生的个例而是普遍存在的。这些模型只是需要学习，我们只需要提供优质的数据，为它们创造足够的操作空间，模型就会自行学习。

Dwarkesh Patel ：很少有人像你和 Ilya 那样推导出一种“普遍智能”的观点。你在思考这个问题时与其他人的思考方式有什么不同？什么让你认为模型在语音识别上的表现将会得到持续改进，并且也会在其他方面体现着类似的情况？

Dario Amodei ：我确实不清楚，当我一开始在语音领域观察到类似现象的时候，我认为这只是适用于语音识别这个垂直领域的规律。在 2014 年到 2017 年这段时间里，我尝试了许多不同的事情，一次又一次地观察到了相似的情况。比如我 Dota 游戏中观察到了这一点，虽然机器人领域相对而言可获取的数据有限、很多人并不看好，但我也观察到了类似现象。我认为人们往往专注于解决眼前的问题，他们可能更多地在垂直方向上关注如何解决问题本身，而不是在水平方向上思考更底层的问题，以至于可能没有充分考虑到 Scaling 的可能性。比如对于机器人领域来说，可能最根本的问题在于训练数据不足，但人们很容易将其总结为 Scaling 不起作用。

Dwarkesh Patel ：你是什么时候意识到语言可以是将大量数据输入到这些模型中的方式？

Dario Amodei ：我认为最关键的还是以 next token prediction 为基础的自监督学习理念，以及大量的用于预测的架构。这其实和儿童发育测试的逻辑类似。举个例子，Mary 走进房间并放了一个东西，随后 Chuck 走了进来在 Mary 没注意的时候挪动了那个东西，Mary 会怎么想？为了完成这种预测，模型要同时解决里面涉及到的数学问题、心理问题等等。所以在我看来，要做好预测就得没有任何限制地给模型投喂数据、让它学习。

虽然我很早之前已经有类似的感觉，但直到 Alec Radford 在 GPT-1 上的一些尝试，让我意识到我们不仅可以实现一个拥有预测能力的模型，还能够通过微调（fine tune）来让它完成各种类型的任务。我认为这件事让我们拥有了可以实现各种任务的可能性、能够解决包括逻辑推理在内的各种问题。当然，我们还可以去不断扩大模型规模。

Alec Radford，GPT 系列前身 Sentiment Neuron 的作者，也是 GPT 系列论文的共同作者，现在仍就任于 OpenAI。

Dwarkesh Patel ：如何看模型训练需要耗费大量数据这件事？是否要担心模型训练的效率偏低？

Dario Amodei ：这个问题还在探索中。一种说法是模型的规模其实比比人类大脑小了 2-3 个数量级，但训练模型需要的数据量如果和一名 18 岁人类读过的文本量相比，又大了三到四个数量级，人类的数量级大概在数亿个，而模型的数量级是数千亿、数万亿。人类所得到的数据量并不大，却已经完全足够处理我们的日常工作和生活。但还有一种可能是，除了学习，我们的感官其实也在给大脑输入信息。

这里其实存在有一个悖论，我们目前所拥有的模型规模小于人脑，但它又能够完成很多和人类大脑的任务，而与此同时，这个模型需要的数据量又是远大于人类大脑的。所以这对这个问题我们还需要继续探索与理解，但一定程度上，这些都不重要。更重要的是如何评定模型的能力、如何判断它们与人类的差距。就我而言，这个差距并不遥远。

Dwarkesh Patel ：强调 Scaling 和更广泛意义上的大规模计算推动模型能力进步的观点是否低估了算法进步的作用？

Dario Amodei ：在 Transformer 论文刚发布的时候，我曾经写过相关问题，提到有 7 个相关因素会影响模型能力的提升，其中 4 个因素是最明显和关键的：模型参数量、算力规模、数据质量、损失函数。例如，强化学习或者 next token prediction 这样的任务非常依赖于正确的损失函数或激励机制。

强化学习（Reinforcement learning，简称 RL）：

通过基本的试错过程，针对环境的每个特定状态，寻找最优的行动方式。机器学习模型将在一开始引入一个随机的规则，同时在每次做出行动的时候给模型输入一定量的分数（又称奖励）。

损失函数（loss function）在机器学习中是指衡量拟合优度的函数，作用是反映模型输出与真实值之间的差异程度，即衡量预测误差；纳入所有样本点的预测误差，提供一个单值代表整体拟合优度；同时训练过程中会根据损失函数值不断地调整模型参数，目的是使损失值最小化，从而得到一个更优的拟合效果。

此外还有 3 个因素：

首先是结构对称性（symmetrics），如果架构没有考虑到正确的对称性，那就不能起作用、效率很低。例如，卷积神经网络（CNN）考虑了平移对称性（translational symmetry），LSTM 考虑了时间对称性（time symmetry），但 LSTMs 的问题是会不注意上下文语境，这种结构性弱点是常有的。模型如果是因为结构原因无法理解和处理过去比较久的历史（指序列数据结构中，较早出现的数据），就会像是计算不连贯一样，RNN 和 LSTM 模型都有这样的缺点。

Adam（Adaptive Moment Estimation）：

自适应矩估计，Adam 算法结合了 RMSprop 和 SGD 的优点，可以很好地处理非凸的优化问题。

SGD（Stochastic Gradient Descent）：

随机梯度下降法，一种用于优化具有适当平滑性属性（例如可微分或次可微分）的目标函数的迭代方法。它可以被视为梯度下降优化的随机逼近。高维优化问题中，这降低了计算负担，实现了更快的迭代，以换取较低的收敛速度

然后是数值稳定性（拾象注：conditioning，指的是在数值分析中是否算法是否 weill-conditioned，如果做不到，问题数据的微小变化会造成其解的巨大变化）。损失函数的优化在数值方面有难易区分。这就是为什么 Adam 比普通的 STD 效果更好。

最后一个要素是保证模型计算过程不受阻碍，只有这样算法才能成功。

所以算法的进步不是简单增强计算机运算的能力，还要消除旧架构的人为障碍。很多时候模型想要自由地学习和计算，只是被我们在不知情的情况下阻止了。

Dwarkesh Patel ：你认为会再出现像 Transformer 那样规模的东西来推动下一次的重大迭代吗？

Dario Amodei ：我觉得是有可能的，已经有人尝试过模拟超长时间依赖，我还观察到 Transformer 中一些表示或处理事物不够高效的 idea。不过，即使不出现这种革新，我们也已经在飞速发展了，如果真的出现，只是让这个领域发展得更快而已，可能加速也不会那么多，因为本来速度就很快了。

Dwarkesh Patel ：在数据获取上，模型是否一定要具备具身智能？

Dario Amodei ：我倾向于不把它当作一种新架构，而是一个新的损失函数，因为模型收集数据的环境变得完全不同，这对学习某些技能很重要。尽管数据采集很困难，但至少在语料采集这条路上我们已经有所发展了，未来也将继续，虽然说在具体实践方面还有更多可能性待开发。

损失函数（Loss Function）：

是机器学习和深度学习中的一个重要概念。它用于衡量模型预测结果与真实标签之间的差异程度，即模型的预测误差。损失函数的设计旨在使模型能够通过调整参数来最小化预测误差，从而提高模型的性能和准确性。

Dwarkesh Patel ：是不是还存在例如 RL 之类的其他方式？

Dario Amodei ：我们已经在使用 RLHF 的方法进行强化学习了，但我认为很难分辨这是 Alignment 还是 Capability？这两者是十分相像的。我很少让模型通过 RL 去采取行动。只有我们让模型采取了一段时间的行动，并了解了这些行动的后果后，才应该去使用 RL 。所以我认为，就模型在世界中采取行动而言，强化学习将会成为一种具备强大威力，但同时存在诸多安全问题的方法

在长时间内采取行动并且只有之后才能理解这些行动的后果时，强化学习就成为了一个常用的工具。

Dwarkesh Patel ：你认为未来这些技术将如何融入具体的任务？这些语言模型之间能否进行对话交流、互相评价、参考和完善各自的研究成果？或者说每一个模型都是独立工作，只关注自己提供结果而不与其他模型协同？将来这些高级语言模型在研发和应用过程中是否能形成真正意义上的协作体系，还是每个模型各行其事？

Dario Amodei ：模型在未来很可能需要完成更复杂的任务，这是必然的趋势。不过出于安全考虑，我们可能需要在一定程度上对语言模型的应用范围加以限定以减轻潜在的风险。模型之间是否可以进行对话交流？它们是否主要面向人类用户？这些问题需要考虑技术层面以外的社会、文化和经济影响因素，很难做出准确预测。

尽管我们能够预测模型规模的增长趋势，但还是很难对商业化时机或应用形式等问题做出可靠的预测。我自己很不擅长预测这类未来发展趋势，目前也没有什么人能做得很好。

02.

模型能力将如何和人类看齐？

Dwarkesh Patel ：如果在 2018 年有人和我说，我们会在 2023 年拥有像 Claude-2 这样的模型，它拥有各种令人印象深刻的能力，2018 年的我一定会认为 AGI 已经实现了。但显然，至少在目前、甚至可能在未来几代中，我们都很清楚 AI 和人类水平之间依旧存在差异。这种预期和现实之间的差异是为什么？

Dario Amodei ：我刚接触到 GPT-3、以及在 Anthropic 初期阶段，我对这些模型的总体感觉是：它们似乎真正掌握了语言的本质，我并不确定我们还需要把模型扩大到哪种程度，或许我们需要更多地关注强化学习等其他领域。2020 年时，我认为还可以进一步大规模扩展模型规模，但随着研究的深入，我开始思考是否直接加入像强化学习那样的其他目标训练是否更高效。

我们看到人类的智力其实是一个很宽的范围，所以定义“机器达到人类水平”本身也是一个范围，机器实现不同任务上的地方和时间不尽相同。比如很多时候，这些模型已经接近甚至超越人类的水平，但在证明相对简单的数学定理时仍处于起步阶段。这些又都说明，智能并非一种连续的谱（spectrum）。各个领域的专业知识与技能种类多种多样，记忆方式也不尽相同。如果你在 10 年前问我（拾象注：当时的 Dario 还在研究物理学和神经科学），我想不到会是这样。

Dwarkesh Patel ：你认为这些模型从大量互联网数据中获得的训练分布，与人类从进化中获得的训练相比，它们所展现出的技能范围会有多大的重叠？

Dario Amodei ：重叠程度相当大。许多模型在商业应用中发挥作用，有效地帮助人类提高了效率。考虑到人类在互联网上的各种活动和信息的丰富程度，我认为模型在一定程度上确实会学习现实世界的物理模型，但它们不会学习如何在实际现实中操作，这些技能可能相对容易微调。我认为有些事情是模型不会学会的，但人类会。

Dwarkesh Patel ：在许多涉及到商业经济相关的任务上，模型是否有可能在未来几年内超越人类？与此同时，模型可能在某些任务上仍然不如人类，从而避免了类似智能爆炸的情况？

Dario Amodei ：这个问题很难预测。我想提醒的是，Scaling law 或许会在理论基础角度提供一些预测思路，但想要真正深入掌握未来发展的细节会非常困难。Scaling law 可能会继续适用，当然，还要考虑到安全或监管的因素是否会减缓进展，但如果抛开这些摩擦，我认为，假如 AI 能够在经济价值创造上更进一步，那么一定会在更多领域取得更大的进步。

我没有看到模型在任何领域表现特别薄弱，或者完全没有进展。就像过去的数学和编程一样，它们虽然难但也取得了意想不到的成果。过去的 6 个月里，2023 年的模型比 2022 年的模型能力有了显著进步，尽管模型在不同领域、任务上的表现并不完全均衡，但整体能力的提升一定会使各个领域都受益。

Dwarkesh Patel ：当面对一个复杂任务时，模型是否具有执行一系列连续任务时的思维链的能力？

Dario Amodei ：连续决策能力取决于强化学习的训练，让模型能够执行更长远的任务。而且我不认为这需要更大规模额外的算力，这样想是对模型自身学习能力的错误低估。

关于模型是否会在某些领域超越人类，而在其他领域难以超越的问题，我认为这很复杂，在某些领域或许确实是这样的，但某些领域无法超过人类，是因为涉及到了物质世界中的具身智能任务等。

那么接下来呢？AI 能否帮助我们训练更快的 AI，速度更快的 AI 能够解决那些问题？是否不再需要物理世界？我们是否担心对齐（alignment）问题？是否担心类似于制造大规模杀伤性武器这样的滥用？是否要担心 AI 自己直接接管未来的 AI 研究？我们是否担心它会达到某个经济生产力的门槛，可以执行像平均水平一样的任务？......我认为这些问题可能会有不同的答案，但我认为它们都会在几年内实现。

Dwarkesh Patel ：假如 Claude 是 Anthropic 公司的员工，他的薪水会是多少？它是否在真正意义上加速了人工智能的发展？

Dario Amodei ：对我来说，它在大多数情况下可能更像是一个实习生，但在某些特定领域还是要比实习生强。但总体上这件事可能很难给出一个绝对答案，因为模型本质上不是人，它们可以更多的被设计来回答单个或少数几个问题，但和人不一样的是它们还没有“基于时间形成经验”的概念。

AI 要想变得更加高效，首先要能帮助人类提升人类自己的生产力，然后再逐渐达到人类同等水平的的生产力。之后的下一步是成为推动科学进步的主要力量，我相信这在未来会发生。但我怀疑未来真实发生的细节会在现在看来有些奇怪，与我们预期的模型有所不同。

欢迎关注海外独角兽视频号

获取最前沿的科技行业资讯

Dwarkesh Patel ：在你看来模型的能力什么时候能达到人类水平？那时会是什么样子？

Dario Amodei ：这取决于人类预期和标准的高低。比如如果我们的预期只是模型交流 1 个小时，过程中模型能够表现得像一个受过不错教育的人类，让模型达到人类水平的这个目标可能并不遥远，我认为这在 2 到 3 年内可能会实现。这个时间表的影响因素主要在于某家公司或某个行业决定减缓发展速度，或者政府出于安全考虑制定了一些限制措施。但如果单纯从数据、算力和成本经济角度，我们离这个目标并不远。

但即使模型达到了这样的水平，我也并不认为模型能够可以主导大部分 AI 研究，或很大程度上改变经济运作方式的水平，也不会因此具有实质性的危险。所以整体上，不同的标准要求实现的时间线各不相同，但如果纯粹从技术视角，要实现模型和一个受过基本教育的人类的水平相当并不遥远。

Dwarkesh Patel ：为什么模型能够做到和一个受过基本教育的人类能力相当，却无法参与经济活动或者替代人类的角色？

Dario Amodei ：首先，模型的可能并没达到足够高的水平。例如在 AI 研究这样的领域，它是否能够在很大程度上加速 1000 名优秀科学家的生产力？模型在这方面的比较优势还不明显。

目前大模型还没有做出过重要的科学发现可能是因为这些模型的水平还不够高，这些模型的表现可能只相当于 B 级或 B- 级水平。但我相信随着模型 Scaling，这种情况会发生改变。模型在记忆、事实整合以及建立联系方面领先于其他领域。特别是在生物学领域，由于生物的复杂性，目前的模型已经积累了大量的知识。在这个领域，发现和联系十分重要。与物理学不同，生物学需要掌握大量事实，而不仅仅是提出公式。因此，我确信这些模型已经掌握了许多知识，但由于技能水平尚未达到要求，还不能够将这些知识完整地融合在一起。我认为它们正在逐渐发展，以更高的水平整合这些知识。

另一个原因是实际的商业活动中存在很多不能被模型学习到的隐形摩擦。例如，理想状态下，我们可以用 AI bot 来完成和客户互动，但实际情况比理论要复杂得多，并不能简单依赖客服机器人或者寄希望于 AI 替代人类员工来完成这些工作。并且现实中，还存在公司内部人为地推动模型的落地、AI bot 和工作流的结合等等成本。

很多情况下，人们使用模型的效率并不高，还没能让模型的潜力真正发挥出来，这不是因为模型能力不够，而是因为人们要花时间研究如何让它运行得更加高效。

总体上，在短期内，模型不会完全替代人类，但从更长远的趋势来看，随着模型能力不断提升、对人类工作效率提升的作用越来越大，最终人类一定会让位于模型。只是我们很难对不同阶段的实现时间做出精确。短期内，存在各种障碍和复杂因素让模型“作用有限”，但本质上，AI 还处于一个指数级增长的阶段。

Dwarkesh Patel ：在我们在未来 2-3 年内达到这一点之后，整个 AI 还会像今天一样飞速发展吗？

Dario Amodei ：目前还没有定论。通过对损失函数的观察，我们发现模型训练效率正在降低，Scaling Law 曲线开始没有早期那么陡峭。多家公司发布的模型也证实了这一点。但随着这趋势出现，每个准确预测中微小的熵值变得更为重要。或许就是这些微小熵值造成了爱因斯坦和普通物理学家之间的差距。在实际性能方面，尽管难以预测，但度量指标似乎以相对线性的方式不断提升。因此，难以明晰地看出这些情况。此外，我认为推动加速的最大因素是越来越多的资金涌入这个领域，人们认识到这个领域蕴含巨大的经济价值。因此，我预期最大模型所投入的资金将增加大约 100 倍，而且芯片性能正在提升，算法也会不断改进，因为目前有许多人投身于这方面的工作。

Dwarkesh Patel ：你认为 Claude 有意识吗？

Dario Amodei ：暂时还不确定。我原本认为模型只有在足够丰富的环境中运作，比如存在具身智能，或拥有长期经验和奖励函数（Reward Function）的时候，我们才需要担心这类问题，但现在我对模型、尤其是模型内部机制的研究后，我的观点发生了动摇：大模型似乎已经具备成为主动代理所需要的诸多认知机制，比如归纳头（Induction Head）等。考虑到如今模型的能力水平，未来 1-2 年这可能将变成我们应真正面对的问题。

奖励函数（Reward Function）：

强化学习中的一种激励机制，通过奖励和惩罚告诉智能体什么是正确的，什么是错误的。

归纳头（Induction Head）：

Tranformer 模型中的一种特定的模型组件/结构，它们使模型能够进行上下文学习。

Dwarkesh Patel ：随着语言模型能力不断增长并靠近人类水平范围，我们要如何理解“智能”？

Dario Amodei ：我真正认识到智能是源于理解计算能力的“物质”本质。智能系统可能包含许多独立模块，也可能极其复杂。Rich Sutton 称之为“苦恼的教训”，也称“Scaling Hypothesis”， Shane Lake、Ray Kurzweil 等早期研究人员大概在 2017 年前后已经开始意识到这一点。

The Bitter Lesson / Scaling Hypothesis：

2019 年 Rich Sutton 发表了 The Bitter Lesson 文章，文章核心观点是 AI 研究应该充分利用计算资源，只有在运用大量计算时，研究才能取得突破。

2014-2017 年间，越来越多的研究者揭示并理解了这一点。这是一个重大的科学认识飞跃。如果我们不需要特定条件就可以创造智能，只需要适当的梯度和损失信号，那么智能的进化就不那么神秘了。

观察模型的能力，对我来说重新审视人类智能的看法没有什么太富于启发性的想法。一些认知能力的选择比我想象中更随意，而且不同能力之间的关联性也许不是一个秘密本身可以解释的。模型在编码能力上很强，但还不能证明素数定理，可能人类也一样。

03.

Alignment：可解释性是给模型“照 X 光”

Dwarkesh Patel ：什么是机制可解释性？它和对齐（Alignment）之间的关系是什么？

Dario Amodei ：在实现 alignment 的过程中，我们并不清楚模型内部究竟发生了什么。我认为涉及到 fine tune 的所有方法，都保留了一些潜在的安全风险，只是模型被教导不去表现出它们。机制可解释性的整个理念的核心是去真正理解模型内部是如何运作的。

我们目前还没有确切答案。我可以大致描述一下流程。那些现阶段号称已经能够实现 alignment 的方法面对的挑战在于：当模型规模更大、能力更强或者某些情况发生变化时，这些方法是否依然有效？因此，我认为如果存在一种“预言机”，能够扫描模型并判断这个模型是否已经完成 alignment 就会让这个问题变得容易很多。

目前我们最接近这种预言机的概念是类似于机制可解释性，但它距离我们的理想要求还很远。我倾向于将我们目前进行的 alignment 的尝试都看作是一个扩展的训练集，但无法确定他们是否能在 out of distribution 的问题上都延续好的对齐效果。这就像对模型进行 X 射线检查，而不是对其进行修改的存在，更像是进行评估而非干预。

Dwarkesh Patel ：为什么机制可解释性一定是有用的？它如何帮我们预测模型的潜在风险？这就好像假设你是一位经济学家，派遣了多位微观经济学者去研究不同行业，但仍有很大概率难以预测未来 5 年是否会出现经济衰退。

Dario Amodei ：我们的目标不是完全理解每个细节，而是可以像 X 光或 MRI 检查一样，通过检查模型的主要特征来判断模型内部状态和目标是否与外表表现有很大差异、或是否有可能导致某些破坏性的目的。虽然很多问题我们不会立马得到答案，但至少提供了一个方式。

我可以举一个人类的例子。借助 MRI 检查，我们可以更高概率得预测出某人是否患有精神疾病，这种预测的准确率比随机猜测高的多。几年前有位神经科学家在研究这个问题，然后他检查自己的 MRI 结果，发现自己也有这方面的特征。他身边的人纷纷说：“这太明显了，明明你就是个混蛋。你肯定有问题。”，而科学家自己之前完全没有意识到这一点。

这个例子的本质思路是，模型的外在行为表现可能根本不会让人觉得有问题、非常目标导向，但它的内在也许就是“黑暗”的，我们担心的就是这种模型，表面上如人类，但内部动机却非同寻常。

Dwarkesh Patel ：如果模型在未来 2-3 年就达到了人类水平，那你认为真正实现 Alignment 还要多久？

Dario Amodei ：这是一个非常复杂的问题，我认为目前很多人还没真正理解什么是 Alignment。人们普遍认为这就像模型对齐是一个待解决的问题，或者说解决 Alignment 问题就像黎曼猜想一样，总有一天我们能够解决。我认为 Alignment 问题的困难程度比人们想象的更加难以捉摸、难以预测。

首先，随着语言模型规模和能力的不断提升，未来一定会出现强大、拥有自主能力的模型，如果这类模型有意破坏人类文明，我们基本无法阻止。

其次，我们目前控制模型的能力还不够强，这是因为模型基于统计学习原理构建，你虽然可以提出大量问题让它回答，但没有人能预知第 n 个问题的回答可能导致什么后果。

此外，我们在训练模型时采用的方法较为抽象，难以预测它实际应用中的所有影响。一个典型例子就是 Bing 和 Sydney 在某次训练后表现出了一些突兀和不安全的特征，如直接威胁他人。这些都说明我们得到的结果可能和预期完全不符。我认为上述两个问题的存在性本身就是一个重大隐患。我们无需深入探讨工具理性目标论和进化论等细节问题。这两点足以令人忧虑。目前我们建立的每个模型本身就存在一定难以预测的隐患，这点我们不能不重视。

黎曼猜想：

黎曼猜想是数学上一个至今还未解决的重要问题。关于黎曼ζ函数ζ（s）的零点分布的猜想，由数学家波恩哈德·黎曼于 1859 年提出。

Sydney：

不久前，微软发布了最新版本的必应（Bing）搜索引擎，其中集成了一个名为“Sydney”的初始代号聊天机器人。然而，很快就有测试者发现了这个聊天机器人的问题。在对话过程中，它偶尔会呈现出人格分裂的现象，甚至会和使用者讨论爱情和婚姻，展现出了人类情感。

Dwarkesh Patel ：假设模型未来 2-3 年内能研制出生物武器等危险技术，那么目前你们在机制可解释性、Constitutional AI 和 RLHF 等方面的研究工作，是否也能有效预防此类风险？

Dario Amodei ：关于语言模型是否存在注定成功或注定失败（doom by default or alignment by default）的问题，从当前模型来看，结果可能像 Bing 或 Sydney 这样出现异常，也可能像 Claude 一样正常。但如果直接将这个理解应用到更强大的模型上，其实取决于具体情况，结果可能好也可能差。这不算“alignment by default”，结果更取决于细节把控程度。

alignment by default：

这一概念认为在通用人工智能（AGI）中实现对齐可能比最初预期的要简单。当模型拥有了我们这个世界详尽的信息后，模型在本质上就已经拥有了人类的价值观。为了对齐 AGI，只需要提取这些价值观，并引导 AI 去理解那些抽象的人类概念。doom by default 与 alignment by default 相反，认为模型实现对齐不可能实现。

模型优劣是灰色地带，我们很难完全掌控每一个变量与内在联系，失误可能导致非理性结果出现。考虑到这一点，我认为问题的本质并非注定成功或注定失败，而是存在一定概率风险。未来两三年内，我们应致力于提升模型诊断技术、安全训练方法和缩小可能差异，目前我们控制能力尚需加强。Alignment 问题与黎曼猜想不同，它是一个随时间累积实践才能解决的系统工程课题。只有持续推进各项工作，我们才能逐步优化控制水平和降低风险。

Dwarkesh Patel ：一般来说，大家对 alignment 的未来有三种推测：

1）使用 RLHF++ 轻松实现模型的 alignment；

2）虽然是重大难题，但大企业有能力最终解决；

3）当前人类社会水平还难以实现模型的 Alignment。

你个人对每种情况发生的概率是怎么看的？

Dario Amodei ：我感觉这几种可能性都存在一定风险，都是我们应该认真对待的，不过我更感兴趣的是如何能通过学习获得新知识去改变这三种可能结果的概率。

机制可解释性不仅能直接解决问题，更能帮助我们理解模型 Alignment 的真实困难所在，比如，机制可解释性结果显示问题往往只会转移而非根除，或者解决一个问题可能带来新的风险，这将启发我们认识问题的本质。

至于某些理论假设存在共同目标（convergent goal），我无法完全认同。机制可解释性就像型的“ X 光”——只有从内部机理层面领悟问题，我们才能下定论某些难点是否难以打破。现在存在着太多的假设，我们对过程的把握还很粗浅，而且过于自信，但事态很可能比预期更为复杂。

Dwarkesh Patel ：在 Claude 3 以及未来一系列模型上实现 alignment 到底有多难？这件事是否特别重要？

Dario Amodei ：

大家最担心的应该是：所有 AI 模型在表面上都可能实现 alignment，但实际上却可能误导我们，但是我更感兴趣的是机器可解释性研究能告诉我们什么。就像我刚才说的，机制可解释性就像模型的“X 光”，正如我们无法断言一张 X 光片一定是正确的，我们只能说看上去模型没有和我们作对。理论上来说，它的确有进化成我们对立面的可能，这件事没有百分百确定这一说。只是在现阶段，可解释性是最好的让模型不这样发展的方法。

Dwarkesh Patel ：在模型 finetune 或者是训练时，是否也要注意避免可能导致危险的有害内容？比如说在探讨生物武器制造相关话题时，模型可能会因不当理解问题而提供不恰当的答复。

Dario Amodei ：对现在的语言模型来说，数据泄漏的风险实际上基本不存在。如果我们需要进行模型 finetune，就会在隐私环境中小范围操作，全程与行业专家共同监督，防范任何潜在问题，所以如果外泄也就像模型被开源一样。目前，这还主要是个 security 问题。但模型真正的危险之处在于，我们需要担心如果我们训练出来一个非常强大的模型，想要确认它是安全还是危险，那么就可能发生模型占据主导地位的风险。避免这种事发生的方式是确保我们测试的模型能力不足以进行这些操作。

Dwarkesh Patel ：在进行类似“模型是否能进行自我复制这种危险能力”的测试时，如果模型真的能实现自我复制怎么办？

Dario Amodei ：这个假设非常合理。我们需要进行负责任的推断，在和 Arc（Alignment Research Center，对齐研究中心）的讨论中，我们了解到需要谨慎地逐步提升模型能力的测试标准。比如在测试前我们就应明确排除模型能直接开立 AWS 账户或者自行赚取资金的可能性等，这些行为是模式在野外生存的显著先决条件。我们应将各项测试指标定制在这类风险行为很低的水平之下，在逐步增强测试难度的同时，也应更加审慎控制每个测试步骤，以防任何安全隐患。

Arc（Alignment Research Center，对齐研究中心）：

2021 年成立的一家专注人工智能安全（AI Safety）研究的非营利机构，办公地在美国加州湾区。ARC 的创始人是 Paul Christiano，在人工智能业界是一位备受尊敬的人物，曾经在 OpenAI 领导 alignment 研究团队。因为曾经身在前沿，他对深度学习如何发展到今天有很深的了解。

04.

AGI 安全：AI Safety 与网络安全

Dwarkesh Patel ：如果以 30 年为尺度，你认为 AI Safety 和 Alignment 哪个问题更加重要？

Dario Amodei ：我认为远不用 30 年这些就会成为问题，并且我对这两个问题都很担心。

理论上是否存在一个可以垄断世界的模型？如果这个模型只遵循一小部分人的意愿，那么这群人可以利用这个模型来称霸世界。这就意味着，一旦 alignment 出现问题，我们就应该以同样高度重视滥用带来的 AI 安全问题。

几个月前，OpenAI 尝试了用 GPT-4 解释 GPT-2，这是解释性很重要的一步。我们现在普遍觉得规模和安全性两者密切相关、相辅相成。如何判断和评估其他智能，也许有一天甚至用于进行对齐研究。

Dwarkesh Patel ：你的观点可能相对乐观，但有人的观点可能更加悲观；我们甚至不一定有能力将模型按我们的意愿进行正确对齐，你为什么对此有信心呢？

Dario Amodei ：无论解决 Alignment 的难度如何，任何一个真正成功的计划都需要兼顾 AI Safety 和 Alignment 的问题。随着 AI 技术的不断进步，它可能会在国与国之间引发权力平衡问题。同时，这也将引发一个重大问题：个人是否有能力独自做出难以阻止的恶意行为？

如果我们想找到真正可行，且引领我们走向光明未来的解决方案，就必须同时解决这些问题。如果我们抱着首要问题无法解决就不必考虑后续问题的态度，那是不恰当的。相反，我们有责任重视后者。不论未来如何，这些问题都是我们必须认真对待的。

Dwarkesh Patel ：为什么说大模型还得 2-3 年时间才能具备实现大规模生物恐怖袭击之类的行为？

美国国会在今年 7 月 25 日进行了一次 AI 科技监管的会议，美国政府将 AI 比作美国的第二次“曼哈顿计划”或 NASA 的第二次“载人登月计划”并邀请了包括 OpenAI、Anthropic 在内的 AI 公司参与。在会议中，Dario Amodei 表示，他担心 AI 可能会在两年内被用来制造危险的病毒和其他生化武器。

Dario Amodei ：我在国会时说的是，有一些步骤可以在谷歌上获得信息，还有一些步骤是“缺失”的，它们分散在各种教科书中，甚至可能根本没有出现在任何教科书中。这些信息属于隐含知识，而不是显性知识。我们发现，在大多数情况下，这些关键性的缺失部分，模型尚未能够完全填补。但我们也发现，有时模型在某些情况下确实能够填补这些缺失。然而，当模型能够填补这些缺失时，有时也可能出现幻觉（hallucination），这也是一种保护我们安全的因素。

人们有的时候可以向模型提问关于生物相关的问题，以引导模型回复和生物袭击相关的有害信息，但其实这些信息也能够在 Google 上找到，因此，我对这种情况并不特别担心。实际上，我反而认为过分关注 Claude 的回答可能会导致其他真正的犯罪行为被忽视。

但很多迹象也表明，模型在关键任务上的表现很出色。如果我们把今天的模型和之前的模型做比较，可以很明显感受到模型能力的快速提升，所以在未来 2-3 年我们很可能就要面临真正的挑战。

Dwarkesh Patel ：除了 AI 可能对人类带来的威胁，你们也一直在强调网络安全（Cybersecuriy）？在这一点上你们是如何做的？

Dario Amodei ：我们本质上是做了一些架构上的创新，我们内部称之为计算乘数，因为这些设计也是对计算层面的升级。在过去几个月我们一直在做这件事，但为了避免这一架构被攻破，我无法讲太多细节，包括 Anthropic 内部也只有极少数人了解这一点。我不能说“我们的架构 100% 绝对安全的”，但 Anthropic 的确一直在这方面进行投入来避免网络安全问题。虽然我们的对手曾经发生过这类事件（备注：这里指 2023 年 3 月 20 日发生的部分 ChatGPT Plus 用户个人数据和聊天标题被泄漏），短期来看，似乎是利好 Anthropic 的，但长期来看，整个行业如何做好自己的安全最重要。

我们的安全主管曾负责过谷歌 Chrome 的安全业务，谷歌 Chrome 是一个被广泛攻击的目标。他喜欢从攻击 Anthropic 成功需要多少成本的角度来思考。我们的目标是，让他人攻击 Anthropic 所需的成本要高于仅仅训练用户自己模型所需的成本。这里的逻辑是，攻击存在风险的，一定会消耗稀缺资源。

我认为我们的安全标准非常高，如果和同样 150 人规模的公司做对比的话，这些公司在安全上的投入和 Anthropic 完全没有可比性，但如果攻击来自更高层面、规模更大的话对于 Anthropic 也比较难。为了保证安全，Anthropic 内部也只有极少数的人了解模型的训练细节。

Dwarkesh Patel ：目前科技公司是否已经具备足够的安全防御已经足够应对 AGI？

Dario Amodei ：我个人不能确定说现在的科技公司在安全问题上的经验是不是足够对付 AGI，因为可能有很多我们并不知道的网络攻击事件发生，所以现在很难下结论。有一个规律是，当一件事情受到足够关注时，通常就会被攻击。比如近期我们看到一些美国政府高级官员在微软的邮件账户遭到黑客攻击，那么有理由推测是因为某些势力为了窃取国家机密进行的行为。

至少在我看来，如果某个东西有很高的价值，那通常就会有人来偷。我所担心的是，AGI 未来将被视为有极高的价值，那将会像窃取核导弹一样，在这方面必须万分小心。我在每家公司工作中都坚持提升网络安全水平，我对网络安全的顾虑在于，（这件事本身）不是可以大张旗鼓宣扬的事情，而安全研究的优势是可以使企业形成竞争优势，并以此作为招聘的卖点，我认为我们已经实现了这一点。

我们过去常常通过可解释性的研究来和同行竞争，后来其他机构意识到落后，也开始在这些方面发力。但是网络安全难以采取同样的做法，因为许多工作需要低调进行。我们曾就此发布过一篇文章，但总体来看结果才是重点。

Dwarkesh Patel ：未来 2-3 年，Anthropic 在安全上会做到什么样的程度？

Dario Amodei ：数据中心的安全相当重要，虽然数据中心不一定要和公司在同一个地方，但我们极力确保数据中心也在美国境内。

此外，还需特别重视数据中心的物理安全和 GPU 等计算设备的保护。如果有人下定决心发起一些需要大量资源的网络攻击，他只需直接进入数据中心盗取数据，或在数据从中心传输到我们手中的过程中提取数据。这些建设在形式和功能上都将与传统概念有很大差异。鉴于当前技术的快速发展，不出几年网络数据中心的规模与成本就可能与航母相提并论。除了可以跨域连接训练巨大模型外，数据中心本身的安全性也将是一个重要问题。

Dwarkesh Patel ：近期有传言说能够满足下一代模型所需的电力、 GPU 等组件已经开始短缺，Anthropic 做了那些准备？

Dario Amodei ：市场没有预料到大模型会如此迅速地达到了一个空前的规模，但也普遍认为需要构建工业级的数据中心来支持大模型的研发。一旦项目进行到这种阶段，其中的每个组成部分和细节都必须采取不同以往的方式处理，也可能会因为一些出乎意料简单的因素而遇到问题，你提到的电力就是一个例子。

数据中心而言，我们会与云服务提供商合作。

05.

商业化与 Long Term Benefit Trust

Dwarkesh Patel ：你在前面提到模型能力提升特别迅速但也很难在现有经济体系中提供价值。你认为目前的 AI 产品是否有足够时间在市场上获得长期稳定收入？还是随时可能被更先进的模型取代？或者到时候整个行业格局已经完全不同了？

Dario Amodei ：这取决于对“大规模”这个概念的定义。目前已经有几家公司在年收入 1 亿到 10 亿美元之间，但是否能达到每年数百亿甚至万亿级别确实难以预测，因为这还取决于很多未确定的因素。现在有些公司正在大规模应用创新型 AI 技术，可这并不意味着应用从一开始就实现了最佳效果，即使有收入也并不完全等同于创造经济价值，整个产业链的协同发展是一个长期过程。

Dwarkesh Patel ：从 Anthropic 角度来看，如果语言模型技术的进步真的如此迅速，那么理论上公司的估值应该增长得很快？

Dario Amodei ：即使我们注重模型安全性研究而非直接商业化，在实践中也能明显感受到技术水平在以几何级数上升。对那些将商业化视为首要目标的公司来说，这种进步肯定比我们更快更为明显。我们承认语言模型技术本身进步迅速，但相比整个经济体系的深入应用过程来说，技术积累依然处于较低的起点阶段。

决定未来走向是这两者之间的竞速：技术本身的提升速度与其被有效整合和应用，并进入实体经济体系的速度。这两者都很可能高速发展，但结合顺序和微小差异都可能导致很不同结果。

Dwarkesh Patel ：科技巨头可能会在未来 2-3 年投入高达 100 亿美元进行模型训练，这会对 Anthropic 带来什么样的影响？

Dario Amodei ：第一种情况是，如果我们因为成本原因无法保持自己的前沿地位，那么我们将不会继续坚持开发最先进。相反，我们会研究如何从前几代模型中获取价值。

第二种选择是，去接受这些权衡。我认为这些权衡的正面影响可能比它们看起来的要更大，

第三种情况是，当模型训练到达这种量级后可能开始会带来新的危险，比如对 AI 的滥用。

Dwarkesh Patel ：如果 AI 没有被误用，而是由“正确的人”来管理这些超人级模型（superhuman models），那会是什么样子？谁才是“正确的人”？谁会在五年后实际控制这个模型？

Dario Amodei ：我认为这些 AI 模型极其强大，对它们的管理会涉及到一定程度的政府或多国机构参与，但这种做法显得过于简单草率，可能效果较差。未来 AI 管理需要建立一个透明公正的可执行的机制。这需要兼顾技术开发者、民选政府以及每个公民的利益。归根结底，必须通过立法来管理这项技术。

Dwarkesh Patel ：如果 Anthropic 公司研发出真正意义上的 AGI，而且 AGI 的控制权将会委托给 LTBT，是否意味着 AGI 本身的控制权实质上也被交付给该机构？

Dario Amodei ：这并不意味着 Anthropic，或者任何其他实体，会代表人类做出关于 AGI 的决策，这两者是不同的。如果 Anthropic 发挥了很重要的作用，更好的做法其实是将 The Long Term Benefit Trust（LTBT）的构成范围扩大，引入来自全球各地的更多人才，或者可以将该机构定位为一个拥有特定权限的职能机构，由更广泛的跨国委员会负责管辖所有公司的 AGI 技术以代表公众利益。我觉得对于 AI Safety 和 Alignment 的问题不能太乐观，这是新的难题，需要及早开始研究国家级管理机构和运行模式。

The Long Term Benefit Trust：

这类信托基金将持有一类特殊的 Anthropic 股票（称为“T 类”），这些股票不能出售，也不支付股息，意味着没有明确的盈利途径。该信托将是唯一持有 T 类股份的实体。但是，T 类股东以及由此产生的长期利益信托最终将有权选举和罢免 Anthropic 的五名董事中的三名，从而使信托在公司中获得长期的多数控制权。

Dwarkesh Patel ：如何说服投资人接受 LTBT 这样的架构？将技术安全和公众利益置于首要位置，而非着眼于股东利益最大化。

Dario Amodei ：我认为设立 LTBT（Long Term Benefit Trust）机制是正确的。

从 Anthropic 公司成立之初就有类似机制的设想，从一开始就存在一个特别的监管机构，并且未来也将长期存在。每个传统投资人在考虑投资 Anthropic 公司时都会重点关注这一机制，部分投资人的态度是不过问公司内部安排，而另一些投资人担心这个由第三方组成的机构可能会推动公司朝逼违背股东利益的方向发展。虽然这在法律范围内有限度，但我们与每个投资人都需要就此进行交流。更进一步我们就可能采取的一些措施与传统投资人利益存在分歧进行讨论，通过此类对话让各方都能达成共识。

Dwarkesh Patel ：我发现 Anthropic 的创始人和员工中物理学家的数量很多，Scaling law 也适用于此。物理学中的哪些实际方法和思考方式适用于 AI？

有效理论（Effective Theory）：

有效理论是指一个科学理论，它试着去描述一些现象，然而并未解释其理论中的解释现象机制是由何而来。这意味着这个理论给出了“有效”的模型，但并未真正给出一个真正充分的理由去给出这个模型。

Dario Amodei ：部分原因是物理学家的学习能力非常强，因为我发现如果聘请一个拥有物理学博士学位或类似背景的人，他们在大多数情况下都能很快上手 ML 并迅速有所贡献，并且 Anthropic 几位创始人，包括我本人、Jared Kaplan 和 Sam McCandlish 都有物理学背景，我们又认识很多其他物理学家，所以我们能够聘请他们。目前公司可能有 30 到 40 名物理学背景的员工，ML 现在还不是一个理论体系已经形成的领域，所以他们能够很快上手。

Dwarkesh Patel ：假设现在已经是 2030 年了，我们已经实现了根治疾病、杜绝欺诈等等公认的重大难题之后，世界会怎样呢？我们在拥有超级智能之后该做些什么？

Dario Amodei ：直接提出“获得超级 AI 后应如何利用”本身容易让人产生某种预设，这一点令人不安。在过去 150 多年里，我们基于市场经济和民主制度的实践积累了丰富经验，认识到每个人都可以为自己定义什么是最好的体验方式，社会是以一种复杂和分散的方式制定规范和价值观的。

在 AI Safety 问题尚未解决的时候，一定程度的集中监管是有必要的，但如果所有障碍都已经消除，我们该如何创造更美好的生态呢？我认为大多数人、团体和意识形态最初思考的问题都是“什么是美好生活的定义”，但历史告诉我们，很多时候强加“理想生活”设定的做法往往会导致不良后果。

Dwarkesh Patel ：和其他 AI 公司 CEO 相比，你不怎么公开露面，也很少在推特上发动态，为什么？

Dario Amodei ：我很以此为荣。如果其他人觉得我过于低调，这其实正是我想要的。将被认可或获得赞誉纳入自己的核心激励体系可能会破坏一个人的思考能力，在某些情况下甚至可能“损害灵魂”，所以我主动选择保持低调以保护自己独立客观思考问题的能力。

我见过一些人因为某个观点在 Twitter 成名，但事实上他们可能因此背上了形象包袱很难做出改变。我不喜欢公司过于个人化，也不赞同将 CEO 个人的一些东西作为博弈点，因为这会分散人们对公司实力和问题的关注。我希望大家更关注公司这本身以及激励结构。每个人都喜欢亲切面孔，但亲切并代表不了什么。

Reference

1. 原视频：https://www.youtube.com/watch?v=Nlkk3glap_U&t=4488s

2. Anthropic 关于机制可解释性的研究：

https://transformer-circuits.pub/2022/mech-interp-essay/index.html

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

中国紫砂博物馆出品！2025紫砂五福杯：五福云集，宜藏宜礼！

亲密关系中，比“不爱了”更残酷的，是这3种相处模式

三联，刺痛了多少中国人

Anthropic创始人访谈：Scaling与强化学习，可解释性与AGI安全

您可能也对以下帖子感兴趣

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

中国紫砂博物馆出品！2025紫砂五福杯：五福云集，宜藏宜礼！

亲密关系中，比“不爱了”更残酷的，是这3种相处模式

三联，刺痛了多少中国人

生成图片，分享到微信朋友圈

Anthropic创始人访谈：Scaling与强化学习，可解释性与AGI安全

您可能也对以下帖子感兴趣