Ilya Sutskever:你会 bet against AI 吗?
纵观 Ilya 的历年访谈,他常用一以贯之的反问句式——“你会bet against XX 吗”,来表达他的“相信”。
2012年,你会bet against Deep Learning吗?
2017年,你会bet against Transformer吗?
2019年,你会bet against Self-supervised Learning吗?
而2023年,他问的是,你会bet against AI吗?
于我看来,这个反问正是他对AGI强烈的信念。
问题是,will you?
文章目录
1.距AGI还有多远;
2.生成式模型之后会是什么范式?
3.数据、模型和研究;
4.「对齐」的路径;
5.后AGI时代;
6.新思路被高估了;
7.模型成本;
8.进化是不可避免的吗?
9.未来的突破。
以下是访谈内容:
01
距AGI还有多远
Dwarkesh Patel :今天很荣幸采访到 OpenAI 的联合创始人兼首席科学家 Ilya Sutskever。Ilya,欢迎来到 Lunar Society。
Dwarkesh Patel :明白了。它们将在技术上成熟,问题是它们是否足够可靠。
Ilya Sutskever:从某种意义上说,不可靠就意味着技术不成熟。
02
生成式模型之后会是什么范式?
Dwarkesh Patel :生成式模型之后会是什么范式呢?之前你一直在研究强化学习,你认为这就是实现 AGI 的范式吗?或者在这之后还会有什么?
Ilya Sutskever:我认为生成式模型的范式还会走得很远,我不会低估它的潜力。但这种确切的范式,也可能不完全是实现 AGI 的唯一方法。
我很难准确地说出下一个范式将是什么,但它可能涉及整合所有过去出现的不同想法。
Dwarkesh Patel :所以你可以认为,下一个对token的预测只能帮助我们更匹配人类的表现,而不是超越他?那要怎样才能超越人类的表现?
Ilya Sutskever:我对下一个对token的预测不能超越人类表现的说法提出质疑。从表面来看,如果你只是学会了模仿,预测别人会做什么,这意味着你只能复制人类。但这里有一个反驳的论点,来说明为什么不是这样的。如果你的基础神经网络足够聪明,你只需要问它——一个有伟大洞察力的、有智慧和能力的人会做什么?也许这样的人并不存在,但神经网络很有可能会推断出这样的人具有哪些特征、如何行动。
Dwarkesh Patel :关于回答这个“拥有伟大智慧的人会做什么”的问题,他的洞察力从哪里获得呢?如果不是来自……
Ilya Sutskever:就来自普通人的数据。你仔细想想,足够准确地预测下一个 token 意味着什么?这实际上是一个仅从表面上看要深刻得多的问题。如果模型可以很好地预测下一个 token,就意味着(模型)拥有在理解问题(基础上)创建 token 这项能力的潜在现实。
这涉及统计学,但也不仅仅是统计学。统计学是什么?模型为了理解这些统计数据并压缩它们,需要先理解创建这些统计数据的世界本质。因此,可以说我有所有这些人的数据,并基于此去预测 token 给出回答。
是什么使人产生这些行为?他们有思想和情感,他们有想法,并以某些方式去做事。所有这些都可以从对下一个 token 的预测中推导出来。我认为这应该使得这种预测在一定程度上成为可能,虽然不是无限的。例如,你可以尝试猜测一个具有如此特征的人会怎么做。虽然这样的人不存在,但是因为你很擅长预测下一个token,你仍然能够猜到这个具有远超我们智力的人会做什么。
Dwarkesh Patel :当我们在这些模型上进行强化学习时,大概多久之后,大部分强化学习的数据都将来自于 AI,而不是来自人类?
Ilya Sutskever:已经有了大部分默认的强化学习来自AI。人类的作用只是被用于训练奖励函数。但是,奖励函数及其与模型的交互是自动的,并且在强化学习过程中生成的所有数据都是由 AI 创建的。如果你看看当前的技术或范式,它因 ChatGPT 而受到一些重视,都是从人类反馈中进行强化学习(RLHF)。人类反馈已用于训练奖励函数,然后奖励函数被用来创建训练模型的数据。
Dwarkesh Patel :明白了。有没有希望只是去掉人类的干预,像 AlphaGo 一样自我改进?
Ilya Sutskever:当然可以。你真正想要的是让教 AI 的人与 AI 合作。你把它看作是在人类教师只做 1% 的工作, 而AI做 99% 的工作的世界里。但你不希望它是100%的AI,但你确实希望它会是一个人机协作,且可以据此去教下一个机器。
Dwarkesh Patel :我曾经尝试过这些模型,但似乎都不太擅长多步骤的推理。虽然他们正在变得越来越好,但要真正超越这个障碍需要做什么呢?
Ilya Sutskever:我认为专门的训练以及对基础模型的不断改进,将使我们达到这一目标。但从根本上说,我也不觉得现在他们在多步推理方面很糟糕。事实上,我认为当 AI 不被允许大胆、放飞思考时,就不擅长多步推理。但当 AI 可以大胆地思考时,他们的能力表现通常都很好。我期待通过更好的模型和特殊的训练,让 AI 在方面有更多显著改善。
03
数据、模型和研究
Dwarkesh Patel :网上的训练数据是否已经快被用光了?现在数量够吗?
Ilya Sutskever:关于这个问题,我之前看到有一些人表示“训练模型一定会在某个时刻,用完所有 tokens ”。
对此我表示赞同,我也认为这一天会发生,到那时,我们就需要其他方法来训练模型,通过一些其他方法来有效地提高 AI 的能力并锐化其行为,确保AI正在做你想要的事情,而不是需要更多的数据去训练。
Dwarkesh Patel :你还没有用尽数据吗?还有更多数据吗?
Ilya Sutskever:是的,我想说目前的数据状况仍然很好,还有很多事情可以做。但总有一天,这些数据会用尽。
Dwarkesh Patel :最有价值的数据来源是什么?是 Reddit、Twitter 还是书籍?你会在哪里训练其他种类的 tokens 呢?
Ilya Sutskever:一般来说,你会喜欢 token 表现的更聪明、更有趣。你刚刚提到的所有来源对模型训练都很有价值。
Dwarkesh Patel :所以模型训练数据也不仅是来源于 Twitter 。但是如果我们想要实现多模态大模型,会需要更多的 token 吗?或者说我们还有足够的 token ?
Ilya Sutskever:我认为,仅在纯文本基础上仍有很多待挖掘的机会,但多模态似乎是一个非常富有成效的方向。
Dwarkesh Patel :如果你愿意,我想问一下“现在我们还没有触及到的地方在哪里”?
Ilya Sutskever:显然,我不能仅从我们的对话去回答这个问题,但我相信对每个人来说,这个问题都有不同的答案。
Dwarkesh Patel :如果仅改进算法,而非从规模或数据角度出发,模型可以获得多少个数量级的提高?
Ilya Sutskever:这很难回答,但我相信会有一些提高。
Dwarkesh Patel :是很多还是少数?
Ilya Sutskever:只有一个办法能知道(实践)。
Dwarkesh Patel :好的。让我来听听你对这些不同研究方向的看法。你怎么看 Retrieval Transformers 这种,以某种方式将数据存储在模型本身之外,并以某种方式检索数据。
Ilya Sutskever:似乎有希望,也是一种方向。
Dwarkesh Patel :但你认为这是一条前进的道路吗?
Ilya Sutskever:这看起来很有希望。
Dwarkesh Patel :关于机器人技术,你认为 OpenAI 放弃这一做法是正确的吗?
Ilya Sutskever:是的。在那时候我们真的不可能继续研究机器人,因为数据太少了。当时,如果你想从事机器人领域的工作,你需要先成为一家专注于机器人的公司。并且需要一个庞大的团队来建造和维护机器人。
如果你有100个机器人,这已经是一个巨大的操作,但即使这样,你也不会得到那么多的数据。因此,在一个大多数进步都来自计算和数据结合的世界里,机器人技术是没有获得数据的途径。所以回看过去,当我们决定停止在机器人领域的工作时,也是因为做机器人确实看不到任何希望。
Dwarkesh Patel :现在做机器人,有希望吗?
Ilya Sutskever:我想说,现在有可能会开辟一条新的前进道路,但人们需要真正致力于机器人技术的任务,而非想象。你真的需要有决心——建造数千、数万、数十万的机器人,并以某种方式从它们身上收集数据,然后得到的数据被用来训练模型,基于此找到一个渐进的路径,让机器人做一些更有用的事情。
你可以想象这是一条逐渐改进的道路,你制造更多的机器人,它们做更多的事情,你收集更多的数据等。但你真的需要坚持这条路。如果你说,我想让机器人技术发生,这就是你需要做的。我相信有些公司正在这么做。但你需要真正热爱机器人,需要真正愿意解决与它们打交道的所有物理和后勤问题。这和软件完全不一样。我认为在今天,只要有足够的动力,就可以在机器人领域取得进步。
Dwarkesh Patel :有哪些想法是你很想尝试,但因为当前硬件受限而无法尝试的?
Ilya Sutskever:我不认为目前的硬件是一个限制。
Dwarkesh Patel :明白了。但不管你想尝试什么,你都可以把它运转起来?
Ilya Sutskever:当然可以。你可能希望当前的硬件更便宜,或者如果它有更高的内存处理带宽就会更好。但总的来说,硬件不是问题。
04
「对齐」的路径
Dwarkesh Patel :让我们来谈谈对齐。你认为我们会有数学定义的「对齐」吗?
Ilya Sutskever:用数学上定义「对齐」是不可能的。相比于用数学定义,我们将实现从不同方面看待「对齐」定义。这就是我们在训练模型时,如何得到我们想要的保证。我想说的是,你可以观察AI在各种测试中的行为、一致性,以及在各种对抗压力情况下的行为,你还可以从内部观察神经网络是如何运作的。所有这些因素都必须同时考虑。
Dwarkesh Patel :在你准备发布一个模型之前,你需要有多大把握?100% ?95% ?
Ilya Sutskever:这取决于模型的能力。模型的能力越强,我们就越需要信心。
Dwarkesh Patel :好吧,假设现在几乎逼近了 AGI 。你认为 AGI 在哪里?
Ilya Sutskever:这取决于你认为 AGI 能做什么。 AGI 只是一个抽象模糊的术语。我们认为一般的大学本科生就是 AGI 了。
Dwarkesh Patel :你之前提到了一些通往「对齐」的路径,你认为目前最有希望的是哪一条?
Ilya Sutskever:我认为这将是一个组合。我真的不认为只有一种方法,人们通常都会希望有多种方法的组合。很多时候,你花了大量的计算来找出你想教的行为,但最终它表现出来的行为与你期待的不匹配。因此,我们会用另一个神经网络来研究这个神经网络,以了解它在内部是如何运作的。所有这些都是必要的。所有这些方法都减少了模型错位的可能性。你也想处在这样一个世界:你的对齐程度的增长速度超过了模型的能力。
Dwarkesh Patel :我们今天了解模型的方法是否适用于实际应用时的超大模型?或者它们的适用性如何?它们能否在这些模型上起作用?
Ilya Sutskever:这并不能保证。我想说,现在,我们对模型的理解还很初级。我们已经取得了一些进展,但还有可能取得更大的进展。所以我认为最终,真正成功的事情是当我们有了一个被充分理解的小型神经网络,它能够被赋予研究一个未被人类理解的大型神经网络行为的任务,来验证我们的理解。
Dwarkesh Patel :到什么时候,大多数 AI 研究都会由 AI 完成?
Ilya Sutskever:今天当你使用 CoPilot 时,你如何给它布置任务?所以我预计在某个时候你会问你的 ChatGPT 的后代,你会说——嘿,我在想做这个和那个。你能给我一些有成效的建议吗?实际上你会得到富有成效的想法。但我不认为这能解决以前解决不了的问题。
Dwarkesh Patel :明白了。但这只是让AI更快地为人类提供想法,它本身并不与研究相互作用?
Ilya Sutskever:你所说的只是一个例子。你可以用很多种方法来解释。但瓶颈在于我们需要的是好的想法和好的洞见,而这正是神经网络可以帮助我们的地方。
Dwarkesh Patel :如果你正在为某种对齐研究结果或产品设计一个10亿美元的奖项,你会为这个10亿美元的奖项设定什么具体的标准?这样的奖项有什么意义吗?
Ilya Sutskever:你问的很有趣,其实我也在想这个问题。我还没有提出确切的标准。也许我们可以在两年、三年或五年之后说,这就是我们的主要成果。因此,与其说有一个奖项委员会立即决定,不如等上五年,然后追溯颁发。
Dwarkesh Patel :但在你解决这个问题的过程中,我们没有具体的东西可以确定,你已经取得了很大的进展吗?
Ilya Sutskever:是的,目前已经取得了很大的进步,但我不会说这就是全部。
Dwarkesh Patel :随着模型越来越大,你认为端到端的训练是一个正确的训练架构吗?或者我们是否需要更好的方法将事物连接在一起?
Ilya Sutskever:端到端的训练和将事物连接在一起,两者都很有前景。
Dwarkesh Patel :所有,一切都很有希望。
Dwarkesh Patel : OpenAI 预计2024年的收入将达到10亿美元,这个预测很可能是准确的,但我只是好奇,当你谈论一种新的通用技术时,如何估计它会带来多少收入?为什么是这个数字?
Ilya Sutskever:从 GPT-3 开始,从两年前的API开始,我们已经有了一个产品,我们已经看到了它是如何发展的。我们已经看到了对 DALL-E 的反应是如何增长的,你也看到了对 ChatGPT 的反应是如何增长的,所有这些都给了我们信息,让我们能够对任何事情做出相对合理的推断。也许这是一个答案。但重要的是,需要有数据,你不能凭空想出这些东西,否则你的误差条在每个方向上都是100倍。
Dwarkesh Patel :但是很多我们说的指数级增长并不会仅仅是以指数级增长(可能更快),特别是当它们的量越来越大时,对吧?那么在这种情况下如何判断呢?
Ilya Sutskever:你会bet against AI 吗?
05
后AGI时代
Dwarkesh Patel :让我们来谈谈后 AGI 的未来是什么样的。我猜你每周工作80个小时是为了实现你真正痴迷的宏伟目标。举一个例子,比如生活在人工智能养老院的世界里,你会感到满足吗?AGI 来了后你个人会做什么?
Ilya Sutskever:AGI 到来后,我将做什么,人们将做什么,这是一个非常棘手的问题。人们在哪里找到意义?但我认为这是 AI 可以帮助我们的。我想象的一件事是,我们将能够变得更加开明,因为我们与 AGI 互动,它将帮助我们更正确地看待世界,并因互动而变得更好。
想象一下和历史上最好的冥想导师的对话,那将是一件很有帮助的事情。但我也认为,由于世界将发生很大变化,人们将很难确切地了解正在发生什么,以及如何真正做出贡献。我认为有些人会选择成为AI的一部分,为了真正扩展他们的思想和理解,并真正能够解决社会将面临的最困难的问题。
Dwarkesh Patel :你会成为 AI 的一部分吗?
Ilya Sutskever:这听起来很诱人。
Dwarkesh Patel :你认为在3000年,会有实体形态的「人类」吗?
Ilya Sutskever:3000年?我真的想不到在3000年会发生什么?
Dwarkesh Patel :它是什么样的?地球上还有人类吗?或者你们有没有具体地想过,你们想要的这个世界是什么样子的?
Ilya Sutskever:让我向你描述一下关于这个问题我认为不太正确的地方。首先,这意味着我们要决定我们想要的世界是什么样的。
世界上唯一不变的是变化,即使实现了 AGI ,也不意味着世界将是静止的。世界将继续进化,还会经历各种各样的变换。我想没有人知道3000年的世界会是什么样子。
但我确实希望人类的后代能够过着幸福、充实的生活,他们可以自由地做自己想做的事情,他们也是自己解决问题的人。相反,我觉得一个很无聊的世界是我们建立了这套强大的工具,然后政府说——好吧,AGI 说社会应该这样运行。
我更希望有一个世界,在那里人们仍然可以自由地犯错,同时也自主承担带来的后果,在道德上逐渐自我进化,而 AGI 提供的更像是一个基本的安全网。
Dwarkesh Patel :你花了多少时间思考这些宏观的问题,而不是仅仅做研究?
Ilya Sutskever:我确实会想这些事情,这些问题都很有趣。
Dwarkesh Patel :我们今天拥有的能力,在哪些方面超越了我们在2015年的预期?到目前为止,在哪些方面还没有达到你预期的水平?
Ilya Sutskever:准确地说,这就是我在2015年所期待的。但在2015年,我的想法比现在要多得多,我想在深度学习上下最大的赌注。虽然我不知道怎么做,但它总会解决问题的。
Dwarkesh Patel :往回看,2015年的情况是比你预期的多还是比你预期的少?比如在2015年,你的一些具体预测是否被推翻了?
Ilya Sutskever:很遗憾,我不记得在2015年做出的具体预测。但我确定,在2015年,我想要把所有的赌注都押在深度学习上,但具体到底会发展到哪个程度,我并不清楚。我并没有一个具体的想法,关于七年后事情会发展到什么程度。
2015年时我曾经预测在2016年或者2017年,会和一些人合作得很好,事情会有很大进展。但是当时只是笼统的预测,实际上我内心只有50%的信心。所以这件事情既出乎我意料,又符合我当时的预期。
Dwarkesh Patel :你现在相信什么,即使是 OpenAI 的大多数人都觉得难以置信的东西?
Ilya Sutskever:我们在 OpenAI 内部进行了很多交流,我们已达到了高度一致的信念。
Dwarkesh Patel :谷歌拥有自己的 TPU 硬件,拥有来自所有用户的数据,比如 Gmail 等等。这是否使他们在训练更大、更好的模型方面比你们更具优势?
Ilya Sutskever:一开始,当 TPU 出现时,我感到非常惊讶,我认为——哇,这真是太棒了。但那是因为我当时并没有完全理解硬件。实际情况是,TPU 和 GPU 几乎是一样的
它们非常非常相似。GPU 芯片稍微大一些,TPU 芯片稍微小一些,可能稍微便宜一些。但是然后他们制造更多的GPU和TPU,所以GPU可能更便宜。
从根本上说,你有一个高性能处理器和大容量内存,两者之间存在一个瓶颈。TPU和GPU都试图解决的问题是,将一个浮点数从内存移动到处理器所需的时间,处理器可以进行几百个浮点运算,这意味着必须进行某种批量处理。从这个意义上说,这两种架构是相同的。因此,我真的觉得,在某种意义上,硬件唯一重要的事情就是每次浮点运算的成本和整个系统的成本。
Dwarkesh Patel Patel:所以,它们之间没有太大区别?
Ilya Sutskever:实际上我也不知道。我不知道TPU的成本是多少,但我会怀疑,如果有什么区别的话,TPU 可能会更昂贵,因为 TPU 更少。
06
新想法被高估了
Dwarkesh Patel :当您在工作时,有多少时间花在配置正确的初始化上?确保训练运行顺利,获得正确的超参数,以及有多少时间只是提出了全新的想法?
Ilya Sutskever:我会说这是一个组合。想出全新的想法只是工作的一小部分。当然,提出新想法很重要,但更重要的是理解结果,理解现有的想法,理解正在发生的事情。
神经网络是一个非常复杂的系统,对吧?你运行它,得到一些反馈。这个过程中发生了什么?理解结果,然后想出下一个实验要运行什么,理解哪里出了问题,是什么导致神经网络产生了意料之外的结果。大部分时间都花在了「理解」上。同时也有很多时间花在了想出新点子上。
Dwarkesh Patel :你认为两者之间的区别是什么?
Ilya Sutskever:至少在我看来,当你有新想法时,我会想——如果它做了这样那样的事情会怎么样?而理解它更像是——这到底是怎么回事?正在发生的现象本质是什么?潜在的影响是什么?为什么我们要这么做,而不是另一种方式?当然,这非常接近于「新想法」。但是真正的行动发生在「理解」的部分。
Dwarkesh Patel :这是你整个职业生涯的写照吗?如果你回想一下 ImageNet ,是「新想法」更多还是「理解」更多?
Ilya Sutskever:这恰是对古老事物的一种新的理解。
Dwarkesh Patel :你在 Azure 上的训练经历如何?
Ilya Sutskever:非常棒。微软一直是我们非常非常好的合作伙伴。他们真的帮助了Azure ,并使其达到了对模型非常有利的级别,我们对此非常满意。
Dwarkesh Patel :目前整个 AI 生态系统都非常依赖中国台湾,但假设台湾发生了海啸什么的,对整个 AI 产生什么影响?会发生什么?
Ilya Sutskever:这肯定会是一个重大的挫败。未来几年内,没有人能够获得更多的计算能力。但我预计计算能力将会出现。例如,我相信英特尔拥有制造厂,就像前面几代一样。这意味着,如果英特尔想要做的话,他们可以生产出类似于四年前的图形处理器。但是,这不是最优的选择。
实际上,我不确定我关于英特尔的说法是否正确,但我知道在中国台湾以外还有制造厂,它们只是不如中国台湾的好。但你仍然可以用,并且可以在它们的基础上取得很大的进展。这只是成本问题,这只是一次挫败。
07
模型成本
Dwarkesh Patel :随着模型越来越大,推理的成本会变得不可承受吗?
Ilya Sutskever:我对此有不同的看法。其实并非推理成本变得高昂,越好的模型,推理成本确实会更高。但他是否被禁用取决于它有多有用。如果它的用处大于它的价格,那么它就不会被禁止。
比如你想向律师咨询,如果你有什么案子,或者需要一些建议之类,你很乐意付一小时400美元的咨询费。但如果你的神经网络能给你可靠的法律建议,你会说——我很乐意花400美元买这个建议。于是推理就变得不被禁止了。问题是,神经网络能以这样的代价得到足够好的答案吗?
Dwarkesh Patel :是的。不同型号会有价格歧视吗?
Ilya Sutskever:现在已经如此了。在我们的产品上,API 服务于多个不同大小的神经网络,不同的客户根据他们的需求使用不同大小的神经网络。
如果有人可以采用一个小型模型,对其进行微调,并得到令他们满意的东西,他们就会使用它。但如果有人想做一些更复杂更有趣的事情,他们就会使用最大的模型。
Dwarkesh Patel :如何防止这些模型变成商品,让这些不同的公司互相压低价格,直到GPU 运行的成本基本持平?
Ilya Sutskever:是的,毫无疑问,有一股力量正在试图创造这种情况。但答案是,你必须继续取得进展。你必须继续改进模型,你必须继续想出新的想法,使我们的模型更好、更可靠、更值得信赖,以便你可以信任它们的答案。
Dwarkesh Patel :是的。但假设现在是2025年,如果仅仅比前一年的版本好一点,但有人以成本价提供2024年的模型,那为什么人们还会使用2025年的新版本呢?
Ilya Sutskever:这里有几个答案。对于某些用例来说,这可能是正确的。2025年将有一款新车型,这将推动更有趣的用例。还有一个推理成本的问题。如果你能做研究,以更低的成本服务于相同的模式。相同的模式为不同的公司服务的成本不同。
我还可以想象某种程度的专业化,一些公司可能会尝试在某些领域专业化,与其他公司相比更强大。对我来说,这在某种程度上可能是对商品化的一种回应。
Dwarkesh Patel :随着时间的推移,这些不同公司的研究方向是趋同还是分化?他们是否一直在做相似的事情?还是说他们在不同的领域有分支?
Ilya Sutskever:我想说,在短期内,它看起来是收敛的。我预计会有一个收敛—发散—收敛的行为,在近期的工作中有很多收敛,在长期的工作中会有一些分歧。但一旦长期工作开始取得成果,就会再次出现收敛。
Dwarkesh Patel :是的。另外一个问题我们在一开始就谈到过。随着外国政府了解这些模型的能力,你是否担心间谍或某种攻击会窃取你的权重或以某种方式滥用这些模型并了解它们?
Ilya Sutskever:是的,你绝对不能忽视这一点。这正是我们尽最大努力防范的情况,但这对每个建造者来说都是一个问题。
Dwarkesh Patel 帕特尔:你如何防止你的权重泄漏?
Ilya Sutskever:我们必须有很好的网络安全人员。
Dwarkesh Patel :多少人有能力通过 SSH 登录到存储权重的机器上?
Ilya Sutskever:我们的网络安全人员非常优秀,所以我真的不担心权重被泄露的问题。
Dwarkesh Patel :在这种规模下,你期望从这些模型中得到什么样的涌现属性?有什么是从头开始的吗?
Ilya Sutskever:我确信会有新的令人惊讶的属性出现,对此我不会感到意外。我真正感兴趣的是——可靠性和可控性。我认为这将是一类非常非常重要的涌现性质。如果你有可靠性和可控性就能帮助你解决很多问题。可靠性意味着你可以信任模型的输出,可控性意味着你可以控制它。我们可以期待一下,但如果这些新特性确实存在,那就太酷了。
Dwarkesh Patel :有什么方法可以提前预测吗?比如这个参数计数会发生什么?那个参数计数会发生什么?
Ilya Sutskever:我认为可以对特定的能力做出一些预测,尽管这肯定很难,至少在今天,你不能以一种超级细粒度的方式来做预测。但在这方面做得更好真的很重要。我认为任何对此感兴趣或有研究想法的人,都可以做出有价值的贡献。
Dwarkesh Patel :你对这些扩展定律有多重视?有一篇论文说——你需要增加这么多数量级才能推理出所有的内容?你认为这个说法是正确的吗,还是你认为它在某些时候会出现问题?
Ilya Sutskever:事实上,扩展定律只是告诉你下一个单词预测准确性的对数会发生什么,对吧?但是,要将下一个单词预测准确性与推理能力联系起来是另一种挑战。我确信它们之间确实有联系,但这种联系是复杂的。而且,我们可能会发现有其他的事情可以在单位努力下给我们更多的推理能力。刚才你提到了推理标记,我认为它们可能会有所帮助。可能有一些其他的东西也可以提供帮助。
Dwarkesh Patel :你是否考虑只雇用人类为你生成标记?还是所有标记都将来自于已经存在的东西?
Ilya Sutskever:我认为依靠人类来教我们的模型做事,尤其是确保它们表现良好,不会产生错误的东西,是一件非常明智的事情。
08
进化是不可避免的吗?
Dwarkesh Patel :我们现在有所需的数据、Transformer 和 GPU,它们都在同一时间出现,你认为这些事情同时发生很奇怪吗?
Ilya Sutskever:这绝对是一个有趣的情况。我会说这有些奇怪,但也有一定的合理性。为什么这样说呢?是什么推动了数据、GPU 和 Transformer 的存在?数据的存在是因为电脑变得更好、更便宜,我们的晶体管越来越小。突然间,每个人都拥有个人电脑,一旦每个人都有个人电脑,你真的想将它们连接到网络上,你就有了互联网。一旦你有了互联网,你就会突然间看到大量的数据出现。
GPU 也在同步改进,因为晶体管变得越来越小,你在寻找可以使用它们的东西。游戏是你可以做的一件事情。然后在某个时刻,Nvidia说——游戏 GPU,我可能会将其变成通用 GPU 计算机,也许有人会发现它有用。事实证明它很适合神经网络,也许 GPU 会比数据晚五年,十年到达,或者在数据之前五年到达,那么事情可能不会像现在这样顺利。但这是我想象的情况。所有这些维度的进步都是非常相互联系的,这不是巧合,你无法选择哪个维度会改进。
Dwarkesh Patel :这种进步是不可避免的吗?假设你和杰弗里·辛顿以及其他一些先驱者从未出生。深度学习革命会在同一时间发生吗?会延迟了多久出现呢?
Ilya Sutskever:也许会有一些延迟,也许是一年?
Dwarkesh Patel :真的吗?只有一年?
Ilya Sutskever:这很难说。我不愿意给出一个更长的时间,因为 GPU 会不断改进。而且其他人也会发现它。当你有更大的 GPU ,训练一个模型需要的工程量就越少,你不需要像以前那样优化代码。当 ImageNet 数据集出现时,虽然很大也非常难用。
但放到现在再想象一下,你等待几年,下载就变得非常容易,人们甚至可以随意尝试。我猜最多只需要几年。另外,你也无法重新运行一个你未知的世界。
Dwarkesh Patel :让我们再谈一下对齐。作为一个深刻理解这些模型的人,你对「对齐」的难度有什么直觉?
Ilya Sutskever:在当前能力的水平上,我们已经有了一套相当好的想法来对齐。但我不会低估对齐实际上比我们更聪明的模型,以及能够歪曲其意图的模型的难度。这是需要大量思考和研究的问题。学术研究人员经常问我他们可以贡献的最佳地方是什么。而对齐研究其实是学术研究人员可以做出非常有意义且贡献的地方。
Dwarkesh Patel :除此之外,您认为学术界是否会提出有关实际能力的重要见解,还是这只会由公司来决定?
Ilya Sutskever:公司将会了解到这些能力。学术研究很可能会提出这些见解。出于某种原因,这似乎并不经常发生,但这并不是学术界无法做到。可能只是因为他们没有思考到正确的问题,或者内部这些公司可以更容易看到需要做什么。
Dwarkesh Patel :我明白了。但也有可能有人会意识到……
Ilya Sutskever:我完全认为是这样的。为什么我要排除这个可能性呢?
Dwarkesh Patel : 这些语言模型开始实际影响物质世界,而不仅仅是数字世界的具体步骤是什么?
Ilya Sutskever:我认为数字世界和物质世界之间并没有明显的区分。假设神经网络告诉你——嘿,这是你应该做的事情,它会改善你的生活。但是你需要以某种方式重新布置你的公寓。然后你按照神经网络的建议重新布置了你的公寓,神经网络影响了物质世界。
09
未来的突破
Dwarkesh Patel :你说的很对。你认为还需要一些像 Transformer 一样重磅的突破才能实现超人类AI吗?或者你认为我们基本上从书中得到了一些见解,我们只需要实现它们并将它们连接起来?
Ilya Sutskever:我并没有看到这两种情况之间有太大的区别,让我来解释一下。过去取得进展的一种方式是,我们已经理解到某些东西一直具有理想的属性,但我们没有意识到这是一个突破吗?你可以说是。这是在书本中实现的东西吗?也是。我的感觉是,这样的突破可能会发生几次。但事后看来,并不会感觉像是一个突破。因为每个人都会说——很明显,这件事完全可以实现。
Transformer 之所以被提出作为一个特定的进步,是因为这不是几乎任何人都能想到的事情。因此,人们可以说这不是他们所知道的东西。让我们考虑深度学习的最基本的进步,大型神经网络在反向传播训练时可以做很多事情。其中的新颖之处在哪里?既不在神经网络中,也不在反向传播中。但这绝对是一个巨大的概念性突破,因为很长一段时间以来,人们只是没有看到这一点。但是现在每个人都看到了,每个人都会说——大型神经网络,每个人都知道它们可以做到。
Dwarkesh Patel :你对你原来导师的新 Forward-Forward 算法有什么看法?
Ilya Sutskever:我认为这是一种尝试,试图在没有反向传播的情况下训练神经网络。如果您有神经科学动机,并且希望尝试了解大脑可能如何学习其连接,这将特别有趣。原因是,据我所知,神经科学家确实相信大脑无法实现反向传播,因为突触中的信号只向一个方向移动。
因此,如果你有神经科学动机,并且想说——怎么能在不进行反向传播的情况下尝试近似反向传播的良好特性?这就是 Forward-Forward 算法试图做的。但是,如果只是试图设计一个好的系统,那就没有理由不使用反向传播。这是唯一的算法。
Dwarkesh Patel :我想我曾经听过您在不同情况下谈论使用人类作为 AGI 存在的现有示例。您在什么时候会认为这个隐喻变得不太严肃,并且不需要在研究方面追求它?因为这对您来说很重要,作为一种存在情况。
Ilya Sutskever:在什么情况下,我才能不再把人类作为智能存在的例子来关心呢?
Dwarkesh Patel :或者作为一个你想要在模型中追求智能的例子。
Ilya Sutskever:我认为受人类启发是好的,受大脑启发也是好的。正确地从人类和大脑中获得灵感是一种艺术,因为我们很容易陷入人类或大脑的非本质性质。同时,考虑神经网络本身的想法,即人工神经元的想法。这也受到大脑的启发,但它被证明是非常有成果的。
那么他们是如何做到这一点的呢?人类的哪些行为是必不可少的,你可能会说这是证明我们可以做到的某些东西?什么是本质的?不,这实际上是更基本的某些紧急现象,我们只需要专注于使我们自己的基础正确。
Dwarkesh Patel :最后一个问题。为什么对于你来说,成为深度学习革命第一人和仍然是顶级研究人员之一之间有如此强的相关性?你可能会认为这两件事没有那么大的相关性。但是为什么会有这种相关性呢?
Ilya Sutskever:我不认为这些事情是超级相关的。我只是一直很努力地尝试,目前为止,结果证明已经足够。
Dwarkesh Patel :我认为这就是毅力。
Ilya Sutskever:毅力是必要条件,但不是充分条件。很多事情都需要结合在一起才能真正解决问题。你需要真正去追求它,也需要有正确的看待事物的方式。
Dwarkesh Patel :好的。Ilya 再次感谢你来到 Lunar Society !