如果从现在的视角回顾AI是从什么时候开始突破的,大概也许在7年前,8位前谷歌科学家,共同发表了《Attention Is All You Need》论文,其中的Transformer模型,为后来的ChatGPT、Gemini等大模型奠定了基础。没有Transformer,大模型可能没那么早出现。当然了,这篇论文越重要,就显得谷歌命越苦。2023年8位作者全部从谷歌离职,谷歌也在论文中把作者的邮箱给划掉了,甚至连大学邮箱和gmail也不放过。离职后,他们有的加入了OpenAI,有的创立了自己的AI公司。Jakob Uszkoreit被公认是Transformer架构的主要贡献者,2021年离开谷歌后,共同创立了Inceptive,致力于用AI研发mRNA疫苗。谷歌前200号员工Noam Shazeer工作了20年后离开谷歌,创立了大名鼎鼎的Character AI,该公司目前估值达到了约10亿美元。Illia Polosukhin、Aidan Gomez、Llion Jones分别创立了自己的科技公司,NEAR Protocol、Cohere、Sakana AI,估值也都过亿。分别专注区块链、企业AI服务和开发受自然启发的生成式人工智能。Niki Parmar作为唯一的女性作者,和Ashish Vaswani共同创立了Essential AI,专注于企业服务。很不幸的是,本次会议她并没有参加,貌似是临时取消的。Lukasz Kaiser在21年离开谷歌后,加入OpenAI成为了AI研究员。7年后,论文的8位作者重聚一堂,在英伟达的GTC大会上,参与Transforming AI的圆桌会议。这场会议由英伟达CEO黄仁勋亲自主持,从中也能看到这8位与会者的含金量了。
以下是会议内容全文
黄仁勋:
电脑在过去的60年里基本没有发生变化。在我出生后的第二年,现代计算机的概念被IBM System 360系列所定义:其中包括中央处理器、输入输出子系统、多任务处理、软硬件分离、软件兼容性等重要特性,这些特性保证了软件工程师的投入能够得到长期的保护。我要说的是,现代计算从本质上没有改变太多。直到20世纪80年代末和90年代初,个人电脑革命让计算能力爆发式增长,正如我们所知的那样,计算从此走向了大众化。性能提升的边际成本逐年下降,每10年,计算成本会降低大约10倍,每5年如此,那么15年就是1000倍,20年则是10000倍。在PC革命的短短20年里,计算成本降低了10000倍,这是历史上任何其它有价商品都无法比拟的。你能想象一下,生活中所有东西都降价了会怎样吗?所有重要且有价值的东西,其成本都降低了10000倍,而且是在不算太长的时间里,大约是20年。等你成年的时候,过去常用的东西,比如一辆2万美元的汽车,现在可能只需1美元。但计算这一领域的成本却是实实在在的大幅下降了。可这种情况终结了——并非精确地在哪一天终结,但它确实停止了,变化的速率停止了。尽管每年仍有细微进步,但那种飞速变化的态势不复存在了。于是,我们投入了另一种称为加速计算(accelerated computing)的计算模式研发。这种模式并不容易使用,因为你必须将问题从最初那种类似菜谱的、循序渐进的方式,重构为并行的算法。而并行算法是整个科学领域内极其复杂的一部分,我们一开始就这么认为了。我们相信,如果能够加速那些占比代码总量1%却占据99%运行时间的部分,那么某些应用程序会因此带来巨大的飞跃式进步。我们能够让不可能变成可能,让成本高昂的操作变得经济实惠,让能耗巨大的任务变得节能高效。这就是我们所说的“加速计算”。在我们公司成立以来,我们就一直专注于此。我们针对不同的应用领域进行加速,首先是计算机图形和视频游戏。我们对计算机图形和视频游戏进行了非常成功的加速,以至于人们一度以为我们是一家游戏公司。但无论如何,我们坚持了下来。我们认识到计算机图形和游戏所蕴含的价值,因为那是一个巨大的市场,同时还推动了罕有的技术创新。既庞大又永不满足的市场所激发的技术革命是令人惊叹的。最初我们是在计算机图形和游戏领域取得了成功。总之,2012年我们初次接触了人工智能,那就是AlexNet——人工智能第一次与Nvidia的GPU协同工作的标志。这件事引起了我们对人工智能领域的关注,几年后的某一天,一件了不起的事情发生了,也直接引领了我们走到今天。稍后我会告诉你们一些情况,正是“这些情况”引领我们走向了生成式AI。你们都听过我谈到生成式AI的强大之处。软件不仅能够识别一张猫的照片并标注“猫”,更能从“猫”这个词出发生成一张猫的图像。你可以加上一些条件提示,比如:“一只在冲浪板上的猫”、“一只在毛伊岛海岸享受日光浴并喝着鸡尾酒的猫”、“一只戴着滑雪帽的猫”等等。只要不断添加描述,生成式AI就能把它描绘出来。我们已经教会了软件程序如何理解这些像素的含义,不仅能识别像素,还能理解像素所代表的意思,更能直接从像素含义出发进行图像生成。这种几乎能从任何数据中学到含义的能力,将带来革命性的变化,并引领我们走向今天。你们已经听我说过,这是一场新革命、新工业革命的开端,这是有原因的。在这场新的工业革命中,我们将生产出前所未有的东西。就像以往的历次工业革命,上一场工业革命中,水流入工厂,经过能量转化产生了一种无形的、具有难以置信价值的东西,也就是我们今天所依赖的电力。水流入工厂,然后以某种方式转换成电能,从另一端流出——这简直就是魔法。电力被广泛使用,创造了我们熟知的工业革命,建立起新的生产设施来创造有巨大价值的新产品。如今的生成式AI是一种全新的软件,当然,它需要被创造出来。杰出的计算机科学家们将参与其中。但在软件被创造出来后,它就能被大量生产了。这种生产过程需要一座带有特殊机器(我们称之为 GPU,本质上是一种发电机)的大型建筑。你给它提供原料——即原始数据和能量,就能产出不可思议的结果。数据进去,数据出来,这些输出的数据却能做奇妙无比的事情。它们当然可以用在你们熟知的所有应用领域,但也能够被应用于医疗保健、药物设计、交通运输、制造业和工业,我们所知的每个行业都将从这种新产品、这种生产出的新事物中受益。因此,一种工业界从未见过的新事物将会被生产出来,它将在世界上史无前例的工厂——AI 工厂中被创造,而产生的AI 又将被每个行业所使用。你怎么称呼它?一场新的工业革命,之前从未出现过。在接下来的十年中,我们将亲眼见证它的发展,千万不要错过这未来的十年。难以置信的新能力将被发明出来。而这一切正是从某个时间点,由一些研究人员开始的。今天我想邀请到一种叫做 Transformer 的机器语言模型的创造者们。我们想把这里布置得像一个客厅,基本上没什么主持,大家可以随意畅谈。说真的,我要是早点想到就好了,当时我们在后面旁听,听到很多关于深度学习的笑话,真的很多。接下来就看哪些笑话能逗笑你们了。当然还有不少讨论和争论。我想把这些笑话和讨论抛出来,看看大家会聊到哪里去。好了,现在就让我们欢迎Transformer的发明者们。居家办公已经开始泛滥了,但显然这并没有阻碍创新。Transformer 这项工作意义重大,其变革性的能力影响了众多行业。显然,正如我之前所说,我们今天享受到的一切都可追溯到那个时刻。它让我们能从海量数据中以序列化的方式进行学习,处理序列及空间数据,发现其中的关联和模式,并最终创建出大型模型,这确实带来了极大变革。我的第一个问题是(你们可以畅所欲言,即使打断别人、有不同意见,甚至站起来争论也没问题):回到最初的时候,你们当时面对的是哪些问题呢?工程师需要问题来激发灵感,是哪些挑战促使了 Transformer 的诞生?我想每个人遇到的问题都可能有所不同。但对我以及我所在的团队而言,我们当时专注于问答系统。简单来说就是在谷歌上提出问题,然后获取答案。谷歌对响应延时有很高的要求,因此如果你想部署实时处理大量文档的模型,就需要一些能快速运作的方案,而当时流行的循环神经网络(RNN)显然不符合这个要求。的确,当时有循环神经网络(RNN)以及加入某些注意力的 RNN 方案。但它们处理信息的方式都是“一个词接一个词”,对吧?结果往往是,虽然有些简单的网络(比如带有N-gram输入特征的前馈神经网络)架构不如当时的(长短期记忆网络)LSTM 那么先进和强大,但由于训练速度快很多,当面对海量训练数据时(至少在谷歌的规模上是这样的),反而总是能取得更优异的表现。早在 2015 年左右,我们就看到了模型规模带来的效益。你可以看到,把模型做得更大,它就会变得更“聪明”。这是有史以来最酷的问题,简单到只需不断预测下一个词,就能让模型变得超级智能,可以完成各种任务。我们当时就想不断扩大模型规模,让它变得更好。最大的阻碍是,RNN实在太难用了。然后我听到有人在讨论:嘿,让我们用卷积或者注意力机制来取代它。我当时想:太棒了,就这么干吧!我觉得 RNN 就像蒸汽机,而 Transformer 就像内燃机。工业革命完全可以用蒸汽机来完成,但会非常麻烦;而内燃机出现后,一切就顺利多了。现在轮到电动汽车了。我们现在只等核聚变的出现,对吧?有两件事让我记忆犹新,尤其是在 Transformer 诞生的那段时间。一是我在研究生的时候体验到了一些“痛苦的教训”。当时我在做机器翻译,我觉得自己没法通过梯度下降(一种优化算法)让模型学会复杂的语言规则,所以我决定让梯度下降包办一切。另一个教训是,能持续优化的通用架构最终会取得更好的成果。今天面对的是一个个词,明天我们面对的就是计算机上的操作,模型会逐渐地模仿我们的活动,从而自动化我们做的很多工作。所以,Transformer 尤其是其中的自注意力机制,具有极高的通用性,也让训练时的梯度下降很顺利。另外它还让物理规律很开心——多亏 Noem 的影响,我逐渐意识到矩阵乘法是很不错的,所以我们也要让加速器满意。这两种需求结合在一起,就有了现在的成就。而这个模式一直在重复,每当我们有一堆规则想教给模型时,梯度下降总能比我们做得更好。对啊,深度学习的精髓不就是我们构建的 AI 模型要配合 GPU 的计算特点嘛,现在 AI 模型已经是超级计算机的形状了。顺便说一下,为了配合 AI 模型,我们反过来也在把超级计算机做成 AI 模型最合适的样子。那么当初你们在解决什么问题呢?当然是机器翻译。五年前这简直是难上天,首先得采集一大堆数据,然后模型也许能进行翻译,但多少会有点小错误。现在情况大不一样,不需要专门的数据集,只要给它两种语言的文本,它自己就能学会翻译。但是什么直觉引导你们提出了“注意力就是一切” 《Attention is all you need》呢?这个论文标题是我起的,当时我们一直在尝试各种改动,看看会不会影响模型效果。令我们惊讶的是,很多改动让模型表现更好,比如把所有的卷积层都删掉后效果居然更棒了。所以我就起了这个名字。有趣的是,我们的起点其实是那个最简化的模型,然后逐渐往里添加东西,比如卷积层。但后来我们又把这些加进去的东西拿掉了。多头注意力机制等等也非常重要,当时我在看一部叫《昨天》的电影,讲的是一个平行的宇宙,那里的人从不知道甲壳虫乐队存在过。我就想,如果 Transformer 在那样的宇宙诞生,标题会叫什么。时间宝贵啊,他正忙着建立一家公司呢。(Ashish Vaswani)那么,你们是怎么想到 Transformer 这个方案的?还有其他备选方案吗?为什么叫 Transformer?顺便说一句,我认为这是个很棒的名字,听起来非常强大。我是觉得这个名字挺贴切的,Transformer 能够一次性处理整个信号(数据),不需要逐步迭代。按这个逻辑,几乎所有的机器学习模型都能叫 Transformer ......好吧,这也是为什么所有的机器学习模型都变得能迁移使用的原因。嗯,我当时觉得这个名字太普通了。但后来大家都认为这是个好名字,事实证明他们是对的。哦,我起过不少,记不清了。有一个我记得叫 Cargo Net。我还设计过一种模型,把卷积、注意力、识别什么的都加进去了,所以想了个名字叫 CARGO Net。我觉得 Transformer 之所以成了这么通用的名字,是因为我们在论文里专注于机器翻译,但我们心里清楚,其实想创造的是一种极其通用、能把任何东西转化成任何东西的模型。只不过没想到它真能实现到这种程度。对,当 Transformer 被用在图像处理的时候很让人惊讶。或许你们觉得很自然,但能把图像分块然后当作一个个词元来处理,这个思路很新颖。我认为这个架构思路在很早期就确立了。我们在构建 Tensor2Tensor 库的时候,关注点在扩大自回归模型的训练规模方面,它不光能处理语言,还能处理图像、音频和文本,并且支持输入和输出的灵活组合。Lukasz 刚才说过他当时在做翻译工作,但我觉得他谦虚了,我们现在看到的这些跨模态的想法和联合建模......在 Transformer 模型库诞生的第一天就有了,Lukasz 的工作就是朝这个方向努力。对,这些思想早有雏形,当时的想法在酝酿,只是花了些时间。Lukasz 的目标是:既然有那么多学术数据集,涉及图像到文本、文本到图像,音频到文本等等,那么我们应该把所有的数据都利用起来训练模型。这个想法正是驱动大规模训练的原动力——去模拟整个网络世界,OpenAI 已经在这方面取得了成功,我们许多人也在做类似的工作。我认为这个愿景从一开始就存在了,很高兴看到它如今开花结果。是啊,非常有趣的是,知识的很多形式本质上都在做“翻译”这件事,不管是从图像中提取文本、文本生成图像还是文本间的翻译。Transformer 这种架构,这种翻译的思路其实具有广泛的通用性,你们甚至把它用在了生物学上,对吧?或者我们可以称之为“生物软件”——这有点类似于计算机软件,软件最初从程序开始,然后被编译成能在 GPU 上运行的可执行代码。而在生物领域,一种“生物软件”的生命周期始于对某些行为的描述,比如说我们想在细胞中生成某个特定数量的特定蛋白质,这时候你就可以利用深度学习来学习如何把这些指令转译成 RNA 分子,然后在细胞里实现那些行为。这种思路所涵盖的范围很广,不仅能把英语翻译成计算机代码,还能把药物的设计转化成——我们希望是非常具有突破性的药物——转化成实际的分子。是的,我们必须通过与自然界的交互进行反复的实验。数据是需要被创造出来的,不像大量开放的基因组学数据可以直接下载使用(这主要是因为大多基因组学研究还依赖政府资助),想获取特定现象的数据去建模。比如针对 mRNA 疫苗中蛋白质表达的建模,这方面的实验数据需要我们专门设计并收集。在帕洛阿托,我们有一大批机器人以及实验室研究员们,既有深度学习研究经验的,也有原本是生物学家的,他们现在视自己为全新领域的开拓者,通过实际的实验设计创造数据,并验证能够设计分子结构的模型。所以你们在说,早期关于某种通用翻译机制、通用学习机制、通用翻译器的想法从一开始就存在。那么在此基础上,你们都认为哪些架构上的改进、增强和突破是真正有价值的补充呢?在推理阶段,为了让模型运行地更快更有效率,大家做了大量工作。但坦白说,目前的模型与最初的架构过于相似,这让我有点困扰。我认为这个世界需要比 Transformer 更好的东西,我猜我们都希望它能被更新的方案所取代,把我们带到新的性能高度。我想问一下在座的所有人,你们认为下一步是什么?我觉得这才是最让人兴奋的,因为我觉得现在的方案和六七年前的那一篇论文里提出的太像了。没错,人们总是惊讶于它与最初版本的相似性。有人会问我,因为我是论文作者,是不是我自然就知道下一步会是什么。但我通常的回答是,这些进步不是一蹴而就的,下一代模型需要在当前的基础上有着显著且显而易见的进步。因为一点点提升还不够推动整个 AI 产业转向,所以尽管现在的模型可能不是技术上最强大的,鉴于大家手头的工具和生态都是围绕 Transformer 构建的,我们仍然会使用最初的架构。但你们期望在哪些方面进行改进?文本理解上?自动生成方面?还是运行速度的提升?我的答案你也许不喜欢,我觉得目前的模型浪费了太多计算资源。我们正致力于提升模型的计算效率,谢谢你的反馈,但本质上这是个资源分配的问题。不完全是关于总计算量的,我同意你的观点——任何计算都是有价值的——关键在于如何在特定问题上分配合适的计算资源(以及对应的能耗)。你不希望在简单问题上消耗太多资源,也不想在困难问题上投入过少从而无法给出可用的解决方案。对,一个典型的例子是 2+2 这样简单的计算。把它交给现在的巨型模型,它能动用万亿参数去计算...对,我认为自适应计算是必须突破的方向,让模型能自己决定该为特定问题投入多少计算资源。对,这点也是当时的想法之一了,我记得有篇论文叫“Universal Transformers ”(通用 Transformer),瞄准的就是这个方向。所以这些思路当时已经存在了...其实你有一年前的论文,混合专家模型(Mixture of Experts)就考虑了这方面,现在这思路已经被广泛采用...它已经无处不在了,跟 Transformer 本身都融为一体了。但它确实在 Transformer 之前就有了。可能在场的人不知道,其实我们最初的工作目标没有完全达成。我们最初是想对“词元”(token)的演化过程进行建模的,不仅仅是线性生成,因为文本和代码在编写过程中是会经历变化、编辑的。这不仅能让我们模仿人在编写时的思考方式,还能在过程中加入人的参与,毕竟生成过程更接近人的创作的话,就能让人更容易提供反馈。好吧,我的意思是,我们都读过香农的信息论论文,所以当时的思路就是,不不不,我们来做语言建模和困惑度优化。但最终没有成形,对吧?我觉得这也是未来能努力的方向,和前面提到的智能化组织计算资源相关,同样适用于图像处理领域。比方说,扩散模型有个有趣的特性,它们能迭代式地精细化生成结果,我们的模型还不具备这样的能力。还有就是,模型内应该保留哪些知识、模型外应该保留哪些知识的基本问题,RAG 架构的检索模型大概是其中的一类,这跟推理模式也相关联。哪些推理应该在模型外通过符号系统完成,哪些推理在模型内进行,很多时候这是关乎效率的问题。我确信大型模型最终会自己学会电路设计,从而高效地完成“2+2”的计算;但如果现在把加法交给它们,这显然很不理想。所以用 Illia 的那个例子:如果问 AI“2+2”等于多少,它应该直接拿起计算器,用最省电的方案算出答案。但如果是问它“你是怎么算出 2+2 等于 4 的?”或者“2+2 等于4 是正确的答案吗?”那它就可以从公理出发,深入数学理论来解释计算过程。对。没错。虽然这只是个例子,但我相信你们设计的 AI 都足够聪明,知道该自己拿起计算器。太便宜了,得感谢黄总,你的公司一直在源源不断地提供计算资源啊。每个算子大概只需要 10 的负 18 次方美元吧,感谢你提供了如此庞大的算力。但你看,一个 5 千亿参数量的模型,每个“词元”(token)需要万亿次左右的运算,换算下来每个“词”也就一美元左右。这比去书店买本书读要便宜一百倍。太划算了!确实。某些实际应用场景比巨型神经网络的高效计算值钱多了......治愈癌症之类的当然不用说,但即使是与任何人交流——与你、与医生、与律师、与程序员的谈话,也是要花一美元/“词”甚至更多的。我们手握百万倍的提升空间,可以把模型做得更聪明,那将是非常了不起的,因为有些时候用对一个词就能改变世界。完全同意。还有我想说的是,为了提高模型智力,合适的接口必不可少。我们经常不提这茬儿,但这是关键。怎么才能获得正确的反馈?如何把任务分解到合适的粒度,让人在合适的时候介入?如果你最终想训练出能观察用户、学会解决任务的模型,那接口的设计就至关重要了。或许下面是个很好的切入点:你在发明 Transformer 后离开了谷歌,创办了自己的公司。你们都在 Transformer 相关的领域工作着。能不能用最短的时间介绍一下各自公司的情况,以及你们创业的初衷呢?你们刚才描述的很多想法,公司应该都在这些方向上努力吧?好的,那我来介绍 Adept。我们非常希望能做出能够像人类一样高效地学习新任务的模型,观察用户在做什么,理解用户意图和目标,然后开始模仿。这将改变人机交互的方式,也彻底改变我们工作的方式。2021 年,我离开谷歌的主要原因之一是,在实验室里闭门造车是无法让模型变得更聪明的。你必须让模型走出去,跟真实世界产生交互,因为你需要让模型适应外界环境。用户可以跟模型互动,提供反馈,帮助模型成长变强。所以离开实验室是必须要做的。完全正确!在实验室的环境下很难完成,唯有把模型推向世界,才能更容易地实现(至少当时看来是如此)。还有 Noam,该你了。好的。2021 年我创办了 Character.ai,当时最大的沮丧是,有这么强大的技术,却不能让所有人都用上,它实在太好用了,应用空间也太广了。这技术的价值在于普及,让十亿人用上它,让他们能做十亿件事。感谢老天赐予我们如此神奇的技术!也感谢黄总!你知道的,最终的目标是帮助世界上每一个人。你们都得去体验下 Character.ai,真的。没错,我们想从实际出发,以最快的速度做出东西放到人们手上,让他们用起来。一开始很多人会单纯把它当作玩伴,或者寻求情感支持之类......而现在它真的能缓解压力。然后它就会不断成长。我已经稍微谈到了生物软件,但也许可以深入探讨其意义。对我个人而言,在2021年,我联合创立了Inceptive,因为我意识到这项技术可以比以往任何时候都更直接地改善人们的生活。我的第一个孩子出生了,在大流行期间,这一点让我更深地体会到生命的脆弱。几周后,Alpha Fold 2在蛋白质结构预测领域取得了突破性进展,在CASP 14中夺冠。而Alpha Fold 2与前一代模型之间的一个主要区别是它采用了Transformer结构,替换了原有架构的其他部分。这表明这项技术已经成熟,可以应用于分子生物学领域。紧接着,mRNA新冠疫苗的有效性结果出炉,很明显mRNA以及RNA技术有着改变生命的能力。你可以用它实现“RNA世界假说”,进行各种生物学操作,但这个领域长期缺乏数据。从某种意义上说,它是分子生物学中被忽视的领域。因此,这几乎成了一种道德义务。这件事必须有人来做。我很喜欢,很喜欢。我一直把它看作是药物设计,但更喜欢你将它视作编程蛋白质、编程生物学的理念,这更有意义。是的,我欣赏这个概念,当然这个“编译器”需要通过学习获得。我们显然不会手动编写这个“编译器”,因此我们必须去学习如何创建它。没错,而如果你想要学习这个编译器,很明显你需要一个实验室来测试它、生成数据。没错,这个“飞轮”才能运转。我很兴奋,我相信它会发生。是的,我来补充一下。虽然还处于非常初期的阶段,但我可以分享一下目前进展。我联合创立了一家名为Sakana AI的公司。谢天谢地,日本市场似乎很喜欢这个名字。这个名字是为了唤起对鱼群的联想。我们想做的是自然启发式的人工智能。你知道,这个类比就像一条小鱼可能很简单,但当你把很多简单的东西聚集在一起,它们就变得复杂起来。人们对我们所说的“自然启发式”并不完全确定是什么意思。所以我想稍微深入探讨这个核心思想。当研究人员加入时,我试图灌输的是:学习永远获胜。任何时候,你都可以用计算机在搜索空间中超越人类手工设计的东西,这总会带来更好的结果。即使在最初,深度学习革命也是这样,我们开始学习特征,而不是手工设计它们,效果提升显著。因此,我想提醒你们,Nvidia为我们提供的强大算力并不仅限于梯度下降。我们可以用它来搜索我们目前手工设计的内容。事实上,我想告诉你们,鉴于有时差,今天或明天我们将会发布一个重大进展。我很惊讶我们这么早就有了成果,但确实如此。我们有一些研究成果即将开源,而这个结果与我们的理念高度吻合。目前流行的做法是人工设计模型合并方式,但我们想让算法自己学习。于是,我们从Hugging Face上获取了所有可用的模型,然后利用大量算力,通过进化算法来搜索如何合并和堆叠模型层,效果非常好。敬请期待!我创办Cohere的理由与Noms很相似。我看到了我认为可以改变世界的技术。计算机能开口和我们交流了,它们获得了新的能力,所以我想这应该会改变一切,改变所有的产品、我们工作的方式、以及我们与计算机交互的方式。在我们这样了解内情的人眼中,这项技术与它在现实世界中的作用之间存在脱节。我想弥合这种差距,我觉得我和Gnome采取的方法有点不同,因为Cohere是为企业量身打造的平台。我们希望每个企业都能采用这项技术,并将其整合到他们的产品中,而不是直接面向消费者。这是我们推广这项技术、使其更普及、更实惠、并帮助企业采用的方式。知道吗?我最喜欢的就是Aidan超级兴奋的样子,还有Gnome超级冷静的样子。太有意思了。经过一段时间后我终于加入了OpenAI。你知道,有人问银行抢劫犯威利·萨顿为什么抢银行,他回答说“因为那里有钱”。当时我觉得OpenAI拥有着最棒的Transformer技术,是一切的源头。在这家公司工作很有趣,我们知道只要有大量的数据和计算资源就能做出好东西,而我仍希望可以减少对大量数据的依赖,可能那样的话我们就需要更多的计算资源了。我是第一个离开Midway的人。有点像Ashish,我坚信软件吞噬世界的道路在于机器学习。软件开发最直接的方式就是教机器去编写代码,这样你就可以真正改变一切。当时是2017年,有点太超前了,我们还没有那么强的计算能力。所以我们尝试去协调人们来生成更多的数据。这是其中一部分 —— 通过初创企业,你就有机会把某些东西展示给用户,并给予他们激励。我们最终意识到,我们需要一个新的基本要素,那就是可编程货币,因为这能让我们大规模地协调人们的行动。所以我们最终构建了一个区块链协议,它自2020年起一直在运行。这个协议拥有世界上最多的区块链用户,每天数百万的用户都在使用它,尽管他们甚至不知道自己是在和区块链交互。现在我们开始用它来带回那些生成更多数据的工具。我认为,从根本上说,在我们这个小组中观点不具争议性,但它可能会引起外界争论:始于18世纪的版权制度需要改变。我们处在一个新的生成式时代,而我们现有的奖励创作者的方式已经过时了。唯一的解决办法是利用可编程货币和区块链。因此,我们正在做的一件事就是创造一种新颖的方式,让人们能贡献数据来训练超级酷炫的模型。然后你将构建一个完整的、全新的正反馈系统,完美融入我们正在做的一切,并且创造一个伟大的新经济。我们有了可以编程的人类、蛋白质,还有可以编程的货币,太棒了。所以,人们有一个问题:当前一代的GPT模型拥有万亿级规模的训练数据集,这几乎覆盖了你能从互联网上自由获取的一切信息。那么下一步是什么?我们需要探索哪些新的模型技术?比如推理等等。你们来谈谈这些,以及数据将会从何而来。关于交互方面,数据需要来自与用户的互动,这就需要大规模的平台来吸引用户。用户能从这种交互中获得经济价值。然后在后端,你可以用所有这些模型变得更加智能。你可以这样做来进一步提升模型,但如何获得那个令人难以置信的预训练模型 —— 那个每个人都想与之交互的起点呢?你能让模型通过强化学习互相交互吗?是否还有其他的合成数据生成技术?你知道,我想说的是,有我们大家在,我们正致力于所有这些技术。我的意思是,我认为下一个大事件是推理能力。我想很多人已经意识到了这一点,很多人正在为此努力。但是,很多推理能力目前仍然是通过手工构建,对吧?我们正在手工编写提示,然后试图让模型以我们认为应该的方式进行交互。而我认为,我们实际上应该去搜索推理构建的方案,学习如何将它们连接在一起,以获得我们真正期望的强大推理能力。另一种思考方式是,那些能够生成人们期望内容的模型——也就是我们想要消费的媒体——应该接受来自我们现有全部媒介的训练。基本上,任何类型的视频、音频、任何观察世界的方式、3D 信息、空间信息、时空信息都应该被纳入到训练中。我不确定是否每个人都理解推理和从小数据中学习是紧密相关的。因为如果你的模型能够进行推理,那么只需要提供少量的数据,它就会经过大量处理来推断出结果。它投入了大量计算资源用于推理,因此即使是从较少的数据中也能进行泛化。这类似于系统以人类的方式思考。从这一点出发,你可以继续前行,并在事物中建立推理能力。模型将能够设计自己的实验。以便寻找到对它的推理能力发展最有影响力的数据,并继续搜索。我确实认为,当我们弄清楚推理的运行机制时,模型所需的数据量将大大减少,但与此同时数据质量将变得更加重要。而这正是与现实世界和人类所有交互产生关联的地方。所以,我确实认为将会出现一个新时代,可以用数万亿的 token 进行预训练,更重要的是高质量的数据,这可能会让人们更容易获得回报。没错,将获得为提供数据做出贡献的奖励,这些数据用于训练模型变得越来越好。一个人一生大约只会接触十亿token的数据,但人们的学习效果很好,这其中的机制值得研究。说得对。另外我想说,该领域的很多进展也是由于各项评测基准的设立而实现的。那么,类似于基础数学教育之于自动化,什么是大规模的现实世界任务呢?我们将之分解为更简单的任务。这种分级也很重要,因为我们的模型或许可以完成其中的一些任务,在应用的过程中获得更多数据。一旦这个循环形成,模型就有能力去承担更复杂的任务。一方面是因为它们也在观察、学习,这使它们获得了比单纯完成更复杂任务所需数据还多的数据,并得到了更高级的指令。因此,我认为构建度量标准、取得进展也需要去拆解或创建这类科学方法,就像我们对一些评测所做的那样。这种科学可以是关于自动化、关于交互、关于代码生成等等。我们还记得没有Transformer的时代,对吧?但是很多年轻的研究人员不记得了。所以当我第一次看到Transformer的论文时,对我来说非常明显,它是一个非常简化的LSTM。我们在试图让LSTM工作时遇到的所有问题,肯定也存在于Transformer中。但似乎是因为人们已经忘记了没有Transformer的时代,他们不得不重新发现那些问题。所以,我的猜测是这些事情会很重要,对吗?我们最终可能会得到一个混合模型。Transformer里其实是有循环运算的步骤的。有趣的是,似乎没人真正去研究这样一个事实:你可以用不同数量的步长来运行Transformer,并以此进行差异化训练。可以探索如何在模型中利用循环这一特性。因为这个模型在每个步骤中,都会增加每个token的信息量,并解决问题、进行推理。显然,如果你只有6个步骤,你实际上只能做5步推理,因为第一步只是获得更多上下文信息。所以,有时候你不需要6步,有时候你需要更多。因此,可以尝试不同的循环方式。然后另一个问题是,我们如何摆脱token?关于循环,我个人认为我们从未真正学会如何用梯度下降来训练循环模型。也许这根本是不可能的。LSTM在某种程度上是一种hack。它能起到一点作用,然后Transformer就更好了,对吧?它有更好的结构。但从根本上说,也许你需要用一种不同的方式来训练模型,而不是用梯度下降。我们生活在时间中,我们的大脑也随着时间更新,但是我们并不一定是用反向传播来训练的,很可能不是。所以也许有一种方法不用梯度下降,这就是为什么我们很难搞清楚其中的原理。好吧,各位,能和你们共度这段时光真是太棒了。希望你们以后也能经常聚在一起,你们下次的互动将可能带来怎样的神奇成果。我们整个行业都对你们的工作心存感激。真的,谢谢你们,我真的很感谢。我想给你们每一个人一份礼物。这是第一台DGX-1,我送给Ashish,上面写着“你改变了世界”。非常感谢你们所做的一切。
关于「新硅NewGeek」:我们以AI为圆心,追踪科技领域的方方面面,努力用最简单的方式阐述技术是如何改变世界。敬请关注。