黄仁勋对话伊尔亚：关于科技，企业家和科学家之间最好的访谈

黄仁勋：从我认识你以来，你做了很多开创性的工作。从多伦多大学开始，你与 Alex (Krizhevsky）和 Jeff Hinton 一起共同发明了 AlexNet，这带来了现代 AI 的大爆炸。你的职业生涯也把你带到了美国湾区，OpenAI 的创立，GPT-1，2，3。当然了，还有让 AI 风靡全世界的 ChatGPT。

真是青年科学家的卓越履历，让整个行业都对你的成就由衷的敬佩。

我还是追溯一下吧，来问问你，关于深度学习的一些问题。你对深度学习是什么认识？为什么你知道它会发挥作用？你心中就一定认为深度学习会取得如此成就吗？

伊尔亚：我个人对人工智能的兴趣有很多原因，出发点就是对 AI 巨大影响力的直觉性认识。同时，我也对究竟什么是意识充满了好奇，究竟什么是人类的体验？我觉得 AI 的发展能帮着我去理解这些。

2002 - 2003 年，那个时候「学习」是一件只有人类，或普通人就能做的事情，计算机完全办不到。那时，计算机还不会学习任何东西，甚至在理论上是否可行都不太清楚。所以我想如果能在智能学习或者机器学习方面做出一些成果，将很有可能成为 AI 领域的最大进步。

我开始在这个领域做一些探索，一开始还没有那么乐观。但幸运的是，Jeff Hinton 在我念书的大学任教，我得以联系到他。他的研究方向就是神经网络，这就是我想要的。因为神经网络能够缔造一种可以学习、可以自动编程的并行计算机。那个时候并行计算机还很小，但是希望在于，如果你弄明白学习和神经网络的工作原理，那你就可以从数据中去编程小的并行计算机，而它与大脑的工作原理是相似的。

所以，就好像有了几个理由可以支撑你继续走下去，但是还不太清楚如何让它起作用。然而基于已有的所有东西，似乎表明它的前景是最光明的。

最初没搞明白 GPU 怎么用

黄仁勋：你们是怎么发现 GPU 对你训练的神经网络模型很有帮助的？

伊尔亚：这件事应该感谢 Jeff（Hinton）。他说我们应该试试 GPU，（于是）我们开始尝试它们。这个过程很有意思，但我们也没有完全搞懂它们真正的用途在哪里、怎么样才能让它们发挥作用。

可是接下来我们就发现，随着 ImageNet* 数据集的出现，卷积神经网络非常适合 GPU 的模型，有可能把它变得非常快，能做规模远超以前的训练。事情就这么发生了。

非常幸运的是亚历克斯 · 克里热夫斯基（Alex Krizhevsky）真的很喜欢 GPU 编程，他能够去编程开发非常快的卷积核函数，然后去训练神经网络，用的是 ImageNet 数据集，并最终得到了结果。

黄仁勋：结果就是震惊了世界，大幅打破了计算机视觉的纪录，这是非常明显的突破性进展。

伊尔亚：对，它并不是之前方法的延续，并不是像常规比赛那样的打破纪录。关键点在于这个数据集是超级难的，是远远超出一般范围的。其他人可以用经典的方法取得一点进展，但是这件事在数据集上要好多了。如果能做好，那将是惊人的 AI 大爆炸。

*ImageNet：一个大型的可视化数据库，设计用于视觉对象识别软件的研究，由华人 AI 研究员李飞飞构建。伊尔亚和克里热夫斯基主导设计的 AlexNet 卷积神经网络获得了 2015 年 ImageNet 大赛冠军。

当初无法解决的，当初没人重视的

黄仁勋：AI 技术大爆炸，快进到今天，你来到硅谷，和朋友们一起创办了 OpenAI，担任首席科学家的角色。最开始做 OpenAI 的想法是什么？你们做过很多事，我们能看到，那些早期的工作最终为我们带来了 ChatGPT 的时刻。那么最早创立 OpenAI 的源动力是什么？

伊尔亚：是的，显然当我们开始的时候，并不是 100％清楚如何推动。而且这个领域与现在非常不同，当然我们现在习惯了这些惊人的神奇惊人的神经网络来做很棒的事情，每个人都很兴奋。

但是回到 2015 年-2016 年，当我们开始创业时，看起来很疯狂。研究人员要少得多，可能比现在少 100-1000 倍。

在那时我们只有 100 个人，他们中的大多数人在 Google / DeepMind 工作。

然后有人开始学习这些技能，但仍然非常稀缺。在 OpenAI 开始的时候，我们有两个关键的最初想法，这些想法一直推动我们到今天。

一个是通过压缩进行无监督学习。今天，我们想当然地认为无监督学习易如反掌，你只需对所有事情进行预先训练，而且一切都完全按照你的预期进行。但在 2016 年，无监督学习是机器学习中一个尚未解决的问题，没有人知道该怎么做。Yann LeCun* 到处演讲，说监督学习是个巨大的挑战，我真的相信好的数据压缩将产生无监督学习。

当然，直到最近，突然之间，很多人了解 GPT 实际上压缩了训练数据，特德·姜* 在《纽约客》上的文章也提到这一点。但是从数学意义上讲，训练这些自回归生成模型可以压缩数据，并且直观上，你可以看到它们为什么应该起作用。如果你将数据压缩得非常好，你就必须能够提取其中存在的所有隐藏信息，所以这才是关键。

接着就要说到 OpenAI 在情绪神经元领域的研究。

这项研究在机器学习领域不太多人关注，但实际上，它很有影响力，特别是我们的思路。这项工作的结果是神经网络。但它并不是 Transformer*，而是在 Transformer 之前的模型——小型循环神经网络 LSTM，完成一些序列到序列的工作。

我们用相同的 LSTM 稍微调整一下，来预测 Amazon 上评论的下一个字符。我们发现，如果你预测下一个字符足够好，就会有一个神经元在 LSTM 内对应于它的情绪。

这是一件很酷的事。因为它展示了无监督学习的一些效果，并验证了良好的下一个字符预测、下一个预测的想法，压缩具有发现数据中的秘密的特性，这就是我们在 GPT 模型中看到的。

*Yann LeCun，杨立昆：法国计算机科学家，卷积神经网络的创始人之一，于 2018 年获图灵奖。

*特德·姜：华裔美国科幻小说作家，《降临》原著作者，曾获得四项星云奖、四项雨果奖。

*Transformer：由谷歌在 2017 年推出的采用自注意力机制的深度学习模型，可以按输入数据各部分重要性的不同而分配不同的权重，现已逐步取代 LSTM 等 RNN 模型成为了 NLP 问题的首选模型。

先让 AI 打游戏，再有 GPT

伊尔亚：OpenAI 完成的第一个真正的大型项目是让 AI 体验一款实时战略游戏。实时战略游戏本质是一项竞技运动，你需要聪明，需要更快，需要快速反应和团队合作。因为你正在与另一个团队竞争，这是非常、非常复杂的。这个游戏有一个完整的联赛，这个游戏就是 Dota 2。

我们训练了一个强化学习 agent 来与自己对抗，目标是达到一定水平，可以与世界上最好的玩家竞争。这是一个重大的项目，它是一个非常不同的工作方向——强化学习。

黄仁勋：很多人觉得 OpenAI 做了很多类似这样的工作，有些看起来像是走了弯路，但事实上，它们可能真正导致了我们现在正在讨论的事情——ChatGPT的诞生。

伊尔亚：是的，它们已经真正开始闭环了。GPT 产生了技术基座，从 Dota 的强化学习转变到人类反馈的强化学习，这种组合又产生了 ChatGPT。

ChatGPT 是如何理解这个世界的？

黄仁勋：有一种误解，认为 ChatGPT 只是一个巨大的语言模型，但事实上围绕着它有一个相当复杂的系统。你能为我们简单解释一下吗？

伊尔亚：当我们训练一个大型神经网络来预测互联网上许多不同文本中的下一个词时，我们所做的是学习一个「世界的模型」。表面上看起来我们只是在学习文本中的统计相关性，但实际上只是去学习文本中的统计相关性就可以把这些知识压缩得非常好。

神经网络所真正学习的，是生成文本的过程中的一些表述——文本实际上是这个世界的一个映射。因此，神经网络正在学习从越来越多的角度去看待这个世界，看待人类和社会，看人们的希望、梦想、动机、交互和所处情境。此外，你对下一个词的预测越准确，还原度越高，在这个过程中你得到的世界的分辨率就越高。

这就是预训练阶段的作用。

但是这并不能让神经网络表现出我们希望它能够表现出的行为。一个语言模型真正要做的是回答以下问题：如果我在互联网上有一些随机的文本，以一些前缀、一些提示开始，它将补全什么内容呢？可能（AI）只是随机地用互联网上的一些文本来补全它。

但一个真实的、有帮助的，遵循某些规则的助手，是需要额外的训练的。这就是微调和来自于人类老师的强化学习以及其他形式的人工智能协助可以发挥作用的地方。人类老师与 AI 一起合作去教导我们的 AI 模型，但不是教它新的知识,而是与它交流和传达：我们希望它成为什么样。

这就是第二阶段（强化学习）。这个过程做得越好，神经网络就越有用、越可靠，所以第二阶段也是极其重要的。

ChatGPT 和 GPT-4 之间的主要区别是什么？

伊尔亚：两者之间最重要的区别，就是 GPT-4 预测下一个单词具有更高的准确度。

这是非常重要的，因为神经网络越能预测文本中的下一个词，它就越能理解它。这种说法现在也许已经被很多人接受了，但它可能仍然不直观，或者说不完全直观。我举个例子。假设你读了一本侦探小说，有复杂的故事情节、不同的人物、许多事件、还不清楚的神秘线索……然后在书的最后一页，侦探收集了所有的线索，召集了所有人，说：「我将揭示谁犯了罪，那个罪犯的名字是——」

这就是预测下一个词。

现在有许多不同的词，但是通过预测这些词可以让模型越来越好地理解文本。随着对文本的理解不断增加，GPT-4 预测下一个词的能力也变得更好。

GPT-4 没有内置检索功能，但是它可以

黄仁勋：GPT-4 有检索能力吗？

伊尔亚：我肯定有人会尝试使用 GPT-4 做查询，并把回答代入到上下文中。

但 GPT-4 并没有内置检索功能，它只是一个非常好的预测下一个词的工具。

但它具备这个能力，（在未来）它也将通过检索变得更好。

AI 的可靠性是最重要的

黄仁勋：GPT-4 表现出的哪个能力连你都很惊讶？

伊尔亚：简短的回答是，它的可靠性令人惊讶。如果你问之前的神经网络一个问题，它可能会以一种近乎愚蠢的方式回答。然而 GPT-4 不会让这种事发生。

它解决数学问题的能力变得更强大，你可以认为它真的进行了推导——长篇且负责的推导，并且还转换了单位等等。

就像许多人类一样，它是通过一步步的证明来工作的。虽然不是所有的证明都是那么自然的，但起码有很大一部分是。就像许多人注意到它可以用同一个字母开头的单词写诗，每个单词都很清晰地遵循着指令。虽然仍不完美，但是已经非常好了。

在视觉方面，我真的很喜欢它对网络梗图的解释。你给它看一个梗图并询问它这个为什么好笑，它会告诉你原因并且它说的还是对的，就像它真的可以看到那些图。

当你能用一些复杂的图像或图表来追问它问题并得到得到一个解释时，这真的太棒了。

GPT-4 识别出了这张图：这张图片中的幽默来自将过时的大型 VGA 连接器插入小型现代智能手机充电端口的荒谬做法。| 来源：GPT-4 发布会

多模态的意义——从图像中获取知识

黄仁勋：多模态*为什么如此重要，重大突破是什么，以及由此产生的特征差异是什么？

伊尔亚：多模态有两个维度让它如此有趣。

第一个原因有点谦虚——多模态是有用的，它对神经网络很有用，尤其是视觉。因为这个世界是非常视觉化的，人类是视觉动物，人类大脑皮层的三分之一都用于视觉。由于没有视觉，神经网络的用处虽然相当大，但并没有达到预期。而 GPT-4 可以「看」得很好。

第二个原因，除了从文本学习外，我们还可以从图像中学习这个世界的知识。

神经网络原本要从几十亿的文本中认知世界，现在这会变得更容易，甚至从数万亿的文本中学习就可以了。举个例子，比如颜色。人需要看到颜色才能理解颜色，但是神经网络在「一生中」从没有「看」过一张照片。如果你问它们哪些颜色更接近，它知道红色比蓝色更接近橙色，它也知道蓝色比黄色更接近紫色。这是怎么实现的？

答案是，这个世界的信息，甚至是视觉的信息会慢慢通过文本传播出去，但是非常缓慢。当你加入视觉信息并从视觉中学习知识，你就会额外学到这些无法通过文本获得的知识。

黄仁勋：从你们的数据来看，有哪些测试 GPT-3 表现得更好，哪些测试 GPT-4 表现得更好？多模态在这些测试中起了多少作用？

伊尔亚：一些数学竞赛中有很多图表，GPT-3.5 在测试中表现得相当差，只有文字模态的 GPT-4 大概是 2%-20% 的准确率，但当你添加视觉模态时，它会提升到 40% 的准确率。

*多模态：每一种信息的来源或者形式，都可以成为一种模态。例如人的听觉、视觉、嗅觉；信息的媒介，语音、视频、文字等。

AI 的终极目标是信任，人类的信任

黄仁勋：你认为大语言模型领域最终会去向何处？

伊尔亚：预测是困难的，尤其是对于太具体的事情，但我们有理由认为这个领域会持续进步，我们将继续看到 AI 在它的能力边界内继续震惊人类。

此外，AI 的可靠性是由是否可以被信任决定的，未来肯定会达到可被完全信赖的程度。如果它不能完全理解（问题），它也会通过提问来弄清楚。它会告诉你自己不知道，但同时会说它需要更多的信息。我认为这些是目前 AI 可用性影响最大的领域，也是未来会有最大的进步的领域。

因为现在，我们就面临着一个挑战：你想让一个神经网络去总结长的文档，获取摘要，挑战就是，能确定重要的细节没被忽略吗？

但是当你知道，所有的要点都被涵盖了，尤其是所有人都认为很重要的点被涵盖的时候，我们就会承认神经网络总结内容是很可靠的。对于内容生产也一样，它是否清楚地遵循用户的意图（这也会成为衡量可靠性的标准）。

未来两年，我们会看到很多这样的技术。

AI 终于不再渺小了

伊尔亚：我已经从事这项工作很长时间了，实际上几乎整整 20 年了。最让我感到惊讶的是它是真的有效，它似乎一直以来（对人们来说）都是个小事儿，但它现在不再渺小，变得更重要、更强烈。

它还是那个神经网络，只是变得更大，在更大的数据集上以不同的方式训练，但训练的基础算法都是一样的，这是最令我惊讶的！

每当我后退一步，我就会想，这些想法，这些概念性想法怎么可能呢？大脑有神经元，所以也许人工神经元也一样好，所以也许我们只需要用一些学习算法以某种方式来训练这些神经元，来将它们的参数调节到如此难以置信的正确，这本身就会是最大的惊喜。

英伟达 CEO 黄仁勋采访 OpenA 首席科学家：谈人工智能的未来完整视频 | 来源：腾讯视频

关注 Founder Park，我们将持续推出更全面更深度的大模型相关讨论与报道。

如果你有投身大模型创业的想法，欢迎加入我们的大模型相关领域交流群，来一起探讨大模型时代创业的共识和认知。

长按识别二维码填写入群申请表

关于交流群：

在 ChatGPT 发布后，我们迎来了一个全新的创业时代，似乎又回到了移动互联网早期——大量产品的方向和定义还不清楚的时代，我们希望把更多愿意思考和有创业意向的人聚集在一起，连接更多大模型领域的 doer（实干家），让更多有价值的认知在这里流动、碰撞、凝结，孵化出更多优秀的产品和项目。

Founder Park 计划搭建一个大模型相关领域的交流社区，面向有志于在大模型相关领域创业的创业者、产品经理、工程师、学者及投资人，围绕大模型相关创业的新项目、新赛道进行交流探讨。

在这里，你可以获得大模型相关领域的最新动态、高质量的对话交流，结识更多高净值的创业人群，同时，极客公园也会为优秀的项目提供资金、人才及其他资源的支持。

更多阅读

转载原创文章请添加微信：geekparker

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“上海王”柯庆施之死的真相

毕业论文辅导| 你又不是伞，硕士论文|毕业论文|博士论文|课题论文不行就被硬撑了,靠谱的辅导机构才是晴雨伞！

黄仁勋对话伊尔亚：关于科技，企业家和科学家之间最好的访谈

直觉告诉我，AI 一定会带来巨大影响力

最初没搞明白 GPU 怎么用

当初无法解决的，当初没人重视的

先让 AI 打游戏，再有 GPT

ChatGPT 是如何理解这个世界的？

ChatGPT 和 GPT-4 之间的主要区别是什么？

GPT-4 没有内置检索功能，但是它可以

AI 的可靠性是最重要的

多模态的意义——从图像中获取知识

AI 的终极目标是信任，人类的信任

AI 终于不再渺小了

您可能也对以下帖子感兴趣

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“上海王”柯庆施之死的真相

毕业论文辅导| 你又不是伞，硕士论文|毕业论文|博士论文|课题论文不行就被硬撑了,靠谱的辅导机构才是晴雨伞！

生成图片，分享到微信朋友圈

黄仁勋对话伊尔亚：关于科技 ，企业家和科学家之间最好的访谈

直觉告诉我，AI 一定会带来巨大影响力

最初没搞明白 GPU 怎么用

当初无法解决的，当初没人重视的

先让 AI 打游戏，再有 GPT

ChatGPT 是如何理解这个世界的？

ChatGPT 和 GPT-4 之间的主要区别是什么？

GPT-4 没有内置检索功能，但是它可以

AI 的可靠性是最重要的

多模态的意义——从图像中获取知识

AI 的终极目标是信任，人类的信任

AI 终于不再渺小了

您可能也对以下帖子感兴趣

黄仁勋对话伊尔亚：关于科技，企业家和科学家之间最好的访谈