查看原文
其他

COMPUTEX 2024:Jensen Huang主题演讲全文

常华Andy Andy730
2025-01-01
核心观点
  1. NVIDIA Rubin Platform
  2. NVIDIA业务的核心在于计算机图形学、模拟和人工智能的交汇点
  3. 基于CUDA的特定领域库是NVIDIA真正的“护城河”,目前已有350个库。
  4. CUDA经过20年的发展,已经形成了一个不断自我增强的良性循环:终端用户、开发者和应用、云服务商和OEM、研发规模、以及持续增加的用户基数。
  5. NVIDIA 的端到端以太网解决方案采用了四项关键技术:RDMA、实时遥测、自适应路由、噪声隔离。
  6. 计算膨胀(Computation Inflation):当前数据处理需求以指数级速率增长,但CPU性能提升已经无法跟上这种增长速度。
  7. 过去60年来,计算机行业一直沿用由IBM System/360开创的基于CPU的通用计算架构,包括操作系统、硬件和软件分离、多任务、I/O子系统和DMA等技术。数据中心的架构基本没有发生变化。然而,随着加速计算和人工智能的兴起,计算机行业将迎来重塑,计算系统架构的每一层都将经历变革
  8. ChatGPT的出现标志着生成式AI的兴起,AI已经从感知阶段(自然语言理解、计算机视觉和语音识别)迈入了生成阶段,并将对各个领域产生深远的影响。
  9. 交流发电机产生“电流”,AI工厂生成“token”,这代表着新一轮工业革命的到来。
  10. 训练AI模型另一种更为有效的方法:通过合成数据、模拟数据或计算机间的相互学习。
  11. 计算机不再仅仅是工具,而是技能的生成者,任务的执行者
  12. 下一代AI将是“物理AI”,能够理解物理定律,学会如何解释和感知世界,并与物理世界进行交互。
  13. 机器人技术将更加普及,并应用于各个领域。类人机器人只是其中一种,,一切都将走向机器人化
  14. 买越多,省越多(the more you buy, the more you save):速度提升100倍,能耗仅增加了3倍,成本仅为原来的1.5倍。
  15. 规模对可靠性的影响:一万个GPU组成的集群,AI计算机的平均故障间隔时间(MTBF)以小时计,但对于十万个GPU,必须以分钟计,否则,停机时间将不可接受。
  16. 网络利用率降低会直接影响训练时间,进而影响数据中心的运营成本。如果网络利用率降低40%,训练时间可能延长20%,导致原本成本为50亿美元的数据中心成本增加至60亿美元。


时间:2024年6月2日晚7点

会议:COMPUTEX 2024

我非常高兴能够再次来到这里,感谢台湾大学提供体育馆作为我们演讲的场地。上一次我来到这里,获得了一个荣誉学位,并发表了题为《跑,不要走》(Run, Don't Walk)的演讲。

今天,我们有很多内容要分享,所以我不能慢慢走,而要加快步伐。我有很多信息要传达给大家,能够来到台湾,我感到非常高兴,因为这里是我们宝贵合作伙伴的家园。事实上,台湾是NVIDIA的起点,我们与合作伙伴共同努力,将其推向全球。

台湾与我们的合作伙伴关系共同构建了今天的全球AI基础设施。今天我想分享几个话题:
  • 一是我们共同工作的意义与现状,
  • 二是生成式AI及其对我们行业乃至每个行业的影响,
  • 三是我们如何把握这一巨大机遇以及未来的规划。

关于生成式AI的影响、我们的蓝图以及未来的发展趋势,这确实是一个令人振奋的时代,我们的计算机行业正在经历一次重启,这是一个由你们塑造、由你们创造的行业,现在,你们已经准备好迎接下一个重要的旅程。

但在开始之前,我想强调,NVIDIA位于计算机图形学、模拟和人工智能的交汇点,这是我们的精髓所在。今天我所展示的一切,都是基于模拟、数学、科学、计算机科学和令人惊叹的计算机架构,没有任何动画,全是实实在在的。这就是NVIDIA的灵魂,我们将其全部融入了我们称之为Omniverse的虚拟世界中。

基于你们所看到的,有两项基本技术:加速计算和人工智能,它们运行在Omniverse中。这两项技术,这两个计算的基本力量将重塑计算机行业。计算机行业已经走过了60年的历程,在很多方面,我们今天所做的一切都是基于1964年在我出生不久后发明的技术。IBM System/360引入了中央处理单元、通用计算、通过操作系统实现硬件和软件的分离、多任务、IO子系统、DMA等我们今天所使用的各种技术,架构兼容性、向后兼容性、系列兼容性,这些我们今天所知的计算概念几乎都在1964年得到了描述。当然,PC革命使计算变得普及,进入了每个家庭。然后在2007年,iPhone引入了移动计算,将计算机放入了我们的口袋。从那时起,一切都始终连接并运行在移动云上。

在过去的60年里,我们经历的重大技术转变其实只有两三次,但每次都是计算的颠覆性转变,一切都随之改变。现在,我们即将再次见证这样的变革。

正在发生的两个基本情况是:第一,计算机行业的核心——中央处理单元(CPU)的性能提升已经大幅放缓,但我们需要处理的数据量仍在迅速增长,呈指数级扩展。如果处理需求和需要处理的数据继续以指数级增长,但性能没有相应提升,我们将面临“计算膨胀”(Computation Inflation)的困境。事实上,我们现在就正处于这种境地。全球各地数据中心的耗电量正在显著增长,计算成本也在增加,我们正在经历计算膨胀。这显然无法持续下去,数据将继续以指数级增长,而CPU的性能提升将永远不会恢复。

有一个更好的解决方案。近二十年来,我们一直致力于加速计算。CUDA增强了CPU的能力,卸载并加速了专用处理器能够更好完成的工作。实际上,性能提升如此显著,现在很明显,随着CPU扩展的放缓甚至几乎停滞,我们应该加速一切。我预测每个计算密集型应用都将被加速,几乎每个数据中心都将采用加速计算。

加速计算是明智之选,也是非常基本的常识。如果你观察一个应用程序,这里的“100t”代表100单位的时间,可以是100秒,也可以是100小时,在很多情况下,我们现在处理的人工智能应用需要运行100天。单线程CPU对于需要顺序处理的代码非常重要,例如操作系统、控制逻辑,这些需要一个指令接着一个指令地执行。然而,有许多算法,如计算机图形学,可以完全并行操作。计算机图形学、图像处理、物理模拟、组合优化、图处理、数据库处理,当然还有深度学习中非常著名的线性代数,有许多类型的算法非常适合通过并行处理进行加速。

因此,我们设计了一个架构,通过向CPU添加GPU,使专用处理器能够将需要大量时间的任务加速到极快的程度。由于这两个处理器可以协同工作,它们是自主的,是独立的,我们可以将以前需要100单位时间的任务加速到仅需要1个单位时间。速度提升非常惊人,几乎令人难以置信,但今天我会为大家展示许多实例,效果非常显著,性能提升了100倍,但功耗仅增加了约三倍,成本仅增加了约50%。在PC行业,我们经常这样做:在一个价值1000美元的PC中添加一个价值500美元的GeForce GPU,性能就会显著提升。我们在数据中心也采取了类似的操作,一个价值十亿美元的数据中心,在添加了5亿美元的GPU后,瞬间升级为AI工厂。这种现象正在全球范围内广泛发生。

节省效果非常明显,每投入一美元,性能提升了60倍,速度提升了100倍,而功耗仅增加了3倍,成本仅增加了1.5倍。节省的效益是惊人的,用钱来衡量的话,效果令人难以置信。许多公司投入数亿美元在云端处理数据,若加以加速,预计能节省数亿美元。

为什么会这样呢?原因非常明确,在通用计算领域,我们经历了长时间的膨胀,现在终于决定进行加速。大量曾经的损失现在可以挽回,大量的冗余现在可以从系统中移除,这将转化为金钱和能源的节省。

这就是我经常说的“买越多,省越多”的原因,现在我为大家揭示了背后的数学原理。虽然CEO的数学可能不精确,但道理是正确的。

加速计算确实带来了惊人的结果,但这并不容易实现。为什么它能节省这么多钱,而人们却迟迟未能实现呢?因为这非常困难。没有一种软件可以直接通过C语言编译器运行,就能瞬间让应用程序提速100倍。如果那么简单,他们早就改进CPU来实现了。实际上,你必须重写软件,这就是难点所在。软件需要完全重写,以便重新表达原来在CPU上运行的算法,使其能够加速、卸载和并行运行。这种计算机科学的工作极具挑战性。

在过去的20年里,我们使这项工作变得容易多了。当然,cuDNN这样的深度学习库处理神经网络非常出色,我们还有一个用于AI物理的库,适用于流体动力学和许多需要遵守物理定律的应用。我们还有一个很棒的新库叫Aerial,它是一个CUDA加速的5G无线电库,可以软件定义并加速电信网络,就像我们软件定义了世界的互联网网络一样。

通过加速,我们可以将整个电信行业转变为一个计算平台,就像我们在云端所做的那样。Kitho是一个计算光刻平台,能够处理芯片制造中最计算密集的部分——制作掩模。台积电正在使用Kitho进入生产阶段,节省了大量能源和投资,但台积电的目标是加速他们的技术堆栈,以便为更高级的算法和更多的计算做好准备。Parabricks是我们的基因测序库,它是世界上最高吞吐量的基因测序库。CuOpt是一个用于组合优化的库,可以进行路线规划优化,解决旅行商问题。这个问题非常复杂,人们普遍认为需要量子计算机来解决。但我们创造了一种算法,在加速计算上运行,速度极快,创造了23项世界纪录,今天我们依然保持着所有主要的世界纪录。

cuQuantum是一个量子计算机的仿真系统。如果你想设计量子计算机,你需要一个模拟器;如果你想设计量子算法,你需要一个量子仿真器。那么如何做到这一点呢?如何在量子计算机还不存在的情况下设计这些量子计算机和量子算法?你使用今天世界上最快的计算机,我们称之为NVIDIA CUDA,并在其上运行一个模拟器来模拟量子计算机。它被全球数十万研究人员使用,集成到所有领先的量子计算框架中,并在全球科学超级计算中心中使用。

RAPIDS cuDF是一个令人惊叹的数据处理库,数据处理占据了今天云支出的主要部分,所有这些都应该加速。cuDF加速了世界上使用的主要库,包括Spark(许多公司正在使用的数据处理工具)、Pandas(数据处理的新星)、Polar(一个新的库)以及NetworkX(一个图处理库)。因此,这些只是其中的一些例子,还有许多其他的例子。每一个库都需要被创建,以便我们能够让生态系统利用加速计算。

如果我们没有创建cuDNN,仅凭CUDA还无法让全球的深度学习科学家使用。因为CUDA与TensorFlow、PyTorch中的算法之间存在巨大的差异,这就像试图在没有OpenGL的情况下进行计算机图形学,或在没有SQL的情况下进行数据处理。这些特定领域的库是我们公司的真正财富。我们拥有350个这样的库,这些库使我们在众多市场中占据了一席之地。

上周,Google宣布他们在云端部署了cuDF,加速了Pandas。Pandas是世界上最流行的数据科学库,许多人可能已经在使用Pandas。全球有1000万数据科学家正在使用它,每月的下载量高达1.7亿次。Pandas是数据科学家的电子表格。现在,只需点击一下,你就可以在Google的云数据中心平台Colab中使用Pandas,并通过cuDF进行加速。速度提升极为显著,让我们来看看实际效果。

这是一次精彩的演示,对吧?当你加速数据处理时,演示时间就不会太长。

好的,现在CUDA已经达到了一个所谓的临界点,但实际上它更像是一个不断自我增强的良性循环。回顾历史上的所有计算架构和平台,微处理器CPU已经走过了60年的历程,这60年间其计算方式并未发生根本性变化。加速计算虽然早已存在,但创建一个全新的平台却异常艰难,这如同一个“鸡生蛋,蛋生鸡”的难题。没有开发者使用你的平台,自然就不会有用户;没有用户,就无法形成庞大的用户基础;没有用户基础,开发者就不会感兴趣。开发者希望为庞大的用户基础编写软件,而庞大的用户基础则需要大量的应用程序来吸引用户。这个“鸡生蛋,蛋生鸡”的难题很少能被轻易打破,但我们通过20年的不懈努力,一个领域库接一个领域库,一个加速库接一个加速库,如今我们在全球已经拥有了500万开发者。我们服务于各个行业,从医疗保健、金融服务,到计算机行业、汽车行业,几乎覆盖了全球每一个主要行业和科学领域。因为有如此多的客户采用我们的架构,OEM厂商和云服务商也对我们的系统产生了浓厚的兴趣。系统制造商,如台湾的系统制造商,也对我们的系统表现出了极大的兴趣,这使得市场上的系统选择更加多样,为我们创造了更大的机会,从而让我们能够加大研发投入,进一步加快应用程序的速度。

每当我们加快应用程序的速度,计算成本就会随之下降。正如我之前展示给你们看的幻灯片所示,100倍的加速能够转化为96%到98%的成本节省。因此,当我们从100倍加速提升至200倍、再至1000倍时,计算的边际成本将继续大幅度降低。我们坚信,通过大幅降低计算成本,市场上的开发者、科学家和发明家将不断发现更多、更复杂的算法,这些算法将消耗越来越多的计算能力。直到有一天,计算的边际成本将变得如此之低,以至于会催生出一种全新的计算机使用方式。事实上,这正是我们现在所看到的。多年来,我们已经将计算的边际成本降低了百万倍。结果是,现在训练大规模语言模型,使用互联网上的所有数据,已经变得非常合理且司空见惯。没有人会对此提出质疑,这种能够处理如此庞大数据量并自动编写软件的计算机的出现,正是因为我们坚信,只要让计算变得越来越便宜,总会有人找到其绝妙的用途。

今天,CUDA已经达到了这个良性循环,用户基础持续增长,计算成本不断下降,这激发了更多开发者的创意,进而推动了更多需求。现在我们正站在一个非常重要的起点上。但在我向你们展示这一切之前,我想先强调的是,如果没有CUDA的出现,如果我们没有创造出这场现代版的AI大爆炸——生成式AI,这一切都是不可能的。

接下来,我要向你们展示的是“地球二号”的概念,即我们将创建地球的数字孪生体,模拟地球,以便我们能够预测未来的气候变化,更好地预防灾害,或者更深入地理解气候变化的影响,从而更好地适应并改变我们的行为习惯。这个数字孪生地球可能是世界上最雄心勃勃的项目之一,我们每年都会取得显著的进展,每年我都会向你们展示我们的成果。今年,我们取得了一些重大的突破,让我们一起来看看。

未来某一天,我们将能够在地球上的每一个平方公里范围内,进行连续的天气预测。你将永远知道气候将会如何变化,因为我们训练了AI,而AI所需的能量非常少。这是一个了不起的成就,我希望你们喜欢它。非常重要的是,实际上刚才说话的并不是我,而是一个Jensen AI。这段话是我写的,但必须由AI Jensen来朗读,因为我们一直致力于不断提高性能、降低成本。

2012年,研究人员发现了AI的潜力,并发现了CUDA,这是NVIDIA与AI的首次深度接触,这是一个具有里程碑意义的日子。我们很荣幸能与科学家们合作,使深度学习成为可能,AlexNet取得了计算机视觉领域的巨大突破。但我们的最明智之举是退后一步,深入理解深度学习的背景、基础以及其长远的影响和潜力。我们意识到这种技术有着巨大的扩展空间,一种几十年前就已发明和发现的算法,因为更多的数据、更大的网络和更强的计算能力,深度学习突然之间实现了人类算法无法达到的目标。

现在,想象一下,如果我们进一步扩展架构,拥有更大的网络、更多的数据和更强的计算能力,将会带来怎样的可能性?因此在2012年之后,我们致力于重塑一切。我们改进了GPU的架构,增加了Tensor Cores,发明了NVLink,这些都是十年前的事情。现在我们还有CNN、TensorRT、NCCL等技术,我们收购了Mellanox、TensorRT-LLM、Triton推理服务器等公司,所有这些都汇集在一台全新的计算机上。当时没有人理解它,没有人要求它,甚至没有人认为它可行,事实上我确信当时没有人会购买它。

我们在GTC上宣布了这款产品后,OpenAI这家位于旧金山的小公司看到了它的潜力,他们要求我们提供一台。于是,2016年,我将世界上第一台AI超级计算机DGX交付给了OpenAI。

从那之后,我们持续扩展,从单一的AI超级计算机,扩展到大型超级计算机,甚至更庞大的超级计算机群。2017年,全球瞩目于Transformer架构的崛起,它使我们能够训练海量数据,并识别和学习长时间序列的模式。如今,我们有能力训练这些庞大的语言模型,以理解和突破自然语言理解的边界。

继续前行,到了2022年11月,OpenAI在由成千上万台NVIDIA GPU组成的巨型AI超级计算机上训练了ChatGPT,并宣布其发布。短短五天内,用户量达到一百万,两个月内便激增到一亿,成为史上增长最快的应用。背后的原因非常简单:ChatGPT使用起来极易上手,且效果令人惊艳,它能够与人类自然地进行交互。

ChatGPT向世界展示了一个重要的转变。在它出现之前,AI主要关注于感知,如自然语言理解、计算机视觉和语音识别。而ChatGPT的出现,标志着世界首次见证了生成式AI的力量。它能够逐个生成词汇,这些词汇不仅限于文字,还可以是图像、表格、歌曲、语音、视频,甚至是化学分子、蛋白质基因。在“地球二号”项目中,我们甚至能够生成天气预测模型。这种方法几乎可以生成任何有价值的东西,从汽车的转向控制到机器人的运动控制,所有可学习的事物现在都可以被生成。我们现在已经不仅仅是进入了AI时代,而是迈入了生成式AI的新纪元。

这台最初被设计作为超级计算机的设备,如今已经转型为一个数据中心,并且只生产一种东西:token。我们称之为“AI工厂”。这个AI工厂正在不断生成、创造和生产一种极具价值的新商品。回顾历史,19世纪末的尼古拉·特斯拉发明了交流电发电机;而我们则发明了AI发电机。交流电发电机产出电能;而NVIDIA的AI发电机则产出token。两者都蕴含着巨大的市场潜力,几乎在每个行业中都拥有完全可替代的价值,这正是新一轮工业革命的标志。

我们现在拥有了一个新型工厂,它为每个行业都提供了一种极具价值的新产品。这种方法的可扩展性极强,并且这种模式是可以复制的。值得注意的是,每天都有众多不同的AI模型和生成式AI模型被迅速研发出来。每一个行业都在快速地跟上这一趋势。

价值3万亿美元的IT行业即将研发出能直接服务于100万亿美元产业的技术。这项技术不再局限于信息存储或数据处理,而是将成为每个行业智能生成的工厂。这将是制造业的一次革新,不过并非制造计算机的制造业,而是利用计算机进行制造的全新行业。这在历史上是前所未有的,确实是一项非凡的成就。从加速计算到人工智能,再到生成式AI,如今我们正迎来一场工业革命。

如今,这对我们行业的影响也极为深远。当然,我们可以为众多行业创造一种新产品,即我们所说的“token”。但对我们自身的改变也是巨大的。正如我之前所言,过去60年里,计算的每一层都经历了变革。从CPU的通用计算到GPU的加速计算,计算机需要遵循指令。而现在,计算机处理的是LLM、AI模型,而过去的计算模型是基于检索的,每次你使用手机时,它都会为你检索一些预先录制的文本、图像或视频,并根据推荐系统重新组合,基于你的习惯呈现给你。但在未来,你的计算机将更多地生成数据,只检索必要的信息。这样做的原因是生成的数据需要更少的能量来获取信息,而且生成的数据也更加具有上下文相关性,它会编码知识,理解你,而不是“为我获取信息”或“为我获取文件”,你只需说,“给我一个答案”。

如今,计算机不再仅仅是工具,而是技能的生成者,任务的执行者。软件生产行业在90年代初曾是革命性的概念。还记得微软创造的软件包装理念如何彻底改变了PC行业吗?没有软件包装,我们如何使用PC?这推动了整个行业的发展。现在我们拥有了一种新型的工厂和计算机,其上运行着一种新型的软件,我们称之为为NIMs(NVIDIA Inference Microservices)。这个NIMs运行在AI工厂内部,它是一个预训练的AI模型,其复杂性和计算栈的复杂性都达到了前所未有的高度。

当你使用ChatGPT时,背后其实运行着一系列复杂的软件,这些软件分布在多个GPU上,采用了张量并行、管道并行、数据并行和专家并行等多种并行方式,以最快速度处理工作负载。在工厂环境中,吞吐量直接关系到收入、服务质量和用户数量。因此,现在数据中心的吞吐量利用率变得至关重要。

我们意识到这对于大多数公司来说可能过于复杂,因此我们推出了AI in a box(AI一体机),内部集成了大量的软件,包括CUDA、cuDNN、TensorRT、Triton推理服务等。它是云原生的,支持在Kubernetes环境中自动扩展,具备管理服务和挂钩功能,方便监控AI,提供标准API,允许与这个一体机进行交互。只要你的计算机上安装了CUDA,它就可以运行。这个NIMs已经在我们庞大的云端安装基数上经过了测试,包括Pascal、Ampere和Hopper等不同版本,还有众多不同的版本,甚至有一些我都已经忘记了。NIMs是一项令人难以置信的发明,也是我个人最喜爱的产品之一。

当然,如你所知,我们现在有能力创建各种大型语言模型和预训练模型,无论是基于语言、视觉、成像,还是应用于医疗、数字生物学等领域的版本。

我们甚至还有数字人类的版本。你可以访问ai.nvidia.com,今天我们在Hugging Face上发布了全面优化的Llama 3 NIMs,你可以在那里试用,甚至可以免费下载。无论在哪个云端运行它,或者将这个容器下载到你的数据中心,都可以为你的客户提供服务。

我们提供了涵盖各个领域的NIMs,包括物理学的NIMs、语义检索(RAG)的NIMs、视觉的NIMs以及多种语言的NIMs。使用这些NIMs的方式是将这些微服务集成到大型应用程序中。未来最重要的应用之一将是客户服务代理,几乎每个行业都需要客户服务代理,全球范围内的客户服务市场规模高达数万亿美元。护士在某种意义上也是客户服务代理,他们在某些非处方或非诊断的领域扮演着重要的角色。零售、快餐、金融服务、保险等各行各业都有数千万的客户服务可以通过语言模型和AI进行增强。

这些NIMs基本上是一些智能代理,它们各自扮演着不同的角色:有推理代理,负责接收任务并规划执行步骤;有信息检索代理;有搜索代理;还有使用特定工具的代理,如之前提到的Kuop工具,可能需要运行在SAP系统上,学习ABAP这种特定的编程语言,或执行SQL查询。所有这些NIMs都是各自领域的专家,它们现在被组织成一个高效的团队。应用层也随之发生变革,从过去依赖指令编写的应用程序转变为现在的团队化、协作式应用程序。

编写程序对于大多数人来说并非易事,但几乎每个人都知道如何分解问题并组建团队。我坚信,未来每家公司将拥有大量的NIMs集合,你可以根据需求挑选专家,并将它们组成一个高效的团队。你甚至不需要深入了解如何连接它们,只需将任务交给一个智能代理或NIMs,它会负责任务的分解、分配以及最终结果的整合。团队成员完成任务后,会将结果汇报给团队领导,团队领导则负责推理和整合信息,然后将其呈现给你,整个过程如同人类团队协作一般。

这就是我们未来应用程序的形态。当然,我们可以通过文本和语音与这些大型AI服务进行交互,但在许多场景下,我们更希望与一个类人形态的数字人互动。NVIDIA一直在积极开发数字人类技术,接下来就由我为大家展示。在此之前,我想说的是,数字人类有望成为与人类互动的优秀界面,使互动更加引人入胜,更富有同情心。不过,我们仍需跨越“逼真鸿沟”,让数字人类看起来更加自然。

这些Ace既可以运行在云端,也可以运行在PC上。我们很早就预见到这一趋势,因此在所有RTX GPU中都集成了Tensor Core,我们已经出货了一段时间的AI GPU,为这一天的到来做好了准备。原因很简单,为了创建一个新的计算平台,你需要先建设基础设施,最终应用程序才会随之而来。如果你不建设基础设施,应用程序就无法实现。因此,我们在每个RTX GPU中都安装了Tensor Core处理器,现在全球有1亿台GeForce RTX AI PC,我们还在推出200万台新的高性能笔记本电脑,它们都能够运行AI。

未来的笔记本电脑和PC将成为AI的载体,它们将在后台默默地帮助你、协助你。PC还将运行由AI增强的应用程序,无论是照片编辑、写作还是其他工具,所有你使用的应用都将得到AI的加持。你的PC还将托管带有数字人类的应用程序,这些应用本身就是AI。因此,AI将以不同的形式在PC上展现并得到应用,PC将成为一个非常重要的AI平台。

接下来我们将走向何方?之前我提到了我们数据中心的扩展,每一次扩展都标志着一次新的变革。当我们从DGX扩展到大型AI超算时,我们能够训练处理海量数据集的Transformers。最初的数据是由人类监督的,需要人工标注来训练AI。然而,人工标注的数据量是有限的。Transformers的出现使无监督学习成为可能。现在,Transformers只需浏览海量数据、视频或图像,就能通过研究大量数据自行找出模式和关系。

下一代AI必须根植于物理基础。目前,大部分AI系统对物理定律缺乏理解,难以与真实世界形成有效连接。为了生成图像、视频、3D图形以及模拟各种物理现象,我们需要AI不仅基于物理定律,还要能深入理解这些定律。虽然视频学习是一种途径,但另一种更为有效的方法是通过合成数据、模拟数据或计算机间的相互学习来实现。这与AlphaGo的自我对弈类似,通过不断的自我博弈,双方能力逐步提升,变得更加智能。很快,我们将见证这种AI的崛起。如果AI数据是合成生成的,并借助强化学习,那么数据生成的速度将持续攀升。每当数据生成量增加时,对计算能力的需求也会相应提高。

我们正步入一个新时代,AI能够学习物理定律,并理解和应用物理世界的数据。因此,我们预测模型规模将继续扩大,对GPU的需求也将更为庞大。Blackwell正是为了满足这一代AI的需求而设计的。Blackwell拥有多项关键技术,其中之一是芯片的尺寸。我们采用了TSMC能够制造的最大芯片,并通过每秒10TB的链接将两个芯片紧密连接。接着,我们将这两个芯片放置在一个计算节点上,与一个灰色CPU协同工作。在训练过程中,灰色CPU可以迅速完成检查点和重启,而在推理和生成过程中,它则用于存储上下文记忆,帮助AI理解对话的上下文。Blackwell搭载了第二代Transformer引擎,能够根据计算层所需的精度和范围动态调整至较低精度。同时,这也是我们第二代具备安全AI功能的GPU,旨在保护您的AI免受盗窃或篡改的风险。此外,Blackwell还集成了第五代NVLink技术,能够轻松连接多个GPU。值得一提的是,我们还首次引入了可靠性和可用性引擎,可以测试每个晶体管、触发器、芯片内存和芯片外存,以便在现场确定特定芯片是否出现故障。

对于超级计算机而言,平均故障间隔时间(MTBF)在拥有一万个GPU时以小时计,而在拥有十万个GPU时则以分钟计。如果不采用新技术来提高其可靠性,超级计算机长时间运行和训练模型几乎是不可想象的。因为可靠性直接关系到运行时间,进而影响到成本。最后,数据压缩引擎也是Blackwell的关键任务之一。我们增加了一个数据解压引擎,使得从存储中提取数据的速度比当前快了20倍。Blackwell集成了这些先进技术,实力不容小觑。

在GTC大会上,我展示了尚处于原型阶段的Blackwell。现在,它已经正式投入生产。这是Blackwell的生产版主板,它是目前世界上性能最强大、结构最复杂的计算机。灰色CPU就位于其中,而每个黑色芯片则是由两个相互连接的Blackwell芯片组成,它们通过每秒10TB的链接紧密相连。

从计算能力来看,AI的FLOPS(每秒浮点运算次数)每代增长高达1000倍,而摩尔定律在同一时期内仅能提供40至60倍的提升。更值得注意的是,在过去八年里,摩尔定律的增长速度已经大幅放缓。

通过提升计算能力,现在训练一个拥有2万亿参数、8万亿Tokens的GPT-4模型所需的能量相比之前减少了350倍。使用Pascal架构时需要消耗1000GW·小时的能量,即使是千兆瓦数据中心也需要一个月的时间才能完成。而如果是100MW的数据中心,则需要大约一年的时间。正因如此,八年前的大型语言模型,如ChatGPT,在当时几乎是无法实现的。然而,通过Blackwell带来的性能提升和能效优化,现在能量需求已降低至3GW·小时。这意味着,一个拥有一万个GPU的数据中心现在只需10天就能完成训练。

在推理方面,每生成一个Token的能耗降低了惊人的4.5万倍。使用Pascal架构时,生成一个Token需要消耗17.7万焦耳的能量,这相当于两个灯泡运行两天的能耗。而现在,使用Blackwell,每生成一个Token仅需0.4焦耳的能量,真正实现了以极低的能耗生成Token。

尽管如此,我们仍需要构建更大规模的机器。这是我们的Blackwell芯片,安装在DGX系统中。这个版本采用了风冷设计,内置八个GPU,每个GPU都配备了巨大的散热片,整体功耗约为15千瓦。这个版本支持x86架构,可以与我们之前的Hopper系统无缝兼容。如果您需要液冷系统,我们还有新的模块化系统MGX。MGX系统能够容纳四个Blackwell芯片,每个芯片都配备了液冷装置。九个这样的系统可以容纳72个GPU,并通过新一代NVLink技术实现互联。NVLink交换机堪称技术奇迹,它能以惊人的数据速率将所有Blackwell芯片互联,使得它们在一个GPU域内表现得如同一个巨型GPU。

与上一代八个GPU相比,带宽增加了18倍,AI FLOPS提升了45倍,而功耗仅增加了10倍。

MVLink交换机无疑是技术领域的杰作,它拥有惊人的500亿个晶体管,74个端口,每个端口均能达到400Gbps的带宽,整体带宽高达7.2TB/s。而其最引人瞩目的特点之一是,交换机内部集成了数学计算单元,能够在芯片上直接执行归约计算,这对于深度学习来说至关重要。

许多人对NVIDIA的发展路径感到好奇,疑惑为何一个专门制造GPU的公司能发展到如此规模。大家眼前的这款GPU,是目前市场上最先进的游戏GPU之一,但真正的“硬核”GPU却远不止于此。

各位,请看这款DGX GPU,它背后是强大的NVLink主干,由5000根铜线组成,总长度长达两英里。

这就是NVLink主干,它连接了702个GPU,堪称电气与机械领域的奇迹。这些铜线驱动的NVLink交换机,让我们在一个机架内节省了20千瓦的电力,这些电力现在可以完全用于计算处理,这一成就令人难以置信。

然而,即便如此,单个机架的计算能力仍然无法满足AI工厂的需求。因此,我们需要通过高速网络将所有GPU连接成一个整体。我们提供了两种网络选择:InfiniBand和以太网。InfiniBand已经在全球范围内的超级计算和AI工厂中得到了广泛应用和迅速发展。但并非所有数据中心都支持InfiniBand,因为很多数据中心已经在以太网生态系统中投入了大量资源,并且管理InfiniBand也需要专业的技术支持。因此,我们努力将InfiniBand的能力引入到以太网架构中,这其中的挑战不言而喻。

以太网原本设计用于高平均吞吐量,每个节点通常与互联网上的不同用户连接,数据中心的大部分通信也是面向互联网的。但在深度学习和AI工厂中,GPU之间的通信模式截然不同。它们需要收集部分计算结果,然后进行归约并重新分配,这种通信是高度突发性的。对于以太网来说,这种模式是一个全新的挑战,因为它更关注平均吞吐量而非最后一个到达的数据包。

为了解决这个问题,我们创造了一种端到端的架构,使网卡和交换机能够高效通信,并采用了以下四项关键技术:

  • NVIDIA拥有全球领先的RDMA技术,现在我们已经能够在以太网上实现网络级RDMA。
  • 我们的交换机具备实时遥测功能,当GPU或网卡发送过多数据时,能够智能地通知它们减少发送量,从而避免热点拥堵。
  • 自适应路由。以太网通常按顺序传输和接收数据,但我们的系统能够根据网络拥塞情况将数据发送到未被充分利用的端口,BlueField在另一端重新排序,确保数据按顺序返回。
  • 噪声隔离。在数据中心中,多个模型可能同时训练,产生的噪声可能干扰其他模型的通信。我们的系统能够隔离这些噪声,确保每个模型的通信都不受影响。

网络利用率的降低会直接影响训练时间,进而影响数据中心的运营成本。如果网络利用率降低40%,训练时间可能延长20%,这将使一个原本价值50亿美元的数据中心成本增加至60亿美元。因此,提高网络性能、降低成本具有极其重要的意义。NVIDIA的Spectrum X平台让我们能够大幅提升性能,使网络成本几乎降至零。

我们拥有一系列以太网产品线,其中Spectrum X800的带宽高达51.2Tbps,支持256个Radix;接下来的产品Spectrum X800 Ultra支持512个Radix;而X1600则是为更大规模的数据中心设计的。

未来,我们将看到拥有上百万个GPU的数据中心,因为我们需要训练更大规模的模型以满足日益增长的需求。未来的每一次互联网交互都可能涉及在云端运行的生成式AI,这些AI将为用户生成视频、图像、文本甚至数字人类。大部分生成式AI将在云端运行,这将带来巨大的计算需求。

Blackwell平台是NVIDIA在生成式AI时代推出的第一代产品。随着全球对AI工厂的认识不断加深,我们得到了各大OEM、计算机制造商、CSP、GPU云、主权云、电信公司和企业的鼎力支持。Blackwell平台在全球范围内取得了巨大的成功。

未来,我们将继续提升性能、降低训练和推理成本,并不断扩大AI的边界。每一代平台都是一个完整的解决方案,包括CPU、GPU、NVLink、网卡和交换机。我们构建并集成整个平台,然后将其解耦并提供给大家,使大家可以根据需求创建模块化的系统。

Blackwell平台的核心理念是构建整个数据中心规模的系统,然后解耦并分发给用户,以满足不同数据中心和客户的独特需求。

我们每年都会推出一代新产品,并将技术推向极限。明年,将迎来Blackwell Ultra的时代,如同H100和H200一样,我们将带来令人瞩目的新一代产品。每一代产品都力求突破技术极限,并确保所有软件在整个安装基础上顺畅运行。在计算机领域,软件惯性是至关重要的因素,向后兼容性让市场推广更为迅速。

Blackwell平台已经全面铺开,明年Blackwell Ultra将闪亮登场。与H100和H200一样,你们将见证Blackwell Ultra新一代产品的惊艳之处,再次引领技术风潮。至于我提到的下一代Spectrum交换机,这是首次透露,我虽有些犹豫是否过早提及,但相信你们会理解。在公司内部,我们为新产品设置了代号,并努力保密,甚至许多员工都不知道。

我们的下一代平台被命名为Rubin平台,是的,Rubin平台。关于它的细节,我不会过多介绍,因为我知道你们会拍照记录,深入研究。一年之后,我们还将推出Rubin Ultra平台。我所展示的所有芯片都在全力开发中,100%完成开发,每年都在技术极限上前进,并且100%在架构上兼容。

这就是NVIDIA正在构建的未来,以及基于这一平台软件的无限可能。

在很多方面,从那个时刻的想象力到我们意识到计算的未来将会发生根本性变化的这12年,确实就像我之前展示的那样,GeForce 2010年左右的NVIDIA公司和今天的NVIDIA公司发生了巨大的转变。在此,我要感谢所有合作伙伴的一路支持。

这就是NVIDIA的Blackwell平台。

接下来,让我们谈谈未来的趋势。下一波AI浪潮是物理AI,即能够理解物理定律的AI,它们将能够在我们周围高效工作。因此,它们必须理解世界模型,学会如何解释和感知世界。当然,出色的认知能力也是必不可少的,以便它们能够理解我们,满足我们的需求,并执行各种任务。

展望未来,机器人技术将更加普及。当我说到机器人技术时,你们可能会想到类人机器人,但这只是冰山一角。一切都将走向机器人化,工厂将全面实现机器人化,机器人将协调生产,机器人与机器人互动,共同制造机器人产品。要实现这一目标,我们需要取得一些关键性的突破。

-----[视频脚本开始]-----

机器人时代已经悄然来临。未来,所有移动的物体都将是自主驱动的。全球的研究人员和公司正在开发由物理AI驱动的机器人。物理AI是一种能够理解指令并在现实世界中自主执行复杂任务的模型。多模态LLM技术的突破,使机器人能够学习、感知和理解周围的世界,并规划行动。通过人类示范,机器人现在可以学习与世界互动所需的技能,无论是粗略还是精细的运动技能。

在推动机器人技术发展的众多技术中,强化学习扮演着重要角色。正如LLM需要通过人类反馈进行强化学习(RLHF)以掌握特定技能一样,生成物理AI也能通过物理反馈进行强化学习,在模拟环境中学习技能。这些模拟环境是机器人学习在遵守物理定律的虚拟世界中做出决策的场所。在这些“机器人健身房”中,机器人可以通过数百万次的试错动作,安全快速地学习执行复杂而动态的任务。为此,我们构建了NVIDIA Omniverse作为创建物理AI的操作系统。Omniverse是一个虚拟世界模拟开发平台,结合了实时物理渲染、物理模拟和生成AI技术。在Omniverse中,机器人可以学习如何成为真正的机器人,它们学习如何自主精确地操纵物体,如抓取和处理物体,或者自主导航环境,找到最佳路径,同时避开障碍物和危险。

在Omniverse中学习极大地减少了模拟与现实之间的差距,并最大限度地转移了学习到的行为。构建具有生成物理AI的机器人需要三种计算机:用于训练模型的NVIDIA AI超级计算机,运行模型的NVIDIA Jetson Orin和下一代Jetson Thor机器人超级计算机,以及用于机器人在模拟世界中学习和完善技能的NVIDIA Omniverse。我们为开发人员和公司提供了所需的平台、加速库和AI模型,并允许他们选择最适合自己的技术堆栈。下一波AI浪潮已经到来,由物理AI驱动的机器人将引领各行各业的革命性变革。

-----[视频脚本结束]-----

这不是未来,而是正在发生的现实。

我们将通过多种方式服务市场。首先,我们将为各类机器人系统打造平台,其中包括适用于工厂和仓库的机器人、用于物体操纵的机器人、移动机器人,以及类人机器人系统。这些机器人平台就像我们的其他产品一样,包含了计算机、加速库和预训练模型。我们在Omniverse中测试、训练和整合所有内容,正如视频所展示的,Omniverse是机器人学习如何成为真正机器人的摇篮。当然,机器人仓库的生态系统相当复杂,需要众多公司、工具和技术共同构建现代化的仓库,而仓库也正在逐步实现全面机器人化。有朝一日,这些仓库将完全由机器人操作。在每个生态系统中,我们提供SDK和API与软件行业连接,与Edge AI行业的公司对接,为ODM设计PLC和机器人系统,然后由集成商进行整合,最终为客户构建仓库。

接下来,我们谈谈工厂。工厂的生态系统截然不同,而富士康正在建设一些世界上最先进的工厂。他们的生态系统包括边缘计算机、用于工厂设计的机器人软件、工作流程、机器人编程,以及用于协调数字工厂和AI工厂的PLC计算机。我们为这些生态系统提供了SDK连接。这一切正在台湾各地如火如荼地进行。富士康正在构建他们工厂的数字孪生,台达电也是如此。值得一提的是,这些工厂一半是实体,一半是数字,一半在Omniverse中得以展现。和硕和纬创也在构建其机器人工厂的数字孪生。非常先进。

让我们通过一个视频来了解一下富士康的新工厂。

-----[视频脚本开始]-----

随着世界将传统数据中心升级为生成型AI工厂,对NVIDIA加速计算的需求正在迅速增长。作为全球最大的电子产品制造商,富士康正计划通过NVIDIA Omniverse和AI工厂建设机器人工厂,以满足这一需求。工厂规划人员使用Omniverse整合来自行业领先应用如西门子Teamcenter和Autodesk Revit的设施和设备数据,在数字孪生中优化工厂布局和生产线配置,并通过NVIDIA Metropolis支持的视觉AI确定最佳摄像头位置以监控未来操作。虚拟集成在施工过程中为规划人员节省了大量的物理变更成本。富士康团队使用数字孪生作为事实来源,以沟通和验证准确的设备布局。Omniverse数字孪生也是富士康开发人员训练和测试NVIDIA Isaac AI应用程序的“机器人健身房”,包括用于机器人感知和操作以及传感器融合的Metropolis AI应用程序。在Omniverse中,富士康模拟了在部署到生产线上的Jetson计算机之前的两种机器人AI,他们模拟Isaac操作库和AI模型进行自动光学检查、物体识别、缺陷检测和轨迹规划,以将HGX系统转移到测试台。同时,他们还模拟了Isaac感知机器人在其环境中的3D映射和重建。

通过Omniverse,富士康建立了他们的机器人工厂。

-----[视频脚本结束]-----

这些工厂协调运行在NVIDIA Isaac上的机器人以制造NVIDIA AI超级计算机,而这些超级计算机又进一步训练富士康的机器人。一个机器人工厂由三个计算机系统设计构成:在NVIDIA AI上训练AI,在PLC系统上运行机器人以协调工厂运作,然后在Omniverse中模拟整个流程。机器臂和自主移动机器人也采用相同的三计算机系统设计。特别的是,两个Omniverse将共享一个虚拟空间,当它们共享这一空间时,机器臂将成为机器人工厂不可或缺的一部分。我们提供计算机、加速层和预训练AI模型。

我们将NVIDIA Manipulator和NVIDIA Omniverse与全球领先的工业自动化软件和系统公司西门子携手合作。这真是一位绝佳的合作伙伴,他们正在全球范围内建造工厂。如今,Simatic Pick AI已经集成了Isaac Manipulator,可以操控ABB、KUKA、Yaskawa、Universal Robots和Techman等公司的机器人。

我们还拥有多种其他集成方案,下面让我们来一一介绍。

-----[视频脚本开始]-----

Arcbest正在将Isaac Perceptor集成到Vox智能自主机器人中,以增强物体识别和人类动作追踪功能。比亚迪电子正在将Isaac Manipulator和Perceptor集成到他们的AI机器人中,以提高全球客户的制造效率。Ideal Works正在将Isaac Perceptor集成到他们的IWOS软件中,用于工厂物流中的AI机器人。Intrinsic是一家Alphabet公司,他们正在将Isaac Manipulator集成到Flow State平台中,以推动机器人抓取技术的发展。Gideon正在将Isaac Perceptor集成到Trey AI驱动的叉车中,以推动AI驱动的物流。Argo Robotics正在将Isaac Perceptor集成到他们的Perception Engine中,以增强基于视觉的自主移动机器人。Solomon正在利用Isaac Manipulator AI模型在AccuPic 3D软件中实现工业操作。Techman Robot正在将Isaac Sim和Manipulator集成到TM Flow中,加速自动光学检查。Pteridine Robotics正在将Isaac Manipulator集成到其ProScope X中以用于协作机器人,并将Isaac Perceptor集成到MiR自主移动机器人中。Vention正在将Isaac Manipulator集成到Machine Logic中用于AI操作。

-----[视频脚本结束]-----

机器人和物理AI的时代已经到来,这不再是科幻小说,而是在台湾得到了广泛应用,这真的非常令人兴奋。这就是未来的工厂,里面充满了机器人,当然所有的产品都将采用机器人技术。有两种高产量的机器人产品,一种是具有高度自主能力的自动驾驶汽车或汽车。NVIDIA再次构建了整个技术堆栈,明年我们将与梅赛德斯车队开始量产,之后在2026年则是捷豹路虎车队。我们向全世界提供完整的技术堆栈,但同样欢迎您选择我们技术堆栈中的任何部分,就像整个驱动技术堆栈一样,它是开放的。下一个高产量的机器人产品可能是由装有机器人的机器人工厂制造的人形机器人,近年来在认知能力方面取得了巨大进展,这得益于基础模型,以及我们正在开发的世界理解能力。我对这个领域非常兴奋,因为显然,最容易适应世界的机器人是人形机器人,因为我们是为我们自己建造世界的。我们还拥有最丰富的数据来训练这些机器人,因为我们拥有相同的身体结构,所以可以通过示范和视频提供大量的训练数据。因此,我们将会在这个领域看到巨大的进步。我想,有一些机器人想要加入我们。

机器人技术的未来已经到来,下一个AI浪潮当然会涉及到台湾制造的计算机。你们制造了带键盘的计算机、口袋里的计算机、云端数据中心的计算机,未来你们将制造可以行走和滚动的计算机。这些只是计算机,而事实证明,这些技术与你们今天已经制造的所有其他计算机的技术非常相似,因此,对我们来说,这将是一段非凡的旅程。



--【本文完】---

近期受欢迎的文章:

  1. 微软CEO和CTO访谈:AI平台转型

  2. 为企业量身定制生成式AI模型 - AI Foundry

  3. NVIDIA首席科学家对话李飞飞:AI的高速发展与对人类影响

  4. 下一代生成式AI的DGX架构设计

  5. Sequoia 2024年AI峰会开幕致辞:AI机遇(全文)



更多交流,可添加本人微信

(请附姓名/单位/关注领域)

继续滑动看下一个
Andy730
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存