查看原文
科技

黄仁勋在AI界春晚GTC2024的主旨演讲: 精华及全文(附视频)

天空之城城主 Web3天空之城 2024-03-20

 

文:天空之城·城主 (未经授权请勿转载)

万众期待的AI界科技界春晚-NVIDIA GTC 2024大会今天正式开幕。这不仅是一场面向开发者的盛会, 更是NVIDIA创始人黄仁勋独领风骚、引领业界方向的重要舞台。

以下和大家分享这一次黄教主大会主旨演讲中的精彩内容, 附上视频完整版及书面文字版,方便大家深入了解。

视频完整版的B站传送门:

【【精校】Nvidia GTC2024 黄仁勋主旨演讲 2024.3.19【中英】-哔哩哔哩】 https://b23.tv/eEDeOq4


此次GTC大会聚集了来自气候科技、无线电科学等不同领域的研究人员,他们正探索如何利用AI、机器人技术控制下一代6G无线电、自动驾驶汽车等。大会还邀请了众多公司代表,他们将运用加速计算解决普通计算机无法应对的难题,应用领域涵盖生命科学、医疗健康、基因组学、零售、物流、制造、工业等。

NVIDIA的发展历程始于1993年。2006年,革命性的CUDA计算模型诞生,成为里程碑。2012年,AI首次接触CUDA,标志着AlexNet的出现。2016年,NVIDIA发明了DGX-1超级计算机,8个GPU实现170 teraflops计算能力。从2017年Transformer到2022年ChatGPT,这些技术点燃全球想象力,彰显AI非凡潜力。2023年,生成式AI崭露头角,开启全新产业征程。

数据中心正成为NVIDIA生成Token、浮点数的重要基地。就像工业革命时期的发电机创造了电力,NVIDIA如今正在AI工厂中用GPU生成极其有价值的新型电子Token。以AI为核心的新产业正在形成。

NVIDIA的灵魂在于计算机图形学、物理、AI的交叉融合,这些在Omniverse模拟的虚拟世界中交汇。今天展示的内容皆为模拟而非动画,它之所以美,源于其背后的物理学规律,就像真实的世界一样。更神奇的是,这些动画由机器人、AI创作。观众将欣赏到前所未有的AI自制音乐会。

加速计算已到达临界点,通用计算逐渐失去动力。加速计算在性价比上远超通用计算,几乎遍布所涉足的每个行业。它的影响不局限于单一行业。各行业正在利用数字孪生技术,实现全流程数字化、高保真模拟。这意味着要大幅提升计算规模。合作伙伴正携手NVIDIA,共同推动整个生态系统进入加速计算时代。

加速计算的另一大优势在于,当整个基础设施与GPU耦合时,便可轻松实现AI生成能力。NVIDIA已与一些重要合作伙伴建立了深度关系。ANSYS、新思科技、Cadence这些顶级公司,正在利用NVIDIA GPU加速系统的巨大安装基础,为最终用户、系统制造商、CSP创造巨大机遇与客户需求。

Blackwell是NVIDIA推出的全新GPU平台,将涵盖与Hopper兼容的普通系统和与Grace CPU连接的专用系统。Blackwell提供了前所未有的算力,有望突破物理极限,为互联网产业注入新动力。

在处理海量数据和复杂计算时,精确性和范围至关重要。配备第五代NV Link的全新Transformer引擎速度惊人。在多GPU环境中,信息同步与更新必不可少。

新型超算的高速运转离不开早期问题检测和替换机制。同时,数据加密对价值数亿美元的AI模型和代码至关重要。高速压缩引擎可将数据高效导入导出,速度提升20倍。Nvidia必须全力保留这些功能,因为这些超算的投资和能力都十分惊人。

全新的FP8格式让内存可容纳更多参数,大幅提升计算速度。生成式AI作为一种全新计算范式正在兴起。NVLink交换芯片实现所有GPU同时全速通信,仿佛成为一个巨无霸GPU。直接驱动铜技术的突破让系统更加经济实惠。

训练一个1.8万亿参数的GPT模型,传统方法可能需要8000个GPU、15MW电力,历时90天。而Blackwell只需2000个GPU,功耗4MW。

NVIDIA GPU有一半时间运行在云端,专注于生成Token,如Copilot、ChatGPT等。庞大的语言模型需要后台超算的支持。要在众多GPU中高效分配任务,CUDA和其丰富生态系统不可或缺。Blackwell惊人的推理能力是Hopper的30倍,有望成为未来生成式AI的核心引擎。这些AI工厂旨在产生智慧而非电力。AWS、GCP、Oracle、微软纷纷为Blackwell做好准备。

数字孪生技术已在各行各业大放异彩。Wistron利用Omniverse SDK定制软件,将NVIDIA DGX和HGX工厂实现数字孪生,大幅缩短调试周期。NVIDIA还运用生成式AI预测天气。CoreDev可通过超高分辨率AI预测严重风暴,如台风灿都。这项服务作为NVIDIA Earth 2的一部分,将惠及全球气象机构。NVIDIA在医疗领域也硕果累累,涵盖医学成像、基因测序和计算化学等。

NVIDIA推出BioNeMo NIMS、NVIDIA推理微服务(NIMS)等新品,可在几分钟内生成候选分子。微服务包含三大支柱:AI模型、运行AI的工具;AI技术;基础设施用于AI微调和部署,可在DGX云等平台上实现。这类似于台积电代工芯片的模式,因此被称为AI代工厂。

用户可利用这些服务处理各类结构化和非结构化数据,编码存储于向量数据库中,成为企业专属智慧。通过与智能数据库交互,可轻松获取所需信息。NVIDIA AI Foundry正携手SAP、ServiceNow等巨头,帮助他们开发自有数据和工具,在聊天机器人中打造企业级Copilot。

要让AI理解物理世界,需要AI计算机、监测分析计算机和执行任务的机器人三位一体。这就像语言模型,只不过我们要构建的是端到端的机器人系统。

通过强化学习,机器人可适应物理定律。Omniverse提供模拟环境,教会机器人如何成为机器人。OVX托管于Azure。未来的仓储、工厂都将由软件定义,机器人自主协同工作。数字孪生是机器人系统CICD的关键。西门子正构建工业元宇宙,日产已将Omniverse整合到工作流。

所有移动设备都将是机器人,包括自动驾驶汽车。从计算机视觉到AI控制,还有很多工作要做。

最后,黄仁勋总结了5大要点:新工业革命、Blackwell平台、NIMS、NEMO和NVIDIA AI Foundry、Omniverse和ISAAC机器人。这些将重塑产业格局,开启AI新纪元。


==附:演讲之天空之城书面全文版==

欢迎来到GTC。我希望你意识到这不是一场音乐会,你已到达开发者大会。这里将会有很多科学描述,包括算法、计算机体系结构、数学。

我突然感觉到房间里有很重的重量,几乎就像你来错地方了。世界上没有哪个会议,会有更多的研究人员聚集,他们来自如此不同的科学领域,包括气候技术、无线电科学,他们试图找出如何使用AI机器人控制MIMO下一代6G无线电、机器人、自动驾驶汽车,甚至人工智能。即使是人工智能,我也突然感觉到一种如释重负的感觉。

此外,本次会议也有代表参加,他们来自一些令人惊叹的公司。这份名单中,这些不是与会者,这些是主持人,令人惊奇的是这个。如果你带走我所有的朋友,亲密的朋友迈克尔·戴尔就坐在那儿。在IT行业,所有和我一起在这个行业长大的朋友,如果你把那个名单拿走,这就是令人惊奇的事情。

这些非IT行业的主讲者使用加速计算来解决普通计算机无法解决的问题。它在生命科学、医疗保健、基因组学领域都有代表性。运输当然是零售、物流、制造、工业。所代表的行业范围确实令人惊叹。您来这里不仅仅是为了参加,您来这里是为了谈论您的研究。今天这个房间里有代表世界上100万亿美元的行业的代表,这绝对是惊人的。

绝对有事情发生,有事情发生。这个行业正在发生转变,不仅仅是我们的行业,因为计算机行业,计算机是当今社会最重要的工具。计算领域的根本性变革影响着每个行业。但我们是如何开始的呢?我们是怎么来到这里的?

我为你做了一个小漫画,从字面上看是我画的,在一页中这是NVIDIA的旅程。1993年开始,这可能是谈话的其余部分。1993年,这是我们的旅程,我们于1993年成立,一路上发生了几件重要的事件。我想强调几个关键的时间节点。首先是2006年,CUDA的诞生。事实证明,这是一种革命性的计算模型。当时,我们预见到它将引发一场革命,并在一夜之间崭露头角。如今,近20年过去了,我们看到了这一预言的实现。

然后是2012年,AlexNet的出现,标志着人工智能与CUDA的首次接触。再后来是2016年,我们认识到这种计算模型的重要性,于是发明了一种全新类型的计算机,我们将其称为DGX-1。这台超级计算机具有170 teraflops的计算能力,8个GPU连接在一起。我亲手将第一台DGX-1交付给了一家位于旧金山的初创公司,名为OpenAI。DGX-1是世界上第一台AI超级计算机,记住,它的计算能力达到了170 teraflops。

从2017年的Transformer到2022年的ChatGPT,这些技术激发了全世界的想象力,让人们认识到人工智能的重要性和能力。到了2023年,生成式人工智能出现了,一个新的行业开始了。为什么我说这是一个新的行业呢?因为这种软件以前并不存在。我们现在正在用计算机编写软件,生产出以前从未存在过的软件。这是一个全新的类别,它从无到有地占据了市场份额。这是一个全新的类别,以及一种全新的制作软件的方式,与我们以前做过的任何事情都不一样。

在数据中心,我们生成Token,产生浮点数,规模非常大。这就像在最后一次工业革命中,当人们意识到可以建立工厂,对其施加能量,这种看不见的、有价值的东西,叫做电,就出现了交流发电机。100年后,200年后,我们现在正在创建新型电子Token,使用我们称为工厂的基础设施——人工智能工厂来生成这种新的、极其有价值的东西。一个叫做人工智能的新产业已经出现。

我们将讨论这个新行业的很多事情,包括接下来如何进行计算,您因这个新行业而构建的软件类型,新软件,您会如何看待这个新软件,以及这个新兴行业的应用情况。然后,我们也许会探讨接下来会发生什么,我们今天如何开始为接下来的事情做准备。

在我开始之前,我想向您展示NVIDIA的灵魂。我们公司的灵魂位于计算机图形学、物理和人工智能的交叉点。所有这些都在计算机内部交叉,在Omniverse虚拟世界模拟中。我们今天要向您展示的所有内容,都是模拟,而非动画。它之所以美丽,是因为它是物理学。世界是美丽的。这太神奇了,因为它是用机器人制作的动画,是用人工智能制作的动画。您一整天都会看到的东西,都是在Omniverse中完全模拟生成的。您将要享受的是世界上第一场音乐会,一切都是自制的。您将要观看一些家庭视频,所以请坐下来尽情享受。

我爱英伟达。加速计算已达到临界点。通用计算已经失去动力。我们需要另一种计算方式,这样我们就可以继续扩展,这样我们就可以继续降低计算成本,这样我们就可以继续消耗越来越多的计算。我们正在追求的是可持续性。加速计算已经在与通用计算的比较中展现出显著的优势。在我所参与的每一个行业中,我都有大量的案例可以向您展示。其影响力巨大,而且在任何行业中,它的重要性都超过了我们自己的行业。这些行业都在使用模拟工具来创建产品。这并不是为了降低计算成本,而是为了扩大计算规模。我们希望能够进行模拟,我们所做的整个产品都是完全高保真、完全数字化的,这就是我们所说的数字孪生。我们希望设计它、构建它、模拟它、操作它,完全数字化。为了实现这一目标,我们需要加速整个行业的发展。今天,我想宣布,我们有一些合作伙伴正在加入我们的旅程,他们将加速他们的整个生态系统,以便我们可以将世界带入加速计算的时代。

但是,加速计算还有一个好处。当你的计算速度加快时,你的基础设施将与GPU耦合。当这种情况发生时,生成人工智能的基础设施将完全相同。因此,我很高兴地宣布,我们已经与一些非常重要的合作伙伴建立了关系。ANSYS是世界上一些最重要的公司,他们对世界制造的产品进行工程模拟。我们正在与他们合作,加速ANSYS生态系统,将ANSYS连接到Omniverse数字孪生。令人惊叹的是,NVIDIA GPU加速系统的安装基础已经遍布世界各地、每个云、每个系统。因此,他们加速的应用程序将有一个巨大的安装基础可供服务。最终用户将拥有令人惊叹的应用程序,当然,系统制造商和CSP也会有巨大的客户需求。

新思科技(Synopsys)是NVIDIA的第一个软件合作伙伴,他们在我们公司成立的第一天就参与其中。新思科技通过高水平设计彻底改变了芯片行业。我们将采取行动来加速Synopsys的发展。我们正在加速计算光刻,这是一项鲜为人知但极其重要的应用。为了制作芯片,我们必须将光刻技术推向极限。NVIDIA创建了一个领域特定库,这加速了计算光刻。令人难以置信的是,一旦我们能够加速并由软件定义台积电的全部,台积电今天宣布他们将使用NVIDIA Qlitho投入生产。一旦软件定义并加速,下一步就是将生成式人工智能应用于半导体制造的未来,进一步推动几何学的发展。

Cadence构建了世界上重要的EDA和SDA工具。我们也在使用Cadence。这三个公司,Ansys、Synopsys、Cadence,我们基本上是在构建NVIDIA。我们共同致力于加速Cadence。他们还利用NVIDIA GPU构建超级计算机,以便为他们的客户提供服务。这样,他们就可以进行流体动力学模拟,基本上是一百、一千倍的规模,实时风洞。Cadence Millennium内置NVIDIA GPU的超级计算机是一家构建超级计算机的软件公司,我很高兴看到这一点。我们正在一起构建Cadence Copilot。想象一下有一天,当Cadence可以成为Synopsys、Ansys等工具提供商时,将为您提供人工智能Copilot。这样我们就有成千上万的Copilot助理帮助我们设计芯片、设计系统。我们还将把Cadence数字孪生平台连接到Omniverse。

正如您在这里看到的趋势,我们正在加速世界上的CAE、EDA和SDA,以便我们能够在数字孪生中创造我们的未来。我们将把它们全部连接到Omniverse,这是未来数字孪生的基本操作系统。受益于规模巨大的行业之一,你们都非常了解这一大型语言模型。基本上,自从Transformer被发明之后,我们能够以令人难以置信的速度扩展大型语言模型,每六个月有效翻倍。

你可能会问,现在怎么可能每六个月翻一番呢?我们已经发展了这个行业,到目前为止,我们已经增加了计算需求。原因很简单。如果你将模型的大小加倍,你的大脑的大小就会加倍,你需要两倍的信息来填充它。因此,每次将参数数量加倍时,您还必须适当增加训练Token数量。这两个数字的组合,成为你必须支持的计算规模。

最新、最先进的OpenAI模型,大约有1.8万亿个参数。1.8 万亿个参数,需要几万亿Token去训练。所以,几万亿个参数大约是几万亿个Token,当你将它们两者相乘时,大约30、40、500亿,四万亿每秒浮点运算。现在我们只需要做一些CO数学就可以了。所以你有300亿千万亿,一万亿就像善待动物组织(PETA)。因此,如果你有一个PETA flop GPU,你将需要300亿秒来进行计算和训练该模型,300亿秒大约需要1,000年。

一千年,这很值得。我想早点做,但这是值得的。当大多数人告诉我做一件事要花多长时间时,我的答案通常是20年,这是值得的。但我们可以下周做吗?等了1000年,我们需要的是更大的GPU。

我们需要更大的GPU,我们很早就认识到了这一点。我们意识到答案是将一大堆GPU放在一起,当然一路上创新一大堆东西,比如发明张量核心,推进NVLink,以便我们能够创造出实质上巨大的东西。GPU并通过来自Mellanox InfiniBand公司的令人惊叹的网络将它们连接在一起,以便我们可以创建这些巨型系统。

所以,DGX1是我们的第一个版本,但它不是最后一个版本,我们一直在构建超级计算机。2021年,我们有Selene,大约4,500个GPU。然后进入2023年,我们建造了世界上最大的人工智能超级计算机之一,它刚刚上线,名为埃欧斯。

当我们正在构建这些东西时,我们正在努力帮助世界建造这些东西。为了帮助世界构建这些东西,我们必须首先构建它们。我们制造芯片、系统、网络、执行此操作所需的所有软件。你应该看到这些系统,想象一下编写一个在整个系统上运行并分布计算的软件。

数千个GPU,但内部是数千个较小的GPU,数以百万计的GPU,在所有这些之间分配工作并平衡工作负载,以便您可以获得最大的能源效率,最佳的计算时间,降低您的成本等等。这种根本性创新,是什么让我们来到这里。

我们到了,正如我们看到的奇迹,ChatGPT的出现,我们也意识到了,我们还有很长的路要走。我们需要更大的模型,我们将使用多模态数据来训练它,而不仅仅是互联网上的文本,我们将使用文本、图像、图形和图表来训练它。正如我们所学的那样,将会有大量观看视频,以便这些模型。我们可以以物理学为基础来理解,为什么我们的手臂不能穿过墙壁。因此,这些模型具有常识。他们通过观看世界上的大量视频和各种语言的结合来学习。当我们尝试学习时,他们会像我们一样使用合成数据生成等工具。我们可能会用我们的想象力来模拟它将如何结束,就像我在准备这个主题演讲时所做的那样,我一直在模拟它的过程。我希望事情会成功,我脑子里也有这个想法。

当我正在模拟这个主题演讲的结果时,有人确实提到了另一位表演者。她的表演完全是在跑步机上进行的,这样她就能以饱满的能量来完成任务。我没有那样做。如果我在大约10分钟内听到一点风声,你就知道发生了什么。

那么我们在哪里?我们坐在这里使用合成数据生成,我们将使用强化学习,我们将在我们的脑海中练习。我们将让人工智能与人工智能一起工作,就像学生、老师和辩手一样互相训练。所有这些都将增加我们模型的大小,这将增加我们拥有的数据量,并且我们将不得不构建更大的模型。GPU Hopper非常棒,但我们需要更大的GPU。

女士们、先生们,我想向您介绍一下,至极大的GPU,以大卫·Blackwell的名字命名。他是一位数学家,博弈论学家。我们认为这是一个完美的名字。Blackwell,女士们、先生们,你们会喜欢这个。Blackwell不是芯片,Blackwell是一个平台的名称。人们认为我们制造GPU,我们确实这么做了,但GPU的外观已不再像以前那样了。如果你愿意的话,这是Blackwell系统的核心。公司内部不叫Blackwell,只是一个数字。

这是Blackwell,坐在旁边的是当今世界上生产的最先进的GPU,这是Hopper。Hopper改变了世界,这是Blackwell。没关系,Hopper,你很不错。2080亿个晶体管,所以你可以看到,我可以看到,两个芯片之间有一条小线,这是第一次两个芯片如此邻接在一起,以这样的方式,两个骰子认为这是一个芯片。每秒10TB之间有10TB的数据,因此Blackwell芯片的两侧不知道它们在哪一侧,没有内存局部性问题,没有缓存问题。这只是一块巨型芯片,所以当我们被告知Blackwell的野心超出了物理学的极限时,工程师说那又怎样。这就是发生的事情,这就是Blackwell。

芯片及其进入两种类型的系统:第一种。形状适合,功能与Hopper兼容,所以你在Hopper上滑动,然后你推入Blackwell,这就是为什么坡道的挑战之一将如此高效。世界各地都有安装Hopper,它们可能是你知道的相同的基础设施,相同的设计。电源、电力、热量、软件相同,将其推回原处,所以这是针对当前HGX配置的Hopper版本,这就是第二个Hopper的样子。现在这是一个原型板。

第二个问题是,随着技术的发展,产品的价格会降低,这对所有消费者来说都是好消息。然而,当前的产品价格相当高,这是因为它是一种创新的启动产品。

这款产品将以一种新的生产方式进入市场。它配备了两个Blackwell芯片和四个Blackwell芯片,这些芯片都连接到Grace CPU上。Grace CPU具有超快的芯片到芯片链接,这是一项令人惊奇的技术。这台计算机是同类产品中的第一台,能够进行大量的计算。

这款产品的体积小巧,内存充足,所有的组件都能够协同工作,就像一个幸福的大家庭一样,共同开发应用程序,保证了产品的连贯性。你可能会看到这款产品的数字规格,包括大量的太字节,这是一项令人惊叹的技术。

MV链接位于产品的顶部,而PCI Express位于底部。至于CPU芯片到芯片的链接,它可能在你的左边,也可能在我的左边,这取决于我们的位置。我们正在努力解决这个问题,但我认为这并不重要。

我们希望能够插入更多的功能,这就是Grace Blackwell系统。但我们还有更多的计划。所有的规格都很棒,但我们需要开发更多新功能,以突破物理的极限。

我们希望能够不断提高性能,因此我们发明了第二代Transformer引擎。这款引擎具有动态和自动的能力,可以重新调整和重塑数字格式,即使精度较低,只要它能记住,人工智能就是关于概率的。

你可能会看到一些数字,比如1.7乘以1.4等等,这些数字是否有意义,取决于数学的精度和范围。在处理数据的特定阶段,保持精度和范围的能力是非常重要的。这不仅仅是因为我们设计了一个更小的铝,它并不完全是世界,它并不那么简单。你必须弄清楚在整个计算过程中何时可以使用它。

我们有数千个GPU,它们可以连续运行数周,你希望确保训练工作能够收敛。因此,我们的新Transformer引擎配备了第五代MV链接。它的速度是Hopper的两倍,这非常重要,因为它需要在网络中进行计算。

当你有这么多不同的GPU一起工作时,我们必须彼此共享我们的信息,我们必须彼此同步和更新。每隔一段时间,我们就必须减少部分产品,然后重新广播部分产品,其中一些部分产品返回给其他人。所以有很多所谓的全部减少和全部到所有所有收集都是这的一部分同步和集体领域,这样我们就可以让GPU相互协作,具有非常快的链接,并且能够在网络中正确进行数学运算,使我们能够从本质上放大甚至更进一步。

因此,即使它的速度是每秒1.8TB,它实际上也高于这个数字,所以可能性是Hopper的很多倍。超级计算机在In上运行数周的时间大约为零,其原因是因为有太多组件同时工作。据统计,它们连续工作的概率非常低,因此我们需要确保只要有一口井,我们就尽可能频繁地检查点并重新启动。然而,如果我们有能力尽早检测到芯片或笔记本的问题,我们就可以将其退役,甚至可能将其替换为另一个处理器。这种能力可以保持超级计算机的高利用率,特别是当你刚刚花费了20亿美元建造它时,这是非常重要的。因此,我们在Ras引擎中加入了一个具有可靠性的引擎。

我们的系统测试中,每一个门的每一个内存位都会进行百分百的自检。这包括在Blackwell芯片上以及所有连接到的内存上。这几乎就像我们为每个芯片配备了自己的高级测试仪一样,我们用它来测试我们的芯片。这是我们第一次对它的安全人工智能感到非常兴奋。只有在今天的这次会议上,我们才为Ras引擎鼓掌。

显然,保护你刚刚花费了数亿美元创建的人工智能和代码是非常重要的。这个人工智能的智能被编码在参数中。你需要确保一方面你不会丢失它,另一方面它不会被污染。因此,我们现在有能力对数据进行加密,无论是在休息时,还是在运输途中,甚至在计算时,它都是加密的。所以我们现在有能力加密和传输数据,当我们计算它时,它是在可信的环境中,最后一件事是解压缩。

当计算速度如此之快时,将数据移入和移出这些节点变得非常重要。因此,我们安装了高线速压缩引擎,有效地将数据移入和移出这些计算机的速度提高了20倍。这些计算机非常强大,而且投资如此之大,我们最不想做的就是让它们闲置。因此,所有这些功能都应该保留。

总的来说,与Hopper相比,对于每个芯片的训练来说,它是fp8性能的两倍半。它也有这种称为fp6的新格式,因此即使计算速度是相同的,由于内存而放大的带宽,你可以在内存中存储的参数数量现在已放大。Fp4有效地使吞吐量加倍,这对于推理至关重要。

变得非常清楚的一件事是,每当你使用另一侧带有人工智能的计算机时,无论是与聊天机器人聊天,提出问题,审查或制作图像,都要记住后面是一个GPU生成token。有些人称之为推理,但更合适的是一代。

过去计算的方式是检索,你会抓住你的手机,触摸一些东西,一些信号基本上会消失,一封电子邮件会发送到某个存储,某处有预先录制的内容,有人写了一个故事,有人制作了一张图像,或者有人录制了一个内容。视频。然后,这些预先录制的内容会流回手机并以基于推荐系统的方式重新组合,向你呈现信息。

然而,未来你就知道了,绝大多数内容将不会被检索。原因是因为这是由不了解上下文的人预先录制的。这就是我们必须检索这么多内容的原因。如果你可以与一个人工智能一起工作,它可以理解你是谁,你出于什么原因获取这些信息,并以你喜欢的方式为你生成信息。我们节省的能源量、我们节省的网络带宽量、我们节省的时间浪费量,将是巨大的。

未来是生成式的,这就是我们称之为生成式人工智能的原因,这就是为什么这是一个全新的行业,我们的计算方式根本不同。我们创建了一个处理器,面向生成人工智能时代。它最重要的部分之一是内容Token生成,我们称之为它,这种格式是fp4。这涉及到大量的计算。Token生成的能力是Hopper推理能力的五倍,这看起来已经足够了。但是,为什么我们要止步于此呢?答案是,这还不够。我将向您解释原因。

我们希望有一个更大的GPU,甚至比现在的更大。我们决定扩展它,但在此之前,让我告诉您我们在过去的八年里是如何扩展我们的计算能力的。在这八年里,我们的计算能力增加了一千倍。还记得摩尔定律的美好旧时光吗?那时,我们的计算能力每五年增加十倍,每十年增加一百倍。在个人电脑革命的鼎盛时期,我们的计算能力每十年增加一百倍。然而,在过去的八年里,我们的计算能力每十年增加了一千倍,而且我们还有两年的时间。

我们推进计算的速度是惊人的,但仍然不够快,所以我们建造了另一个芯片。这个芯片是一个令人难以置信的芯片,我们称之为MV链接开关。它有五百亿个晶体管,几乎有Hopper大小。这个开关芯片本身有四个MV链接,每个链接每秒可以传输1.8TB的数据。正如我提到的,它具有计算功能。

这个芯片的作用是什么呢?如果我们制造这样的芯片,我们可以让每个GPU同时与其他每个GPU全速通信。这听起来似乎有些疯狂,甚至没有意义。但是,如果你能找到一种方法来实现这一点,并建立一个系统来实现这一点,那么这将是非常划算的。如果我们可以通过一致的链路将所有这些GPU连接起来,使它们实际上就是一个巨大的GPU,那将是多么令人难以置信啊。

为了使其具有成本效益,我们必须直接驱动铜,这是我们的一项伟大发明。这样,我们就可以直接驱动到铜,结果是,您可以构建一个如下所示的系统。

现在,这个系统看起来有些疯狂。这是一个DGX,这就是DGX现在的样子。还记得六年前的样子吗?它相当重,但我能够举起它。我交付了第一个DGX,打开了AI的大门。研究人员,你知道这些照片是在互联网上的。我们都亲笔签名了。如果你来我的办公室,你会看到它有亲笔签名,那里真的很漂亮。但你可以举起这个DGX。

顺便说一句,那个DGX的浮点运算能力是170万亿次。如果您不熟悉编号系统,那是0.17万亿次浮点运算。所以这是720。我交付给Open AI的第一个是0.17。你可以将其四舍五入到0.2,这不会有任何区别。到那时,就像哇,你知道了,30万亿次浮点运算。目前,我们已经拥有了一台720 petaflops的机器,这几乎等同于exaflops的训练能力,它是世界上第一台在一个机架中达到1 exaflops的机器。如你所知,在我们的地球上,只有两台能够进行三百亿次浮点运算的机器。这是一台Exaflops级别的人工智能系统。

让我们来看看这台机器的背面。这就是让这台机器成为可能的关键部分,也就是DGX的背面。这里有一个MV链路脊椎,每秒可以处理130 TB的数据。这个数据传输速度甚至超过了互联网的总带宽。因此,我们基本上可以在一秒钟内将所有内容发送给每个人。

这台机器的背面有5000根电缆,这些中压连接电缆总长达到了2英里。这是一项令人惊奇的技术,如果我们必须使用光学器件,我们将不得不使用收发器和重定时器,而仅这些收发器和重定时器就需要花费20,000瓦的电力。而我们只用了2千瓦的收发器就驱动了MV链路主干。我们通过MV链路交换机完全免费完成此操作,因此我们能够节省整个机架的20千瓦计算功率。120千瓦与20千瓦的差别是巨大的。

这台机器是液体冷却的,温度约为室温25摄氏度。结果是,你的按摩浴缸的温度会达到45摄氏度。所以,室温的液体进入按摩浴缸后,每秒会输出2升的液体。我们可以出售这些外围设备。

有人曾经说过,你们知道你们制造GPU,我们也制造GPU。但这就是我们的GPU的样子。对我来说,当有人说GPU时,我看到的就是这个。两年前,当我看到GPU是HGX时,它重70磅,需要35,000个零件。而我们现在的GPU有600,000个零件,重3,000磅。这个重量有点像碳纤维的法拉利。我不知道这是否是一个有用的比较。

现在,让我们看看这台DGX在运行中是什么样子。让我们想象一下我们如何让它发挥作用,这意味着什么。如果你要训练一个拥有1.8万亿参数的GPT模型,你需要25,000安培的电力,这可能需要3到5个月的时间。如果我们用传统的方式来做这件事,可能需要8,000个GPU并会消耗15兆瓦的电力,这需要90天,大约3个月的时间。

你知道这个突破性的人工智能模型,这显然不像任何人想象的那么昂贵,但它需要8,000个GPU,这仍然是一笔巨大的投资。如果你要使用Blackwell来做这件事,只需要2,000个GPU。我们使用了2000个GPU,同样在90天内完成了任务,但令人惊奇的是,功率仅为4兆瓦。是的,从15开始,这是正确的。我们的目标是不断降低成本和能源消耗,因为它们与计算相关的成本和能源是正比关系。这样,我们就可以继续扩展并扩大我们必须进行的计算训练,以培养下一代模型。这就是训练的过程。

推理或生成过程也是至关重要的一步。你可能知道,NVIDIA GPU有一半的时间都在云中运行,这些天它被用于Token生成。它们可能在运行Copilot,或者在进行聊天,例如使用ChatGPT。当你使用这些模型时,它们正在与你交互或生成图像、视频、蛋白质、化学物质等。所有这些都属于我们称为推理的计算类别,但推理过程非常困难。

对于大型语言模型,因为它们非常大,所以它们不适合一个GPU。这就像Excel不适合一个GPU,或者你在日常基础上运行的某些应用程序不适合一台计算机,就像视频游戏不适合一台计算机一样。事实上,过去很多次,超大规模计算的许多应用程序都安装在同一台计算机上。现在突然之间,你正在与这个聊天机器人进行交互的推理应用程序,需要一台超级计算机在后台运行。这就是未来,未来是由这些聊天机器人生成的,这些聊天机器人有数万亿的Token和数万亿的参数,它们必须生成Token。

现在,从互动的角度来看,这意味着什么呢?好吧,一个词通常由三个Token表示。你知道,“太空是最后的疆域”,这就像80个Token一样。我不知道这对你是否有用,你知道,沟通的艺术就是选择好的和好的类比。是的,这个过程并不顺利。我不知道他在说什么,我从未看过《星际迷航》。所以我们在这里尝试生成这些Token,当你与它交互时,你希望这些Token尽可能快地返回给你,这是你可以阅读的最快速度。因此,生成Token的能力非常重要,你必须让这个模型在许多GPU上工作,这样你就可以实现几件事。一方面,你想要吞吐量,因为吞吐量可以降低生成每个Token的总体成本,因此吞吐量决定了提供服务的成本。另一方面,你有交互率,它是每秒生成另一个Token,它与每个用户有关,也与服务质量有关。所以,这两个目标是相互竞争的。

我们必须找到一种方法,在所有这些不同的GPU上分配工作,并以一种能够实现这两个目标的方式进行操作。事实证明,搜索空间是巨大的。你知道,我告诉过你这会涉及到数学。每个人都会感到困扰。我刚才放那张幻灯片时,听到了一些喘息声。所以,这个图表中的y轴表示数据中心的吞吐量,即每秒的Token数,x轴表示用户的交互性,即每秒的Token数。请注意,右上角是最好的,你希望交互性非常高,你希望每个用户每秒的Token数非常高,你希望每个数据中心的每秒Token数非常高。右上角非常棒,但是很难做到这一点。我们正在寻找最好的答案,跨越每一个交点xy坐标。所有这些蓝点都来自于一些重新分区。在优化软件的过程中,我们必须明确是否使用张量并行、专家并行、管道并行或数据并行和分布。这个巨大的模型需要在所有这些不同的GPU上运行并保持所需的性能。如果没有NVIDIA GPU的可编程性,这个探索空间将是不可能的。因此,我们可以通过CUDA,利用我们丰富的生态系统,探索这个领域并发现新的可能性。

请注意那条绿色屋顶线,它实际上证明了一些重要的事实。TP2EPADP4代表两个张量并行,跨两个GPU的张量并行,跨8个GPU的专家并行,跨4个GPU的数据并行。在另一端,您会看到跨4个GPU的张量并行以及跨16个GPU的专家并行。这些都是软件分布的不同配置,它们在不同的运行时环境中会产生不同的结果。你必须去发现那个屋顶线,这只是一个模型,这只是计算机的一种配置。想象一下,所有在世界各地创建的模型以及所有不同的系统的不同配置将可用。

现在您已经了解了基础知识,让我们看一下Blackwell的推理比较。Hopper,这是一件非凡的事情。在一代人的时间里,我们创建了一个专为万亿参数生成人工智能而设计的系统。Blackwell的推理能力超乎寻常,事实上,它是Hopper的大约30倍。对于大型语言模型,例如ChatGPT和其他类似的大型语言模型,蓝线代表我给你的Hopper。想象一下,我们没有改变Hopper的架构,我们只是把它变成了一个更大的芯片。

我们只使用您所知道的最新最好的技术,我们将两个芯片连接在一起,我们得到了这个巨大的2080亿参数的芯片。如果没有其他改变,我们会如何执行,结果非常美妙。那是紫色线,但没有那么好。这就是fp4 Tensor核心、新Transformer引擎和非常重要的NV链接开关的地方。原因是因为所有这些GPU必须共享结果,每当他们互相交流时,所有人都会聚集在一起。NV链接交换机的通信速度几乎快了10倍,比我们过去使用最快的网络所能做的要多。

Blackwell将成为未来生成人工智能的一个令人惊叹的系统。未来的数据中心将被视为我之前提到的人工智能工厂。在这种情况下,人工智能工厂的目标是产生智力,而不是发电。这是一种新的工业革命,是智能的产生,所以这种能力是超级重要的。Blackwell的兴奋真的很令人兴奋。当我们第一次开始使用漏斗进入市场时,我们有两个好处,两个csp加入我们共进午餐,我们很高兴。所以我们有两个客户,现在我们有更多。对于Blackwell来说,这是令人难以置信的兴奋。

还有一大堆不同的配置。当然,我向您展示了可滑入Hopper外形尺寸的配置,以便轻松升级。我向您展示了液体冷却的示例,其极端版本是通过MV连接的整个机架链接672个GPU。我们计划将Blackwell推向全球的人工智能公司,其中许多公司正在以各种令人惊叹的方式进行工作。每个云服务提供商(CSP)都已经做好准备,包括所有的原始设备制造商(OEM)和原始设计制造商(ODM)。无论是区域性的还是全球的,各地的云主权AI和电信公司都正在与Blackwell签约,以推出这项服务。

Blackwell将是我们历史上最成功的产品发布,因此我迫不及待地想看到这一切。我要感谢那些加入我们的合作伙伴。亚马逊网络服务(AWS)正在为Blackwell做准备,他们将使用安全的AI构建第一个图形处理器(GPU),并正在构建一个222 exaflops的系统。当我们刚刚开始动画数字双胞胎时,你可能会看到所有的集群都在下降,但实际上并非如此。

我们正在构建的数字孪生就是艺术,除了基础设施之外,它将会有多大。我们正在与AWS一起做很多事情,我们正在加速Sage制造商人工智能,我们正在加速基岩人工智能。亚马逊机器人正在与我们合作,在Nvidia Omniverse和Isaac Sim AWS Health上使用Nvidia Health,因此AWS已经真正倾向于加速计算。

谷歌正在为Blackwell做准备,谷歌云平台(GCP)已经拥有100H 100T Force LForce的Nvidia Cuda GPUs,他们最近宣布了运行在所有方面的Jemma模型。我们正在努力优化和加速GCP的各个方面,我们正在加速数据处理,用于数据处理,他们的数据处理引擎Vertex AI和Mujoko与Google和GCP合作,跨越一系列举措。

Oracle正在为Blackwell做准备,Oracle是我们的一个很好的合作伙伴,对于Nvidia DGX云,我们也在共同努力加速对很多公司来说非常重要的事情,如Oracle数据库。

微软正在为Blackwell做准备,微软和Nvidia有广泛的合作伙伴关系,我们正在加速Cuda加速各种服务。当你明显地和AI聊天时,微软Azure中的服务很可能是Nvidia在后面做推理和Token生成。我们构建了他们构建了最大的Nvidia Infiniband超级计算机,基本上是我们的数字孪生或我们的物理孪生。我们正在将Nvidia生态系统引入Azure Nvidia DGX云到Azure Nvidia Omniverse,现在托管在Azure Nvidia Health中关心Azure,所有这一切都与微软结构深度集成和深度连接。

整个行业都在为Blackwell做准备,这就是我要向您展示的最多的内容。到目前为止,您在Blackwell看到的场景是Blackwell的全保真设计,我们公司的所有东西都有数字孪生。事实上,这种数字孪生的想法正在真正传播,它有助于帮助公司构建非常复杂的东西,完美地第一次,还有什么比这更令人兴奋的呢?

我们正在创建数字孪生,构建一台采用数字孪生构建的计算机。让我向您展示Wishtron正在做什么。为了满足Nvidia加速计算Wishtron的需求,我们的领先制造合作伙伴之一正在使用由Omniverse SDKs和API开发的定制软件构建Nvidia DGX和HGX工厂的数字孪生。对于他们最新的工厂,Wishtron从数字孪生开始,将他们的Multicad和过程模拟数据虚拟集成到统一视图中。在这个物理精确的数字环境中,经过测试和优化布局,工人的效率提高了51%。在施工过程中,我们使用Omniverse数字孪生来验证物理构建是否与数字化计划相匹配,以便尽早发现任何差异。这有助于避免成本高昂的变更订单。使用数字孪生的结果令人印象深刻,它帮助Wishtron工厂的上线时间缩短了一半,只需两个半月而不是五个月。全方位数字孪生投入运行,帮助Wishtron快速测试新布局以适应新流程,或改进现有空间中的操作,并使用生产线上每台机器的实时物联网数据监控实时操作。

最终,Wishtron将端到端周期时间缩短了50%,缺陷率降低了40%。借助nvidia ai和Omniverse,nvidia的全球合作伙伴生态系统正在构建一个加速人工智能数字化的新时代。这就是我们的方式,这就是未来的方式。当我们首先以数字方式制造所有东西,然后实际制造它时,人们问我这是如何开始的,是什么让我们如此兴奋。

这就是那个时刻。这就是当你不排练时会发生的情况。这就是你所知道的,这是第一次接触。在2012年,AlexNet,你把一只猫的图片放进这台电脑里,结果出来了,上面写着“猫”。我们惊叹,这将改变一切。

你拿了一百万个数字,跨越了RGB的三个通道。这些数字对任何人来说都毫无意义。你把它放入这个软件中,它会压缩它,它会在维度上减少它,它从一百万维减少到一个向量,一个数字,三个字母。广义上来说,你可以养猫,成为不同的猫。你可以把它放在猫的前面和猫的后面。你看看你说的这件事,令人难以置信的是你指的是任何猫。是的,任何猫。它能够识别所有这些猫。

我们意识到它是如何系统地做到这一点的。从结构上讲,它是可扩展的。你能做多大,你想把它做多大。我们也是这样想象的。这是一种全新的软件编写方式。正如你所知,今天,你可以让你输入单词“cat”,出来的是一只猫。事情却走向了另一条路。我对吗?难以置信,这怎么可能,是的,你怎么可能拿了三个字母,你从中生成了一百万个像素,这是有道理的。这就是奇迹。

十年后,我们真的认识了文本,我们认识了图像,我们认识了视频和声音,我们不仅认识了它们,而且还理解了它们的含义。我们理解文本的含义,这就是我可以和你聊天的原因。它可以为你总结,它理解文本。它理解的不仅仅是识别英语,它理解英语,它不只是识别像素,它理解像素,你甚至可以在两种模式之间调节它,你可以拥有语言条件图像,并生成各种有趣的东西。

好吧,如果你能理解这些事情,你还能理解什么?你已经数字化了。我们从文本开始的原因,你知道图像是因为我们将这些数字化了,但是我们还数字化了其他什么东西?事实证明我们数字化了很多东西,比如蛋白质、基因和脑电波。任何可以数字化的东西,只要它们的结构,我们就可以从中学习一些模式,如果我们可以从中学习模式,我们就可以理解它的含义,如果我们可以理解它的含义。我们也许有能力生成它。

因此,生成式人工智能革命就在眼前。那么,我们还能生成什么?我们还能学到什么?学习是我们的一项愿望。我们是否对气候有所了解?我们愿意了解极端天气,我们愿意学习。那么,我们如何预测未来的天气?如何在区域范围内以足够高的分辨率预测天气,以便我们可以在伤害到来之前让人们远离伤害?

极端天气给世界造成了1500亿美元的损失,这个数字肯定还要更高。这些损失并不均匀分布,1500亿美元主要集中在世界的某些地区。对于世界上的某些人来说,我们需要适应,我们需要知道即将发生什么。因此,我们正在创造地球2,这是地球的数字孪生,用于预测天气。

我们已经做出了一项非凡的发明,名为CoreDiv,它能够使用生成式人工智能以极高的分辨率预测天气。随着地球气候变化,人工智能天气预报使我们能够更准确地预测和跟踪2021年超级台风“灿图”等严重风暴,该风暴对台湾及周边地区造成广泛破坏。当前的人工智能预测模型可以准确预测风暴的轨迹,但它们的分辨率仅限于25公里,这可能会错过重要细节。

NVIDIA的CoreDiv是一种革命性的新生成AI模型,经过高分辨率雷达同化码头天气预报和ERA-5再分析数据的训练,使用CoreDiv,像Chanthu这样的极端事件可以从25公里超分辨率到2公里分辨率,其速度和能源效率是传统天气模型的3000倍。通过结合NVIDIA天气预报模型ForecastNet的速度和准确性以及CoreDiv等生成式AI模型,我们可以探索数百甚至数千公里范围的区域天气预报,以提供清晰的图片风暴的最好、最坏和最有可能的影响。

这些丰富的信息可以帮助最大限度地减少生命损失和财产损失。今天,CoreDiv针对台湾进行了优化,但很快,生成式超级采样将作为NVIDIA Earth2推理服务的一部分提供给全球许多地区。气象公司必须信任全球天气预报的来源,我们正在共同努力加速他们的天气模拟。

模拟的第一个原则基础,但是,他们还将集成Earth2 CoreDiv,这样他们就可以帮助企业和国家进行区域高分辨率天气预报。因此,如果您有一些天气预报您想知道,喜欢做,联系我们到气象公司,这真的是一项令人兴奋的工作。

在英伟达医疗保健领域,我们15年前就开始做这件事,对此我们感到非常非常兴奋,这是一个让我们非常非常自豪的领域。无论是医学成像、基因测序还是计算化学,很可能NVIDIA就是其背后的计算者。我们在这方面做了很多工作。

今天我们宣布,我们要做一些非常非常酷的事情。想象一下,所有这些正在使用的人工智能模型来生成图像和音频,但不仅仅是图像和音频。因为它理解图像和音频,我们为基因、蛋白质和氨基酸所做的所有数字化,这种数字化能力就是现在通过机器学习让我们理解生命的语言。理解生命语言的能力,当然,我们看到了它的第一个证据,那就是阿尔法折叠。这确实是一项了不起的成就。经过几十年的艰苦努力,我们终于实现了世界的数字化。我们使用了各种不同的技术,如冷冻电子显微镜和X射线晶体学,进行重建。

在不到一年的时间里,AlphaFold竭尽全力重建了200,000个蛋白质。至今,已经重建了2亿个蛋白质,基本上包括了每一种被测序过的生物的每一种蛋白质。这是一次完全的革命。这些模型非常难以使用,对于人们来说极其难以构建。因此,我们的任务就是要构建这些模型,我们将为世界各地的研究人员构建它们。这不会是唯一的,我们还会创建许多其他模型。接下来,我将向您展示我们将如何使用这些模型。

新药的虚拟筛选是一个计算上难以解决的问题。现有技术只能扫描数十亿种化合物,并且需要在数千个标准计算节点上运行数天才能识别新的候选药物。NVIDIA BioNemo NIMS启用了新的生成筛选范例。通过使用NIMS进行蛋白质结构预测,通过MolNIM进行AlphaFold分子生成,并与DiffDock对接,我们现在可以在几分钟内生成和筛选候选分子。MolNIM可以连接到自定义应用程序,迭代地引导生成过程,优化所需的特性。

这些应用程序可以使用BioNemo微服务定义或从头开始构建。在这里,基于物理的模拟优化分子与目标蛋白结合的能力,同时优化其他有利的分子特性。MolNIM生成的高质量药物样药物与靶标结合且可合成的分子,将转化为更快开发成功药物的更高可能性。

BioNemo正在启用药物发现的新范例,通过NIMS提供可组合的按需微服务,构建强大的药物发现工作流程,如从头蛋白质设计或用于虚拟筛选的引导分子生成。BioNemo NIMS正在帮助研究人员和开发人员重新发明计算药物设计。NVIDIA MOLNIM、MolNIM、CoreDiff以及一大堆其他模型,包括计算机视觉模型、机器人模型,甚至一些非常优秀的开源语言模型,都是开创性的。

然而,对于企业来说,这些模型很难使用。如何使用它们?如何将它们引入您的公司并将其集成到您的工作流程中?如何打包并运行它?请记住,我刚才说过,这个推论是一个非凡的计算问题。您将如何对每个模型进行优化,并将运行该超级计算机所需的计算堆栈组合在一起,以便您可以在您的公司中运行这些模型?

因此,我们有一个好主意。我们将发明一种新方法,为您发明一种新方法,接收并操作软件。这个软件基本自带,在数字盒子中我们称其为容器。我们将其称为NVIDIA推理微服务,简称NIM。让我向你解释一下它是什么。

NIM是一个预先训练的模型,所以它非常聪明。它经过打包和优化,可在NVIDIA的安装基础上运行,该安装基础非常非常大,里面的内容令人难以置信。您拥有所有这些经过预先训练的最先进的开源模型。它们可以是开源的,也可以来自我们的合作伙伴之一,也可以由我们创建,例如NVIDIA Moment。它与它的所有依赖项一起打包,因此CUDA,正确的版本CUDNN,正确的版本TensorRT,LLM,分布在多个GPU上。Trident推理服务器是一个全面优化并打包的系统。其优化程度取决于您是否拥有单个GPU、多GPU或多节点GPU。此外,它还与易用的API相连。

那么,什么是AI API呢?AI API是一个接口,您只需与之交谈即可。因此,这是未来的一种软件,它具有一个非常简单的API,这个API被称为人类。这些软件包中的优秀软件将被优化和打包。我们会将其放在网站上供您下载,您可以随身携带,可以在任何云中运行它,也可以在自己的数据中心运行它。如果合适,您甚至可以在工作站中运行它。您只需访问AI.NVIDIA.com,我们称之为NVIDIA Inference Microservice,但在公司内部,我们都称之为NIM。

想象一下,有一天,将会有这些聊天机器人之一,这些聊天机器人将位于NIM中。您将组装一大堆聊天机器人,这就是未来软件构建的方式。您不太可能从头开始编写它,或者编写一大堆Python代码或类似的东西,您很可能会组建一个人工智能团队。可能会有一个超级人工智能,它将接受您赋予它的任务并将其分解为执行计划。部分执行计划可以移交给另一个NIM。NIM可能会理解SAP,SAP的语言是ABAP,它可能理解ServiceNow,并从他们的平台检索一些信息。然后它可能会将结果交给另一个NIM,后者会对其进行一些计算,也许这是一个优化软件,一个组合优化算法,也许只是一些基本的计算器,也许这就是熊猫。对它进行一些数值分析,然后它会返回答案。它会与其他人的结合起来,因为它已经被呈现出来,这就是正确的答案应该是什么样的,它知道生产的正确答案是什么,并将其呈现给您。

我们每天都可以得到一份报告,这与构建计划或一些预测或一些客户警报或一些错误数据库或其他任何东西有关,我们可以使用所有这些NIM来组装它,因为这些NIM已打包并准备好在您的系统上工作,只要您的数据中心或云端有视频GPU,这些NIM将作为一个团队一起工作并做出惊人的事情。因此,我们认为这是一个好主意,我们要去这么做。

因此,NVIDIA在我们公司的各个角落都运行着NIM。聊天机器人遍布各地,最重要的聊天机器人之一当然是芯片设计师聊天机器人。您可能不会惊讶我们非常关心构建芯片。所以我们想要构建聊天机器人人工智能Copilot。这是我们工程师的共同设计师,所以这就是我们这样做的方式,所以我们给自己设计了一辆Llama 2,这是一辆70b,你知道它封装在NIM中,我们问它你知道什么是CTL。事实证明,CTL是一个内部程序,它有一种内部专有语言,但它认为CTL是一种组合时序逻辑,因此它描述了您知道CTL的常规知识,但这对我们来说不是很有用。所以我们给了它一大堆新的例子。员工入职员工。

您问我是否知道,我感谢您的提问。这是一个误解。然后我们向他们展示,这就是CTL,没有问题。所以这就是NVIDIA的CTL,以及您可以看到的CTL。您知道,CTL代表计算跟踪库,这让您知道我们一直在跟踪计算周期。它写了“程序真是太棒了”。

这样,我们的芯片设计人员的生产力就可以提高。这就是您可以使用NIM做的第一件事。您可以使用它进行定制。我们有一项名为NEMO微服务的服务,可以帮助您管理数据,准备数据,以便您可以进行教学在这个人工智能上。您可以对它们进行微调,然后您可以对其进行防护,您可以评估答案,根据其他示例评估其性能,这就是所谓的NEMO。

现在出现的微服务是三个要素,我们正在做的事情的三个支柱。第一个支柱当然是发明技术。AI模型和运行AI模型,然后再为您打包。是创建工具来帮助您修改它,其次是拥有人工智能技术,第二是帮助您修改它,第三是供您微调它的基础设施。如果您喜欢部署它,您可以将其部署在我们称为DGX云的基础设施上,或者您可以使用它,将其部署在本地,您可以将其部署在任何您喜欢的地方。

一旦您开发了它,您就可以把它带到任何地方。所以我们是一家有效的人工智能代工厂。我们将为您和人工智能行业做的事情,就像台积电为我们制造芯片所做的那样。因此,我们带着我们的伟大想法去台积电,他们制造,我们随身携带。所以这里完全相同的事情,人工智能铸造厂和三大支柱是NEMS,NEMO微服务和DGX云。

您可以做的另一件事是教导NEM要做的就是了解您的专有信息。请记住,在我们公司内部,我们的绝大多数数据并不在云中,而是在我们公司内部。您知道它一直坐在那里,并且一直在使用。天哪,我们想要获取的数据基本上是NVIDIA的智能。了解其含义,就像我们了解了我们刚刚谈到的几乎所有其他内容的含义一样,然后将这些知识重新索引到一种称为矢量数据库的新型数据库中。

所以您本质上是采用结构化数据或非结构化数据,您了解它的含义,您编码它的含义。所以现在这变成了一个人工智能数据库和那个人工智能数据库。将来,一旦您创建了它,您就可以与它交谈。

让我给您一个例子,说明您可以做什么。假设您创建了您得到的,您得到了一大堆多模态数据,其中一个很好的例子就是PDF。所以您将在所有的PDF中,将所有您最喜欢的您知道的东西都拿走。对您专有、对您公司至关重要的,您可以对其进行编码。就像我们对猫的像素进行编码一样,它变成了猫这个词。我们可以对您所有的PDF进行编码,然后它就会变成。

现在存储在矢量数据库内的矢量将成为您公司的专有信息。一旦您拥有该专有信息,您就可以与它聊天。这是一个智能数据库,您只需与数据聊天,您知道这有多有趣。

对于我们的软件团队来说,他们只是与错误聊天数据库。您知道昨晚有多少错误,我们是否取得了任何进展。然后在您完成讨论之后,Bug数据库,您需要治疗。所以我们为您准备了另一个聊天机器人。您是否在询问我们的尼莫检索器?这个工具的主要功能是快速检索信息。您只需对它发出指令,例如:“嘿,检索我这个信息”,它就会立即为您找到并返回所需的信息。这就是您想要了解的吗?我们将其命名为Nemo检索器。Nemo服务可以帮助您创建各种所需的工具。我们拥有各种不同的NIMS,甚至包括数字人类的NIMS。我是Rachel,您的人工智能护理经理。

接下来,我要向您展示的是一个非常短的剪辑。我们有很多视频和演示想要向您展示,所以我只能剪短这个片段。这是戴安娜,她是一个数字人类NIM。您只需与她交谈,她就会在这种情况下,与希波克拉底人工智能的医疗保健大型语言模型相连接,这确实令人惊叹。她在医疗保健方面非常聪明。所以在你完成与我的软件工程副总裁Dwight和Chatbot讨论Bug数据库之后,你可以过来与Diane交谈。Diane是完全由人工智能驱动的数字人类。

许多公司都希望能够开发他们所拥有的金矿。企业IT行业就坐拥一座金矿,因为他们对此有深入的了解。他们拥有多年来创建的所有这些令人惊叹的工具,以及大量的数据。如果他们能够开发这个金矿并将其转化为Copilot,这些Copilot可以帮助我们完成工作。

因此,世界上几乎所有拥有人们使用的有价值工具的IT特许经营IT平台都坐在Copilot的金矿上。他们希望在自己的聊天机器人中建立自己的Copilot。因此,我们宣布NVIDIA AI Foundry正在与世界上一些伟大的公司合作。例如,SAP,它支撑了全球87%的全球商业,基本上世界都在SAP上运行。我们在SAP上运行。NVIDIA和SAP正在使用NVIDIA NEMO和DGX Cloud构建SAP gem Co-pilots。

ServiceNow运营着85%的世界财富500强公司在ServiceNow上运行其人员和客户服务业务。他们正在使用NVIDIA AI Foundry来构建ServiceNow辅助虚拟助手。Cohesity备份世界数据。他们坐拥数据金矿,拥有超过10,000家公司的数百艾字节数据。NVIDIA AI Foundry正在与他们合作,帮助他们构建Gaia生成式AI代理。

Snowflake是一家在云中存储全球数字仓库的公司,每天为10,000家企业客户提供超过30亿次查询服务。Snowflake正在与NVIDIA AI Foundry合作打造Copilot。借助NVIDIA NEMO和NIMS,NetApp存储了全球近一半的文件。NVIDIA AI Foundry正在帮助他们使用NVIDIA NEMO和NIMS构建聊天机器人和Copilot,例如矢量数据库和检索器。我们与戴尔有着良好的合作伙伴关系。我们正在构建聊天机器人和生成人工智能。当你准备好运行它时,你将需要一个人工智能工厂。没有人比戴尔更擅长为企业构建大规模的端到端系统,因此,无论是个人还是公司,都需要建立人工智能工厂。事实证明,迈克尔·戴尔非常乐意接受您的订单。女士们、先生们,迈克尔·戴尔。

现在,我们来谈谈机器人和人工智能的下一波浪潮,即机器人物理人工智能。到目前为止,我们谈论的所有人工智能都是一台计算机。数据进入一台计算机,世界上许多的数据都以数字文本的形式存在。人工智能模仿我们,通过阅读大量的语言来预测下一个单词,它正在模仿你通过研究所有的模式和所有其他前面的例子。当然,它必须理解上下文等等,但是一旦它理解了上下文,它就本质上是在模仿你。

我们获取所有数据,将其放入像DGX这样的系统中,将其压缩为大型语言模型,数万亿个参数变成数十亿个,数十亿个Token变成数十亿个参数,这些数十亿个参数变成你的人工智能。为了让我们进入下一波人工智能浪潮,让人工智能理解物理世界,我们将需要三台计算机。

第一台计算机仍然是同一台计算机,它是人工智能计算机,现在它将观看视频,也许它正在进行合成数据生成,也许有很多人类示例,就像我们有文本形式的人类示例一样,我们将以清晰的形式提供人类的例子。人工智能会监视我们,了解正在发生的事情,并尝试将其适应上下文。而且因为它可以推广这些基础模型,也许这些机器人也可以在物理世界中相当普遍地执行。

我只是用非常简单的术语描述了大语言模型中刚刚发生的事情,除了机器人的ChatGPT时刻可能即将到来。因此,我们构建机器人端到端系统已经有一段时间了,我对这项工作感到非常非常自豪,我们拥有人工智能系统DGX。我们有较低的系统,称为AGX对于自主系统,世界上第一个机器人处理器,当我们第一次构建这个东西时,人们在构建什么它是一个SOC,它是一个芯片它被设计为非常低功耗但它是专为高速传感器处理和人工智能而设计。

因此,如果您想在汽车中运行Transformer,或者您想在任何东西中运行Transformer,那么,我们为您提供了完美的计算机,它被称为Jetson。因此顶部的DGX用于训练AI,Jetson是自主处理器,中间我们需要另一台计算机。而大型语言模型有好处。您提供示例,然后进行强化学习人类反馈。

什么是机器人的强化学习人类反馈,这是强化学习物理反馈,这就是你如何调整机器人,这就是你的方式,这就是机器人在学习时知道这些关节能力和操纵能力,它将正确适应物理定律,所以我们需要一个模拟引擎。以数字方式代表世界对于机器人来说,让机器人有一个健身房去学习如何成为一个机器人我们称之为虚拟世界。Omniverse和运行Omniverse的计算机称为OVX,OVX,计算机本身托管在Azure云中。

所以基本上我们构建了这三个东西,这三个系统,在这三个系统之上,我们为每个系统都有算法。现在我将向您展示人工智能和全宇宙如何协同工作的一个超级示例,我将向您展示的示例有点疯狂,但它将非常非常接近明天。这是一座被称为“仓库”的机器人大楼。在这座大楼内,将会有一些自治系统,其中一些将被称为人类,另一些则被称为叉车。这些自治系统将自动地相互交互,而仓库将监控并调整它们的行为,以确保每个人都免受伤害。

仓库的角色可以被比喻为空中交通管制员,每当有事情发生时,它将重定向交通并为机器人和人们提供新的路径点,他们会确切地知道该怎么做。这个仓库,或者说这个大楼,也具有交流的能力。您可以与它进行对话,比如询问SAP中心今天的感觉如何。

这个我刚才描述的系统将有Omniverse云,它托管在DGX云上运行的虚拟模拟和人工智能,所有这些都是实时运行的。重工业的未来始于数字孪生。人工智能代理,它们帮助机器人、工人和基础设施应对复杂工业空间中不可预测的事件,将首先在复杂的数字孪生中构建和评估。

这个100,000平方英尺的仓库的Omniverse数字孪生作为一个模拟环境运行,集成了数字工人、运行NVIDIA Isaac受体堆栈的AMR整个仓库的集中活动地图,由100个模拟吸顶式摄像机绘制。使用NVIDIA Metropolis并通过NVIDIA进行AMR路线规划合作软件循环测试人工智能代理在这个物理上精确的模拟环境中使我们能够评估和完善系统如何适应现实世界的不可预测性。

在这里,当一起事故沿着AMR计划的路线发生时,其路径被NVIDIA Metropolis更新,并将实时占用地图发送到合作社,在那里计算出新的最佳路线。AMR能够查看周围的拐角处并通过生成人工智能驱动的Metropolis Vision基础模型提高其任务效率。操作员甚至可以使用自然语言提出问题。视觉模型可以理解细致入微的活动,并可以提供即时见解以改进操作。

所有传感器数据均在模拟中创建,并传递给作为NVIDIA推理微服务或NEMS运行的实时AI。准备部署在物理孪生中,即真正的仓库中,我们将Metropolis和Isaac NEMS连接到真实的传感器,能够持续改进数字孪生和人工智能模型。

未来的设施仓库、工厂建筑将由软件定义,因此软件正在运行。那么,还有什么其他方式您会测试软件,以便测试软件以构建仓库、优化系统呢?在数字孪生中,所有机器人都在运行自己的自主机器人堆栈,因此在未来机器人系统的CICD中集成软件的方式是使用数字孪生。

我们已经使全宇宙变得更容易访问,我们将为简单的Api和通道创建基本上全宇宙云api,您可以将您的应用程序连接到它,这将是非常美丽的简单。在未来全方位宇宙将成为现实,通过这些api,您将拥有我们也已经转变的神奇数字孪生功能。

我们已经将全宇宙变成了人工智能,并将其与使用我们语言的语言聊天的能力集成起来。人类和全宇宙是语言,事实证明是通用的场景描述。所以这种语言是相当复杂的,所以我们已经教了我们的全宇宙这种语言。所以你可以用英语对它说话,它会直接生成美元,它会用美元回复,但会用英语跟你说话。你也可以寻找这个世界上的信息,语义上而不是世界被语义编码,现在在语言中,它在场景中被语义编码。在某些特定的物体、条件或场景下,人工智能可以帮助您找到相应的场景,并在生成过程中与您协作。您可以在3D环境中设计一些东西,模拟一些东西,或者使用人工智能在3D环境中生成一些东西。让我们一起探讨这一切将如何进行。

我们与西门子有着良好的合作伙伴关系。西门子是世界上最大的工业工程和运营平台。在工业领域,有许多不同的公司,其中太空重工业是其最伟大的最终前沿之一。现在,我们终于拥有了必要的技术,可以产生真正的影响。西门子正在构建工业元宇宙。今天,我们宣布,西门子将他们的皇冠宝石加速器连接到Nvidia Omniverse。让我们一起来看看。

西门子的技术每天都在发生变化。对于每个人,团队中心X的客户每天都在使用来自西门子加速器平台的领先产品生命周期管理软件来开发和交付产品。现在,我们正在通过集成Nvidia的技术,大规模地拉近真实世界和虚拟世界的距离,将AI和Omniverse技术引入团队中心。

Omniverse APIs实现了数据互操作性和基于物理的渲染。对于工业规模的设计和制造项目,我们的客户HD和可持续船舶制造的市场领导者正在构建氨和氢动力芯片,这些芯片通常包含超过700万个分立零件。Omniverse APIs和团队中心X使HD和其他公司能够以交互方式统一和可视化这些海量工程数据集,并集成生成式人工智能以生成3D对象或HDRI背景,以便在上下文中查看其项目。

这样的结果是一个超直观的、基于照片真实物理的数字孪生,消除了浪费和错误,大大节省了成本和时间。我们正在构建这个系统,以便于协作,无论是跨越更多的西门子加速器工具,如西门子附件或Star CCM Plus,还是跨团队致力于他们最喜欢的工作,同一场景中的设备在一起。这只是与Nvidia合作的开始,我们将在整个西门子加速器产品组合中引入加速器计算生成人工智能和全方位集成。

我的好朋友,专业的配音演员罗兰布什,恰好是西门子的CEO。一旦你将Omniverse连接到你的工作流程和生态系统,从你的设计开始,从工程设计到制造规划,一直到数字孪生运营,一旦你把一切连接在一起,你可以获得多少生产力,这真是太疯狂了。突然间,每个人都在同一个基本事实上运作,这真是太棒了。

你不必交换数据和转换数据犯错误,每个人都在同一个事实上工作,从设计部门到美术部门,从建筑部门一直到工程部门,甚至营销部门。让我们来看看Nissan是如何做到的,他们已经将Omniverse集成到他们的工作流程中,这都是因为它通过所有这些出色的工具以及与我们合作的开发人员连接起来。

这不是动画,这是全宇宙。今天我们宣布全宇宙云流至视觉专业人士。你在虚拟门周围走动是非常非常奇怪的。当我从那辆车里下来的时候,每个人都这样做,这真的是非常惊人的。愿景Pro连接到全宇宙,带你进入全宇宙。

因为所有这些CAD工具和所有这些不同的设计工具现在都集成并连接到Omniverse,你可以拥有这种类型的工作流程,这真的令人难以置信。让我们来谈谈机器人技术,所有移动的东西都将是机器人,毫无疑问,它更安全,更方便。汽车行业将成为最大的行业之一。我们正在从头开始构建机器人堆栈,就像我在计算机系统中提到的那样。对于自动驾驶汽车,包括今年年底的自动驾驶汽车应用,我预测明年年初我们将开始使用梅赛德斯发货,紧随其后的是捷豹路虎。

这些自主机器人系统是由软件定义的,它们需要进行大量的工作,包括计算机视觉,人工智能控制,以及规划各种非常复杂的技术。这需要数年时间来完善,我们正在构建整个堆栈。

然而,我们将整个堆栈开放给所有汽车行业,这就是我们的工作方式。我们在每个行业都尝试尽可能多地构建,以便我们理解它,然后我们将其开放给每个人,无论您是否愿意购买我们的全球唯一的计算机,都可以访问它。我们的全功能安全ACLD系统可以运行AI。这种功能安全的优质计算机或操作系统位于我们的数据中心之上。

基本上,不是所有的自动驾驶汽车公司都可以享受到这一点,但如果您想享受,我们会很高兴。今天我们宣布,世界上最大的电动汽车公司比亚迪正在采用我们的下一代产品,它被称为雷神。雷神是为Transformer雷神发动机而设计的,我们的下一代影音计算机将由比亚迪使用。

您可能不知道,我们拥有超过一百万的机器人开发人员。我们创造了喷气式飞机和这台我们感到非常自豪的机器人计算机。它之上的软件数量是疯狂的,但我们之所以能做到这一点,完全是因为它百分百与CUDA兼容。我们所做的一切,我们在公司所做的一切,不是为了我们的开发人员的服务,而是为了我们能够维护这个丰富的生态系统,并使其与您从我们访问的所有内容兼容。我们可以将所有这些令人难以置信的功能带到这台小小的计算机上,我们将Jetson称为我们的机器人计算机。

我们今天还宣布了一个令人难以置信的高级新SDK,我们称之为Isaac。Isaac感知器是今天大多数机器人的感知器,它们都是预先编程的,它们要么遵循地面数字轨道上的轨道,要么遵循四月的标签。但在未来,它们将具有感知能力,你可以轻松地对其进行编程,你说我想要从A点到B点,它会找到一种导航方式。因此,只需对路点进行编程,整个路线就可以自适应整个环境。可以重新编程,正如我一开始就向您展示的那样,在仓库中,您无法通过预编程的GV做到这一点,如果这些盒子掉下来,它们就会全部粘起来,然后就在那里等待有人来清理它。所以现在有了Isaac感知器,我们拥有令人难以置信的最先进的视觉里程计,3D重建以及3D重建深度感知。

今天的机器人最常用的是机械手臂。制造手臂,它们还预先编程了计算机视觉算法、人工智能算法、控制和路径规划算法,这些算法是几何感知的,计算量非常大。我们已经使这些库达到了加速,所以我们拥有世界上第一个加速运动规划器,这是几何感知的。你把它提出了一个新的计划并围绕它进行了阐述,它对3D物体的姿势估计具有出色的感知能力。它不仅不是2D的姿势,而是3D的姿势,所以它必须想象周围有什么以及如何最好地抓住它,以便基金会摆出抓地力的姿势。这种关节算法现在可用,我们称之为Isaac操纵器,它们也可以在视频计算机上运行。我们正在进行一些真正伟大的工作,关于下一代机器人技术。下一代机器人技术可能会是人形机器人。我们现在拥有必要的技术,正如我之前所描述的。想象一下所需的技术。广义的人类机器人技术在某种程度上可能更容易,原因是我们有更多的机器人技术。

我们可以为机器人提供模仿训练数据。因为我们是以非常相似的方式构建的,所以人类机器人很可能在我们的世界中更加有用。我们创造了一个可以互操作并很好地工作的世界,我们建立工作站、制造和物流的方式是为人类设计的,因此这些人类或机器人的部署可能会更加高效。

我们正在创建整个堆栈,就像我们与其他人一样。从顶部开始,从观看视频“Human”中学习的基础模型。示例可以是视频形式,也可以是虚拟现实形式,然后我们为其创建了一个健身房,称为艾萨克强化学习健身房。这使得人形机器人能够学习如何适应物理世界,然后是一台令人难以置信的计算机,这台计算机将进入机器人汽车,这台计算机将在人类或机器人体内运行,称为雷神,它是为Transformer引擎设计的。

我们将其中的几个内容合并到一个视频中,您一定会喜欢看一下。这还不足以人类想象。我们必须发明、探索,并推动超出已完成的工作的相当多的细节。我们创造更智能、更快的机器人。我们推动它失败,所以它可以学习。我们教它然后帮助它自学。我们拓宽了它的理解,去迎接新的挑战。具有绝对的精度,并成功。我们让它感知、移动,甚至还有理由,所以它可以与我们分享我们的世界。这就是灵感引领我们下一个前沿的地方。

这是NVIDIA项目组,人形机器人学习的通用基础模型。组模型将多模式指令和过去的交互作为输入,并生成机器人要执行的下一个动作。我们开发了Isaac实验室,一个机器人学习应用程序来训练Omniverse Isaac sim组。我们使用Osmo扩展了一种新的计算编排服务,该服务可以协调用于训练的DGX系统和用于模拟的OVX系统之间的工作流程。

借助这些工具,我们可以在基于物理的模拟中训练团队,并将零射击转移到现实世界。团体模型将使机器人能够从少量人类演示中学习,因此它可以帮助完成日常任务。通过观察我们来模仿人类的运动。这是通过NVIDIA的技术实现的,这些技术可以从视频中理解人类,训练模型和模拟,并最终将它们直接部署到物理机器人上,将群组连接到大型语言模型,甚至允许它生成动作,通过遵循自然语言指令,你能给我一个高五吗?让我们高五。你能给我们一些很酷的动作吗?看看这个。

所有这些令人难以置信的智能均由全新Jetson Thor机器人芯片提供支持,专为面向未来的团队而设计。通过Isaac lab, Osmo和Groot,我们正在为下一代人工智能提供构建模块。动力机器人。大小差不多。

NVIDIA的灵魂。计算机图形学物理人工智能的交叉点。这一切都在此时产生了通用机器人项目的名称。003。我知道超级好。超好。我想我们有一些特殊的客人。大家好,我知道你们都是由Jetson提供动力的,他们是由Jetsons提供动力的小Jetson机器人计算机,他们已经学会了模拟行走。这是橙色的,这是著名的绿色,他们是迪士尼的BDX机器人,这是迪士尼研究的成果。现在,让我们结束吧,我们走吧。

我想和你们分享五件事。首先,我想问你,你要去哪里?我就坐在这里。别害怕,绿色,你在说什么?不,还没到吃饭的时间。我一会儿就给你吃零食,让我快点吃完。来吧,绿灯快点停下来。我们不能浪费时间。

最后,五件事。

首先是新工业革命。每个数据中心都应该加速价值万亿美元的已安装数据中心。由于计算能力带来了一种新的软件制作方式,生成式人工智能(Generative AI)已经出现,因此在未来几年内将变得现代化。这将创造新的基础设施,这些基础设施致力于做一件事且仅做一件事,它们不适用于多用户数据中心,而是人工智能生成器。这些人工智能生成器将创造出极其有价值的软件。

第二,这次革命的计算机。这一代的计算机,万亿参数的生成式AI。Blackwell,疯狂数量的计算能力。

第三, Nims。新计算机创建新类型的软件。新型软件应该以新的方式分发,以便它可以一方面成为云中的端点,易于使用,但仍然允许您随身携带,因为它是你的智慧。你的智慧应该以一种允许你随身携带的方式打包,我们称之为NIMS。

第四,Nemo and Nvidia AI Foundary。这些NIMS将帮助你为未来创建一种新型的应用程序,而不是你完全从头开始编写的应用程序,但您将像Teams一样集成它们。这些应用程序在NIMS、人工智能技术、工具Nemo和基础设施DGX云之间拥有出色的能力。在我们的AI工厂里,帮助您创建专有应用程序、专有聊天机器人。

最后,Omniverse and ISAAC 机器人。未来移动的一切都将是机器人,您不会是唯一的一个和这些机器人系统。无论它们是人形机器人、自动驾驶汽车、叉车还是操纵手臂,他们都需要一件事:巨型体育场仓库、那里的工厂可以是工厂、机器人编排工厂、机器人生产线、制造机器人汽车。这些系统都需要一个东西,一个平台,一个数字平台,一个数字孪生平台,我们称之为全宇宙,机器人世界的操作系统。

这就是我们今天讨论的五件事。

当我们谈论GPU时,Nvidia是什么样子?当人们首先问我有关GPU的问题时,我看到的是一堆软件堆栈和类似的东西,然后我看到的是这个,这就是我们今天向您宣布的,这是Blackwell,这是平台。令人惊叹的处理器MV链路交换机网络系统和系统设计,这是一个奇迹,这是Blackwell,这对我来说就是我心目中的GPU的样子。

谢谢你们,祝你们GTC2024愉快,谢谢大家的光临,谢谢。

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存