英伟达放大招：生成式AI性能提升10倍！计算光刻提速40倍！黄仁勋：AI的“iPhone时刻”已经来临！

芯智讯 2023-03-27

收录于合集

当地时间3月21日，一年一度的英伟达（NVIDIA）春季GTC大会正式开幕，英伟达首席执行官黄仁勋公布了一系列重大产品更新：面向ChatGPT的全新GPU推理平台、AI超级计算服务DGX Cloud、突破性的光刻计算库cuLitho、加速企业创建大模型和生成式AI的云服务NVIDIA AI Foundations等，并宣布与日本三菱联合打造了日本第一台用于加速药研的生成式AI超级计算机、与Quantum Machines合作推出了全球首个GPU加速量子计算系统。

AI的“iPhone时刻”已经来临

黄仁勋将OpenAI的ChatGPT称为人工智能的“iPhone时刻”，并表示“当前唯一可以实际处理ChatGPT的GPU是英伟达HGX A100。接下来，OpenAI将在微软Azure超级计算机上使用英伟达新的H100 GPU，AI文字成图明星初创企业Stability.ai将是H100 GPU的早期访问客户。

H100不是最新公布新一代GPU，在一年前的GTC上，英伟达就展示了其Hopper架构，以及在各种任务中加速AI推理（推理是机器学习程序部署的第二阶段，此时运行经过训练的程序以通过预测来回答问题）。英伟达表示，H100 GPU基于Hopper架构及其内置Transformer Engine，针对生成式AI、大型语言模型和推荐系统的开发、训练和部署进行了优化，利用FP8精度在大型语言模型上比上一代A100提供了快9倍的AI训练和快30倍的AI推理。

作为HGX A100的替代者，DGX H100拥有8个H100 GPU模组，在FP8精度下可提供32PetaFLOPS的算力，并提供完整的英伟达AI软件堆栈，助力简化AI开发。

黄仁勋宣布，NVIDIA DGX H100 AI超级计算机已全面投入生产，很快将面向全球企业。微软宣布Azure将向其H100 AI超级计算机开放私人预览版。

“加速计算并非易事，2012年，计算机视觉模型AlexNet动用了GeForce GTX 580，每秒可处理262 PetaFLOPS。该模型引发了AI技术的爆炸。”“十年之后，Transformer出现了，GPT-3动用了323 ZettaFLOPS的算力，是AlexNet的100万倍，创造了ChatGPT这个震惊全世界的AI。现在崭新的计算平台出现了，AI的‘iPhone时刻’已经来临。”黄仁勋说道。

全新GPU推理平台，将生成式AI性能提升10倍

英伟达此次推出的全新GPU推理平台包括：4种配置（L4 Tensor Core GPU、L40 GPU、H100 NVL GPU、Grace Hopper超级芯片）、一个体系架构、一个软件栈，分别用于加速AI视频、图像生成、大型语言模型部署和推荐系统。

其中重点介绍的是H100 NVL，它将英伟达的两个附带94GB HBM3显存的H100 GPU拼接在一起，可处理拥有1750亿参数的GPT-3大模型，支持商用PCIe服务器轻松扩展，可以部署像 ChatGPT这样的大型语言模型（LLM）。

具体性能方面，黄仁勋将表示，与HGX A100相比，现在一台搭载四对H100和双NVLINK的标准服务器速度能快10倍，可以将大语言模型的处理成本降低一个数量级。”

据透露，H100 NVL预计将在今年下半年上市。

此次新推出的L4 Tensor Core GPU主要是用于AI Video的，在视频解码和转码、视频内容审核、视频通话功能上做了优化。英伟达称其可以提供比CPU高120倍的AI视频性能，同时能效提高99%。也就是说，一台8-GPU L4服务器，将取代一百多台用于处理AI视频的双插槽CPU服务器。

黄仁勋说表示：“谷歌将是第一家提供L4视频芯片的云提供商，目前处于私人预览版。L4将集成到谷歌的Vertex AI模型商店中。”除了谷歌的产品外，L4还将在30多家计算机制造商的系统中提供，其中包括研华、华硕、源讯、思科、戴尔科技、富士通、技嘉、惠普企业、联想、QCT和AMD。

同时，英伟达还针对Omniverse、图形渲染以及文本转图像/视频等生成式AI推出了L40芯片。其性能是英伟达最受欢迎的云推理GPU T4的10倍。

另外，英伟达还推出了全新的超级芯片Grace-Hopper，适用于推荐系统和大型语言模型的AI数据库，图推荐模型、向量数据库和图神经网络的理想选择，通过900GB/s的高速一致性芯片到芯片接口连接英伟达Grace CPU和Hopper GPU。

DGX Cloud让更多的中小企业用得起

黄仁勋在此次的主题演讲中，多次表示英伟达的DGX AI超级计算机为OpenAI奠定了创造ChatGPT的重要算力基础。“自OpenAI使用DGX以后，《财富》100强企业中有一半安装了DGX AI超级计算机。DGX已成为AI领域的必备工具。”但是，DGX AI超级计算机高昂的成本也使得只有一些大型企业才能够进行大规模的部署。而现在，英伟达希望通过云端人工智能DGX Cloud将AI的能力释放给更多的中小企业。

英伟达推出的云端人工智能DGX Cloud提供了专用的 NVIDIA DGX AI超级计算集群，并配备了NVIDIA AI软件，用户能够按月租用这些计算资源，只需使用简单的网络浏览器即可访问。这将消除在本地获取、部署和管理基础设施的成本，大大增加了AI能力获取的便捷性。

黄仁勋兴奋的表示，“如今通过一个浏览器，就能将DGX AI超级计算机即时地接入每家公司。”

据介绍，每个DGX Cloud实例都具有8个H100或A100 80GB Tensor Core GPU，每个节点共有640GB GPU内存。使用NVIDIA Networking构建的高性能、低延迟结构确保工作负载可以跨互连系统集群扩展，允许多个实例充当一个巨大的GPU，以满足高级AI训练的性能要求。

黄仁勋宣布，英伟达将与云服务提供商合作托管DGX云基础设施。目前英伟达已经与甲骨文达成合作，甲骨文的OCI RDMA Supercluster已经提供了一个可扩展到超过32000个GPU的超级集群。微软云服务Azure预计下个季度开始托管DGX Cloud，很快谷歌云也将加入托管的行列。

据介绍，目前每个DGX Cloud实例的月租价格定为36999美元起。

全新云服务及代工厂NVIDIA AI Foundations

DGX Cloud，英伟达还推出了全新云服务及代工厂NVIDIA AI Foundations，这个云服务包括语言、视觉和生物学模型制作服务。

其中，Nemo是用于构建定制的语言文本转文本生成式模型。可以提供从80亿到5300亿个参数的模型，会定期更新额外的训练数据，帮助企业为客服、企业搜索、聊天机器人、市场情报等生成式AI应用进行模型定制。

Picasso是视觉语言模型构建服务，具有文生图、文本转视频、文本转3D功能，可为产品设计、数字孪生、角色创建等使用自然文本提示的应用快速创建和定制视觉内容。只要向Picasso发送文本提示和元数据的API调用，Picasso就会用DGX Cloud上的模型把生成的素材发送回应用。

而把这些素材导入NVIDIA Omniverse，就可以构建逼真的元宇宙应用，和数字孪生仿真。

BioNeMo是生命科学服务，提供AI模型训练和推理，加速药物研发中最耗时和成本最高的阶段，可加速新蛋白质和治疗方法的创建以及基因组学、化学、生物学和分子动力学研究。

用户直接在浏览器上或通过API，均可访问这些运行在NVIDIA DGX Cloud上的云服务。NeMo、BioNeMo云服务已开放早期访问，Picasso云服务正在私人预览中。

挑战物理极限，将计算光刻提速40倍

在此次GTC大会上，英伟达还发布了一项面向芯片制造行业的突破性技术——NVIDIA cuLitho计算光刻库，可以将计算光刻加速40倍以上，使得2nm及更先进芯片的制造成为可能。

为了便于大家的理解，黄仁勋还介绍了什么“计算光刻”。众所周知，光刻是芯片制造过程中最复杂、最昂贵、最关键的环节。数据显示，光刻环节所需的成本占据整个硅片加工成本的约1/3甚至更多。而计算光刻则是模拟了光通过光学元件并与光刻胶相互作用时的行为，应用逆物理算法来预测掩膜板上的图案，以便在晶圆上生成最终图案。

“计算光刻是芯片设计和制造领域中最大的计算工作负载，每年消耗数百亿CPU小时。大型数据中心24x7全天候运行，以便创建用于光刻系统的掩膜板。这些数据中心是芯片制造商每年投资近2000亿美元的资本支出的一部分。”黄仁勋表示，cuLitho能够将计算光刻的速度提高到原来的40倍。举例来说，英伟达H100 GPU的制造需要89块掩膜板，在CPU上运行时，处理单个掩膜板需要两周时间，而在GPU上运行cuLitho只需8小时。

目前，全球最大晶圆厂台积电、全球光刻机霸主ASML、全球最大EDA巨头新思科技（Synoposys）均参与合作并引入这项技术。

据介绍，台积电可通过在500个DGX H100系统上使用cuLitho加速，将功率从35MW降至5MW，替代此前用于计算光刻的40000台CPU服务器。使用cuLitho的晶圆厂，每天可以生产3-5倍多的光掩膜，仅使用当前配置电力的1/9。

黄仁勋说，该软件正被集成到全球最大的代工芯片制造商台积电的设计系统中，台积电将于6月开始对cuLitho进行生产资格认证。它还将被集成到Synopsys的设计软件中，Synopsys是少数几家使用软件工具制造新芯片底板的公司之一。

新思科技董事长兼首席执行官Aart de Geus称，在英伟达的cuLitho平台上运行新思科技的光学邻近校正（OPC）软件，将性能从几周加速到几天。

台积电首席执行官魏哲家则夸赞它为台积电在芯片制造中广泛地部署光刻解决方案开辟了新的可能性，为半导体规模化做出重要贡献。

ASML首席执行官Peter Wennink称阿斯麦计划将对GPU的支持集成到其所有的计算光刻软件产品中。

其他更新

英伟达与Quantum Machines合作推出了一个量子控制链路，它可将英伟达GPU连接到量子计算机，以极快的速度进行纠错。

面向量子计算，要从量子噪声和退相干中恢复数据，需要对大量量子比特进行纠错。对此，英伟达与Quantum Machines合作推出了一个量子控制链路，它可将英伟达GPU连接到量子计算机，以极快的速度进行纠错。

面向元宇宙领域，英伟达推出了第三代OVX计算系统和新一代工作站，为基于NVIDIA Omniverse Enterprise的大规模数字孪生提供动力。微软和英伟达正在将工业元宇宙引入Microsoft 365应用程序（如Teams）和Azure云。

微软也是Omniverse Cloud的首批云合作伙伴之一。英伟达的云服务预计将于今年下半年在Microsoft Azure上推出。Omniverse还将连接到Azure IoT，以便将来自 Azure Digital Twins的真实世界传感器数据传输到Omniverse模型。

黄仁勋在演讲期间还展示一段视频，揭示了亚马逊如何用英伟达Omniverse平台构建完全逼真的数字孪生机器人仓库，以节省时间和成本。