英伟达新H100让大模型推理提速30倍，大力推动大模型平民化

Original 高佳飞哥说AI 2023-07-26

作者 | 高佳

创意 | 李志飞

一夜席卷，AI的「iPhone」时代到来。

从Google 开启 Bard 测试，到Adobe 推出创意生成式 AI 模型集「Adobe Firefly」。AI群雄中，英伟达发布ChatGPT专用GPU，为AI界投下一枚核弹。

ChatGPT、GPT-4、Stable Diffusion 等 AI 超级应用的出现，让生成式AI迈入一个全新阶段的同时，也改变了科技公司对于算力的需求。

英伟达本次推出的带有双图形处理器的「NVIDIA H100 NVL」，基于英伟达的 Hopper 架构，H100 采用 Transformer 引擎，被设计用于专门处理拥有巨大算力需求的 GPT 大模型。

大模型的训练和推理将进一步平民化，全民AI时代已经开启。

H100和A100性能对比断崖降低大语言模型处理成本

第四代Tensor core性能提速，比A100快3倍

英伟达推出第四代Tensor core，性能比前一代产品A100提升三倍，大幅提升计算效率，解决算法计算速度慢的问题。除此之外，第四代Tensor core新增支持fp8，意味着计算性能可以达到3,958 TFLOPS，对于需要高强度计算的应用而言，是一个非常有吸引力的特性。

例如，在医疗保健领域，可以利用这项技术快速分析大量的医学图像，从而更加精确地诊断疾病。在自动驾驶汽车和机器人领域，可以利用这项技术提高自主决策和运动控制的速度和精度，从而更加安全地完成任务。

总之，第四代Tensor core不仅在技术方面得到很大的提升，应用前景非常广泛。

结合专为优化LLM-Transformer Engine，训练提速9倍，推理提速30倍

英伟达H100是一款专为大型语言模型优化的处理器。基于最新的技术，应用专门为Transformer模型设计的芯片架构，使得H100相对于A100训练提速高达9倍，推理速度也将提速高达30倍。

最新NVLink网络支持256张GPU卡高速互联，高效传输数据

基于第四代NVLink，新的NVLink网络支持256张GPU卡的高速互联。这种高速互联不仅有助于多个GPU卡之间共享数据，使得大规模并行计算任务变得更加容易，而且还可以减少延迟和网络拥塞，从而更高效地传输数据。

H100 NVL新版「双GPU结构+188GB显存+94GB单卡」，降低训练推理成本

H100 NVL版本采用双GPU结构，显存达到188GB，其中单卡显存94GB，是目前市面上最高配置。在模型训练时，可以进一步提高GPU利用率以及吞吐率，降低训练和推理成本。这一点也是专门针对ChatGPT这种大模型构建，以进一步增强性能，平民化大模型的训练和推理。

单卡性能的增强

让集群训练更鲁棒

由于单卡计算速度、显存容量、访存带宽、卡间互联、机间通信等多方面的显著提升，让大模型的训练部署更加便利。

单卡/单机能力更强

英伟达推出H100以及其NVL版本，对于较大规模模型的训练有了很大的改进，让训练和推理更加高效。部分模型可以在单卡或者单机上运行，无需大规模集群，既可以节省部署和维护成本，又可以更快完成训练和推理任务，从而加快科学研究和商业应用进展。H100和NVL版本的推出是人工智能领域的一个重要里程碑，为大模型的研发及落地应用提供了更好的算力支撑。

训练稳定性更高

同样规模的模型，可以使用更小的集群（机器）来进行分布式训练，不仅可以降低单点故障的影响，还能提高训练效率和并行度。另外，使用分布式训练还可以充分利用不同机器的计算资源，避免机器空闲浪费，从而更加高效地完成模型训练。这种方法不仅适用于大模型，对于小模型也同样适用。

支撑更大规模的模型训练和部署

随着单机单卡性能的提升，以及NVLINK网络的升级，同等规模的集群可以训练更大规模的模型，未来很可能有更大规模的模型出现。

训练大模型的门槛和难度

进一步降低

当前可以实际处理 ChatGPT 的 GPU 是英伟达 HGX A100。与前者相比，现在一台搭载四对 H100 和双 NVLINK 的标准服务器速度能快 10 倍，可以将大型语言模型的速度提高 30 倍。英伟达将内存、通讯以及计算三者整合到一张卡上，让训练和推理可以在单卡或单机上运行，不需要大规模的集群，使大语言模型的处理成本降低一个数量级，大幅度提升计算利用率。

此外，英伟达推出更强版「NVIDIA DGX Cloud」，提供NVIDIA DGX AI超级计算专用集群，可以让企业快速访问为生成式AI和其他开创性应用训练高级模型所需的基础设施和软件。

每个DGX Cloud中都集成8个NVIDIA H100或A100 80GB Tensor Core（张量计算核心）的GPU，每个节点合计有640GB的GPU，这个巨大的GPU可以满足高级AI训练的性能要求。

基于DGX Cloud强大算力基石，英伟达也发布全新的NVIDIA AI Foundations模型，涵盖“语言、视觉、生物”等领域。企业通过API接口调用NVIDIA AI Foundations模型每项服务，基于英伟达DGX Cloud的专有数据，即可实现自定义模型的优化工作，进行模型训练。

现在企业已可以按月租用 DGX Cloud 集群，每月 36999 美元起。

目前，各行业正面对可持续发展、生成式 AI 和数字化的挑战。

AI的iPhone时刻已经到来，英伟达H100在大幅降低大模型训练和推理成本、加速计算的同时，相应也减少电力消耗，实现可持续性发展和碳中和，为人类社会带来切实的价值。

达芬奇曾说「科学是将领，实践是士兵」，此刻的英伟达正以超乎想象的形式重塑AI时代。

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

人民日报征集“中美友好合作故事”，令人感奋

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！

英伟达新H100让大模型推理提速30倍，大力推动大模型平民化

您可能也对以下帖子感兴趣

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

人民日报征集“中美友好合作故事”，令人感奋

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！

生成图片，分享到微信朋友圈

英伟达新H100让大模型推理提速30倍，大力推动大模型平民化

您可能也对以下帖子感兴趣