查看原文
其他

英伟达新H100让大模型推理提速30倍,大力推动大模型平民化

高佳 飞哥说AI 2023-07-26

作者 | 高佳

创意 | 李志飞 


一夜席卷,AI的「iPhone」时代到来。
从Google 开启 Bard 测试,到Adobe 推出创意生成式 AI 模型集「Adobe Firefly」。AI群雄中,英伟达发布ChatGPT专用GPU,为AI界投下一枚核弹。
ChatGPT、GPT-4、Stable Diffusion 等 AI 超级应用的出现,让生成式AI迈入一个全新阶段的同时,也改变了科技公司对于算力的需求。
英伟达本次推出的带有双图形处理器的「NVIDIA H100 NVL」,基于英伟达的 Hopper 架构,H100 采用 Transformer 引擎,被设计用于专门处理拥有巨大算力需求的 GPT 大模型。

大模型的训练和推理将进一步平民化,全民AI时代已经开启。

01

H100和A100性能对比断崖降低大语言模型处理成本
第四代Tensor core性能提速,比A100快3倍

英伟达推出第四代Tensor core,性能比前一代产品A100提升三倍,大幅提升计算效率,解决算法计算速度慢的问题。除此之外,第四代Tensor core新增支持fp8,意味着计算性能可以达到3,958 TFLOPS,对于需要高强度计算的应用而言,是一个非常有吸引力的特性。

例如,在医疗保健领域,可以利用这项技术快速分析大量的医学图像,从而更加精确地诊断疾病。在自动驾驶汽车和机器人领域,可以利用这项技术提高自主决策和运动控制的速度和精度,从而更加安全地完成任务。

总之,第四代Tensor core不仅在技术方面得到很大的提升,应用前景非常广泛。

结合专为优化LLM-Transformer Engine,训练提速9倍,推理提速30倍

英伟达H100是一款专为大型语言模型优化的处理器。基于最新的技术,应用专门为Transformer模型设计的芯片架构,使得H100相对于A100训练提速高达9倍,推理速度也将提速高达30倍。

最新NVLink网络支持256张GPU卡高速互联,高效传输数据
基于第四代NVLink,新的NVLink网络支持256张GPU卡的高速互联。这种高速互联不仅有助于多个GPU卡之间共享数据,使得大规模并行计算任务变得更加容易,而且还可以减少延迟和网络拥塞,从而更高效地传输数据。
H100 NVL新版「双GPU结构+188GB显存+94GB单卡」,降低训练推理成本
H100 NVL版本采用双GPU结构,显存达到188GB,其中单卡显存94GB,是目前市面上最高配置。在模型训练时,可以进一步提高GPU利用率以及吞吐率,降低训练和推理成本。这一点也是专门针对ChatGPT这种大模型构建,以进一步增强性能,平民化大模型的训练和推理。

02

单卡性能的增强
让集群训练更鲁棒

由于单卡计算速度、显存容量、访存带宽、卡间互联、机间通信等多方面的显著提升,让大模型的训练部署更加便利。
单卡/单机能力更强
英伟达推出H100以及其NVL版本,对于较大规模模型的训练有了很大的改进,让训练和推理更加高效。部分模型可以在单卡或者单机上运行,无需大规模集群,既可以节省部署和维护成本,又可以更快完成训练和推理任务,从而加快科学研究和商业应用进展。H100和NVL版本的推出是人工智能领域的一个重要里程碑,为大模型的研发及落地应用提供了更好的算力支撑。
训练稳定性更高
同样规模的模型,可以使用更小的集群(机器)来进行分布式训练,不仅可以降低单点故障的影响,还能提高训练效率和并行度。另外,使用分布式训练还可以充分利用不同机器的计算资源,避免机器空闲浪费,从而更加高效地完成模型训练。这种方法不仅适用于大模型,对于小模型也同样适用。
支撑更大规模的模型训练和部署

随着单机单卡性能的提升,以及NVLINK网络的升级,同等规模的集群可以训练更大规模的模型,未来很可能有更大规模的模型出现。

03

训练大模型的门槛和难度
进一步降低

当前可以实际处理 ChatGPT 的 GPU 是英伟达 HGX A100。与前者相比,现在一台搭载四对 H100 和双 NVLINK 的标准服务器速度能快 10 倍,可以将大型语言模型的速度提高 30 倍。英伟达将内存、通讯以及计算三者整合到一张卡上,让训练和推理可以在单卡或单机上运行,不需要大规模的集群,使大语言模型的处理成本降低一个数量级,大幅度提升计算利用率。
此外,英伟达推出更强版「NVIDIA DGX Cloud」,提供NVIDIA DGX AI超级计算专用集群,可以让企业快速访问为生成式AI和其他开创性应用训练高级模型所需的基础设施和软件。
每个DGX Cloud中都集成8个NVIDIA H100或A100 80GB Tensor Core(张量计算核心)的GPU,每个节点合计有640GB的GPU,这个巨大的GPU可以满足高级AI训练的性能要求。
基于DGX Cloud强大算力基石,英伟达也发布全新的NVIDIA AI Foundations模型,涵盖“语言、视觉、生物”等领域。企业通过API接口调用NVIDIA AI Foundations模型每项服务,基于英伟达DGX Cloud的专有数据,即可实现自定义模型的优化工作,进行模型训练。
现在企业已可以按月租用 DGX Cloud 集群,每月 36999 美元起。
目前,各行业正面对可持续发展、生成式 AI 和数字化的挑战。
AI的iPhone时刻已经到来,英伟达H100在大幅降低大模型训练和推理成本、加速计算的同时,相应也减少电力消耗,实现可持续性发展和碳中和,为人类社会带来切实的价值。
达芬奇曾说「科学是将领,实践是士兵」,此刻的英伟达正以超乎想象的形式重塑AI时代。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存