查看原文
其他

相当于5个H100!英伟达最新王牌B200让全世界用上AI?

有态度的 网易科技 2024-04-21
出品丨网易科技《态度》
作者丨赵芙瑶
编辑丨丁广胜

皮衣教主又杀回来了!

在今日的英伟达GTC(GPU技术大会)上,黄仁勋再次炸场,每个产品的发布与更新都让现场掌声连连。英伟达新一代Blackwell架构来了;“一个顶五个”的B200来了;“让全世界用上AI”的AI推理微服务NIM也来了!让我们一起来回顾这一场吸引全球目光、号称标志着“新工业革命”引擎诞生的发布会。


黄仁勋:新时代的乔布斯

有了生成式AI的加持,黄仁勋此次的演讲像是一场科幻电影,无论是现场播放的由Backwell制作的影像片段,还是黄教主现场与九个机器人的互动,都让现场的科技感、沉浸感、未来感直线拉满。


去年黄仁勋喊出 AI 的“iPhone 时刻”已经到来,生成式 AI 不断开始改写我们的日常生活,而今天的一系列发布,更是表明改写的速度正在指数级上升。

英伟达高级科学家 Jim Fan 现场调侃黄仁勋是新的泰勒 · 斯威夫特,因为现场人满为患如演唱会一般,然而黄教主用两个小时的时间,让观众明白了或许他才是新时代的乔布斯。


性能翻30倍的世界最强GPU来了

黄教主带来了第一张王牌就是Blackwell架构,黄仁勋称这颗芯片的名字来自数学家、博弈论家、概率论家 David Blackwell。基于Blackwell架构的Blackwell B200 GPU在性能上翻了30倍,带来了惊人的计算能力。

Blackwell架构下的计算芯片拥有1040亿个晶体管,比上一代GH100 GPU的800亿个晶体管实现了重大突破。而且,Blackwell B200并非传统意义上的单一GPU,而是由两个Blackwell GPU和一个Grace CPU芯片组合而成。通过10 TB/s NV-HBI(Nvidia高带宽接口)连接,确保每个芯片都能独立运行。

因此,B200实际上拥有2080亿个晶体管,能够提供高达20 petaflops的FP4算力。其中,两个GPU与单个Grace CPU相结合的GB200可将LLM(大语言模型)的推理效率提升30倍。

在GPT-3 LLM基准测试中,GB200的性能是H100的七倍,训练速度提高了4倍。第二代Transformer引擎、第五代NVLink高速互联、Ras Engine等技术的引入,更是让英伟达的产品在AI计算领域更加“所向披靡”。




GB200超级芯片:
创造历史的推理加速

GB200超级芯片是两个B200 GPU与Grace CPU结合的产品,成为推理加速的新“核弹”。它不仅可以加速推理,同时在成本和能源消耗上也实现了突破。

黄仁勋在现场介绍道,B200采用双芯片设计,晶体管数量达到2080亿个,单GPU AI性能达20 PFLOPS。两个B200 GPU与Grace CPU结合组成最强AI芯片GB200,通过900GB/s的超低功耗NVLink芯片间互连技术连接。在标准的1750亿参数GPT-3基准测试中,GB200的性能是H100的7倍,提供的训练算力是H100的4倍。

另外,英伟达此次还带来了全新加速计算平台DGX GB200 NVL72,搭载18个GB200,单机架即可达到每秒千万亿次级别的精度计算。相比72个H100,GB200 NVL72推理性能提升30倍,成本和能耗降低25倍。一个GB200 NVL72机柜可训练27万亿参数的模型,足以支持15个GPT-4模型。

黄仁勋表示,DGX Grace-Blackwell GB200已经超过1 Exaflop的算力。这意味着什么呢?

让我们通过一个简单的比喻来说明其水平:

假设你有一台普通的笔记本电脑,它的算力是1 Gigaflop(即每秒10的9次浮点运算)。如果你的笔记本电脑每秒能够完成1次浮点运算,那么完成10^18(即1 Exaflop)次浮点运算需要多长时间呢?

1 Exaflop = 10^18 Flops

如果你的笔记本电脑每秒完成1 Flop,那么完成10^18 Flops就需要:

(10^18 Flops) / (1 Flop/second) = 10^18 seconds

换算成年份:

10^18 seconds / (60 seconds/minute * 60 minutes/hour * 24 hours/day * 365 days/year) ≈ 31.7 亿年

换句话说,一台每秒完成1 Flop的笔记本电脑,要花费大约31.7 亿年的时间才能完成1 Exaflop的运算量。

所以1 Exaflop的庞大程度,可以说是一鸣惊人了。


推理微服务NIM:
AI部署的新标杆

NVIDIA推出的AI推理微服务NIM成为世界AI的入口,为用户提供了部署和管理AI模型的平台。通过NIM,用户可以体验各种AI模型和应用,同时保留对知识产权的完全控制。黄仁勋表示,NVIDIA正在帮助企业和应用程序对模型进行微调或定制。

NIM可以使开发者能够将部署时间从几周缩短至几分钟,为语言、语音、药物发现等领域提供行业标准API,让开发者能够利用在自己基础设施中的专有数据快速构建AI应用,而不必依赖云服务器。

英伟达希望通过这些服务吸引购买英伟达服务器的客户注册英伟达企业版NVIDIA AI Enterprise 5.0,每个GPU每年收取4500美元的费用。企业可以选择在亚马逊云科技(AWS)、谷歌云、Azure、Oracle Cloud Infrastructure等云平台上部署这些微服务。

相较于新AI模型的初始训练,推理过程所需的计算能力较少。对于那些希望自行运行AI模型,而不是购买AI结果作为服务的企业来说,NIM将成为一款不错的选择。

“在我原本调用OpenAI的代码中,我只需替换一行代码,将其指向从英伟达获取的NIM即可。”一位开发者表示。


英伟达的愿景:
引领新工业革命

黄仁勋的野心究竟有多大?在他看来,英伟达站在计算科学和物理等一切科学的交叉点,成为新工业革命的引擎。这是英伟达的使命,也是他心中英伟达的定位。

正如黄仁勋在开场白中说的那样,我们见证了计算机技术的革命以及人工智能的崛起。从过去到现在,我们经历了无数里程碑,包括首台DGX-1超级计算机的诞生、CUDA的出现以及生成式AI的发展。

如今,皮衣教主黄仁勋已经在生成式AI领域拔得头筹,带领着下一场工业革命的开启。





▼加好友进粉丝群▼
继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存