查看原文
其他

英伟达吞噬世界!

Meta Space DAO 2024-04-02

点击蓝字 关注我们



这才是我理想中的 GPU”

这不是演唱会,你们是来参加开发者大会的


老黄登场时会场爆发出雷鸣般的欢呼声。今天凌晨四点 ,加州圣何塞,全球第三大市值公司英伟达的年度GTC大会拉开了帷幕。

GTC大会上随着生成式AI技术的蓬勃发展以及英伟达市值的飙升,整个算力市场也呈现出明显的升温趋势。


无论是硬件还是软件领域的竞争都在不断激化。而英伟达所推出的产品再次将人工智能芯片的标准提升到了前所未有的高度,令人难以置信。


“通用计算已经失去动力,现在我们需要更大的模型,我们需要更大的 GPU,更需要将 GPU 堆叠在一起。这不是为了降低成本,而是为了扩大规模。”

大型模型的参数量正在以指数级增长,之前OpenAI发布的最大模型已经拥有1.8T的参数,需要处理数十亿的标记。即便是一块PetaFLOP级别的GPU,要训练这样庞大的模型也需要1000年的时间。这一表述还透露了一个重要信息:GPT-4的实际参数量可能达到1.8万亿。

为了推动全球构建更大规模的人工智能,英伟达必须率先推出全新的GPU,即Blackwell。在此时,老黄有些无法言喻地说道:“这是一块非常非常庞大的GPU!


”Blackwell的发布标志着在过去的近八年里,人工智能算力增长了一千倍。一些网友在观看发布会后惊叹不已:Nvidia吃掉世界!

2080亿个晶体管的 Blackwell

同行不知应该怎么追赶


尽管全球科技公司都在争相追逐H100芯片,但新一代产品已然崭露头角。在今天的大会上,英伟达正式推出了拥有2080亿个晶体管的Blackwell平台。


此举意味着在构建和运行实时生成式人工智能大型语言模型的数万亿参数上,成本和能耗将降低到之前的25分之一。

Blackwell的命名是为了纪念第一位入选美国国家科学院的非裔学者、数学家和博弈论学家David Harold Blackwell,它继承了Hopper GPU架构,并为加速计算树立了新的标准。


英伟达表示,Blackwell架构的GPU预计将于今年晚些时候开始发货。

正如预期的那样,Blackwell是英伟达首个采用MCM(多芯片封装)设计的GPU,在同一片芯片上集成了两个GPU。在活动现场,黄仁勋比较了Blackwell(右手)与Hopper GH100 GPU(左手)的尺寸大小。


他表示Blackwell将成为世界上最强大的芯片。Blackwell架构的GPU拥有2080亿个晶体管,采用定制的、双晶片的台积电4NP(4N工艺的改进版本)制程工艺,两块小芯片之间的互联速度高达10TBps,可以大幅提高处理能力。


值得强调的是,它不存在内存局部性或缓存问题,CUDA将其视为单一GPU。


此外,它还配备了192GB速度为8Gbps的HBM3E内存,人工智能算力能够达到20 petaflops(FP4精度),而上一代的H100只有4 petaflops。


这是世界上第一次实现了如此高效的多晶片整合,也许在制程升级速度放缓之后,升级算力的唯一途径。

Blackwell 不是芯片名,而是整个平台的名字。具体来讲,采用 Blackwell 架构的 GPU 分为了 B200 和 GB200 产品系列,后者集成了 1 个 Grace CPU 和 2 个 B200 GPU。


B200 GPU 通过 2080 亿个晶体管提供高达 20 petaflops 的 FP4 吞吐量。GB200 GPU 通过 900GB / 秒的超低功耗芯片到芯片连接,将两个 B200 GPU 连接到 1 个 Grace CPU 上。

相较于H100Tensor Core GPU,GB200 NVL72可以为大语言模型(LLM)推理负载提供 30 倍的性能提升,并将成本和能耗降低高达 25 倍。

人们认为我们制造 GPU,但 GPU 看起来并不像以前那样了,我现在一手拿着 100 亿,一手拿着 50 亿。


现在显卡已不再是独立销售,而是作为整个系统的一部分售出。毕竟,只有通过英伟达自家的组件才能实现最佳效率。


"我们现在销售的GPU包括7000个组件,总重量达3000磅。"基于Blackwell的AI算力将以名为DGX GB200的完整服务器形态提供给用户,该服务器结合了36颗NVIDIA Grace CPU和72块Blackwell GPU。


这些超级芯片通过第五代NVLink连接组成一台超级计算机。进一步扩展,Grace Blackwell架构的DGX SuperPOD由8个或更多DGX GB200系统构建而成,这些系统通过NVIDIA Quantum InfiniBand网络连接,可扩展到数万个GB200超级芯片。


用户通过NVLink连接8个DGX GB200系统中的576块Blackwell GPU,以获得海量共享显存空间,用于训练下一代AI模型。


对比性能的升级,以前使用Hopper训练GPT-MoE-1.8T需要8000块GPU耗时90天,现在只需2000块GB2000,能耗只需四分之一。

下一步生成式人工智能的发展方向是多模态和视频,这意味着需要进行更大规模的训练,而Blackwell为此带来了更多的可能性。


此外,大规模的大型模型(LLM)推理始终是一个挑战,不太适合单个GPU处理。在具有1750亿个参数的GPT-3 LLM基准测试中,GB200的性能是H100的7倍,训练速度是H100的4倍。

目前用于大型模型推理的速度是上一代产品的30倍。黄仁勋展示了对比图,蓝线代表Hopper的性能。

DGX超级计算机是推动人工智能产业变革的引擎。新一代DGX SuperPOD集成了加速计算、网络和软件方面的最新进展,能够帮助每个公司、行业和国家完善并构建自己的人工智能。


有了Blackwell,我们离生成式人工智能的实用化又近了一步。

两大技术革新

第二代 Transformer 引擎、第五代 NVLink

30倍AI算力是如何做到的?

除了使用新制程,并联两块芯片以外,Blackwell的关键改进在于引入第二代 Transformer 引擎,它支持了FP4和FP6,使得计算、带宽和模型大小翻了一番。

得益于新的微张量(micro-tensor)扩展支持以及先进的动态范围管理算法集成到英伟达TensorRT-LLM和NeMo Megatron框架中,Blackwell能够通过4位浮点AI推理能力支持双倍的算力和模型大小。


当大量类似的GPU进行互联时,第二个关键区别开始显现:下一代NVLink交换机使得576个GPU之间可以相互通信,具备每秒1.8TB的双向带宽。


英伟达表示,此前,由16个GPU组成的集群在相互通信上花费了60%的时间,而只有40%的时间用于实际计算。


现在,英伟达的NVLink Switch Chip可以让所有这些芯片互联起来,实现全速运转,没有任何瓶颈(1.8TB/s,几乎比上一代快10倍),并且帮助构建了DGX GB200 NVL72。

通过高速互联的机制,DGX GB200 NVL72可以被看作是一个超级GPU,其FP8训练吞吐量高达720 PFLOPS,FP4推理吞吐量为1.44 ExaFLOPS,多节点All-to-All通信速度为130TB/秒,多节点All-Reduce通信速度为260TB/秒。


在具体的架构方面,DGX GB200 NVL72拥有18个GB200节点机架,每个节点搭配2个GB200 GPU。此外,还有9个NVSwitch机架,从而为GB200 NVL提供了720 PFLOPS的FP8吞吐量,以及FP4精度的ExaFLOPS。

今年的情况有了些变化,现在的DGX看起来像这样:拥有5000条NVLink电缆,总长度达到2英里,这些都是铜电缆,无需光收发器,从而节省了20kW的计算成本。

由于功耗过大,DGX需要采用液冷系统,同时重量高达3000磅(约1361公斤)。


2016 年,老黄扛着第一个 DGX 系统给 OpenAI,这才有了如今的 ChatGPT。那个时候 DGX 的算力是 0.17Petaflops,现在这个 GB200,算力是以 Exaflop 计算的。

在英伟达新的摩尔定律下,算力的提升速度居然还加快了。

构建生态,进场自带智能


除了硬件系统,英伟达利用生成式人工智能构建了一系列元宇宙、工业数字孪生和机器人训练软件体系。英伟达表示,他们正在将Omniverse企业技术引入苹果。


这个想法是让开发人员通过Vision Pro在增强现实/虚拟现实设置中使用Omniverse工具。


在GTC上,英伟达展示了设计师如何通过Vision Pro使用汽车配置工具来操控车辆,然后进入虚拟环境中。


人们可以通过Omniverse Cloud API以及通过云端直接流式传输到Vision Pro的图形传输网络来实现这一点。


此外,还有前沿的机器人工作,英伟达公布了人形机器人项目GR00T。在今天的主题演讲中,黄仁勋展示了多个由GR00T驱动的人形机器人如何完成各种任务,其中包括来自Agility Robotics、Apptronik、傅利叶智能(Fourier Intelligence)和宇树科技(Unitree Robotics)的机器人产品。

GR00T是基于英伟达的Isaac机器人平台工具而发展起来的,它基于新的通用基础模型。


GR00T驱动的人形机器人能够接受文本、语音、视频甚至现场演示的输入,并对其进行处理以采取特定的操作,包括理解自然语言、模拟人类行为、在现实世界中导航和交互。


英伟达还开发了一种新型「机器人大脑」计算芯片Jetson Thor,能够执行复杂的任务并使用Transformer引擎处理多个传感器。

人形机器人领域近期达到了一个新的高度,英伟达「大客户」OpenAI一直在使用自己的AI模型来为一家名为Figure的初创公司的人形机器人提供支持一样。

英伟达把它摆在了重要位置,如黄仁勋所说:机器人的ChatGPT时刻可能即将到来


Are you ready for AI?

往期推荐


_

● SOL突破200美元!BOME创办人:谁控制了迷因,谁就能控制宇宙

► 点击阅读


_

● Solana迷因$POGAI暴涨2283.5%,搞笑蹭「Nvidia开发者计划」

► 点击阅读


_

● 萨尔瓦多公布「每日定投1比特币」总统喊坚持直到法币付不起为止并公布冷钱包地址

► 点击阅读


_

● 黄仁勋最新对话:未来10年算力将再提高100万倍

► 点击阅读


_

● 要币安交出前100大用户个资、交易记录!尼日利亚与Binance谈判陷僵局

► 点击阅读


_

● 比特币Layer2将大爆发?深度分析生态发展、链上应用与扩展方案

► 点击阅读


_

● 川普:若再当选美国总统将支持加密货币

► 点击阅读


_
继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存