杀疯了！NVIDIA甩出最强AI核弹！新架构GPU性能暴涨30倍。

聪聪 CG世界

2024-07-22

点击上方蓝字CG世界关注我们

“ 感知技术 · 感触CG · 感受艺术 · 感悟心灵 ”

中国很有影响力影视特效CG动画领域自媒体

NVIDIA目前可以说是位居人工智能世界之巅，拥有着各大公司梦寐以求的数据中心GPU。其中当红的Hopper H100和GH200 Grace Hopper超级芯片更是让其成为万亿美元市值公司。

即便如此，NVIDIA也没有停下前进的脚步，在卷死同行的路上一骑绝尘。就在不久前的Nvidia开发者大会GTC 2024上，首席执行官黄仁勋宣布了Hopper的“继任者”：Blackwell B200，作为下一代数据中心和GPU，将在计算能力上实现大飞跃。

B200的AI训练性能是上一代Hopper H100 GPU的4倍,AI推理性能则高达30倍,能效比也提高了25倍。基于全新的Blackwell架构,B200还可以与Nvidia Grace CPU结合,构建新一代DGX SuperPOD计算机,利用新型低精度数值格式,实现高达11.5亿亿次（1.15亿exaflops）AI运算。

这款以第一位加入美国国家科学院的黑人数学家David Harold Blackwell命名的新架构,将取代两年前推出的NVIDIA Hopper架构，Blackwell拥有六项革命性创新,总共支持训练和实时推理最高可达10万亿参数的大型语言模型。

全球最强大的芯片 - 打包了2080亿晶体管,采用台积电定制4NP工艺生产,两个独立芯片通过10TB/秒芯片级互连合并为统一GPU。
第二代Transformer引擎 - 支持新的微张量缩放和4位浮点推理,与TensorRT-LLM和NeMo Megatron框架相结合,可实现双倍计算能力和模型规模。
第五代NVLink - 每个GPU提供1.8TB/秒双向吞吐量,支持576个GPU无缝高速通信,适用于万亿参数和混合专家AI模型。
RAS引擎 - 专用的可靠性、可用性和可维护性引擎,结合基于AI的预防性维护,最大限度提高大规模AI部署的系统正常运行时间,降低运营成本。
安全人工智能 - 先进的机密计算功能在不影响性能的情况下保护AI模型和客户数据隐私。
解压缩引擎 - 专用解压缩引擎支持最新格式,加速数据库查询,提高数据分析和数据科学性能。

此外，还将推出Grace Blackwell GB200超级芯片,顾名思义,将保留Grace CPU架构,但会与升级后的Blackwell GPU相匹配、超高速网络解决方案等多款新品,得到了亚马逊、谷歌、微软等云服务商和戴尔、联想等服务器厂商的广泛支持,以及工程和人工智能软件公司的配合优化。

B200集成了2080亿个晶体管(H100/H200为800亿个)，能通过单个GPU提供20petaflops的AI性能（单个H100的最高AI计算能力为4petaflops），同时它将配备192GB HBM3e内存,带宽高达8TB/秒。

Blackwell B200并非传统意义上的单一GPU。相反,它由两个紧密集成的芯片组成,根据Nvidia的说法,它们可以作为一个统一的CUDA GPU运行（这两个芯片通过10TB/秒的NV-HBI(Nvidia高带宽接口)连接,以确保它们可以像单个完全一致的芯片那样正常工作）。

采用双芯片设计的原因很简单:Blackwell B200使用台积电4NP工艺,这是现有Hopper H100和Ada Lovelace架构GPU使用的4N工艺的改进版本，性能提高了6%。且值得一提的是，与H100相比，它的成本和能耗最多可降低25倍。

与Hopper芯片类似,B200也包括高带宽内存,这对降低大型AI模型的延迟和能耗非常重要。B200采用最新的HBM3e内存,总容量192GB,比第二代Hopper H200的141GB有所提升。此外,内存带宽也从H200的4.8TB/秒提高到8TB/秒。

数量更小，芯片速度更快

尽管制程工艺推动了Blackwell的诞生,但GPU处理数值的能力才是真正的差异化优势。在去年的IEEE Hot Chips大会上,NVIDIA首席科学家Bill Dally向计算机科学家解释了NVIDIA在人工智能领域取得成功的主要原因：使用越来越少的比特位数来表示AI计算中的数值。

上一代Hopper架构首次引入了"Transformer引擎"，它能检查神经网络的每一层,判断是否可以使用低精度数值进行计算，可使用小至8位的浮点数格式（较小的数值计算速度更快、更节能,需要较少内存和内存带宽,所需的计算逻辑也占用更少芯片面积）。

Blackwell延续了使用低精度计算的独特路线,新架构引入了4位宽浮点数矩阵运算单元。更重要的是,Blackwell可以对神经网络每一层的不同部分灵活选择使用这种低精度格式,而不仅限于像Hopper那样针对整层。进一步提高了AI计算的性能、能效和芯片面积利用率,这也是它取得革命性突破的关键所在。

NVLink和其他特性

除了上述架构优势,NVIDIA还透露,Blackwell内置了专门的"引擎",专注于GPU的可靠性、可用性和可维护性。

根据NVDIA的介绍,该引擎采用基于AI的系统来运行诊断和预测可靠性问题,目的是增加系统正常运行时间,并帮助大规模AI系统连续运行数周,这对训练大型语言模型至关重要。同时，NVIDIA还提供了一些系统来确保AI模型的安全，以及解压缩引擎加快数据库查询和数据分析。

最后,Blackwell集成了第五代Nvidia NVLink互连技术,提供1.8TB/秒双向GPU带宽,支持高达576个GPU高速互连（Hopper的NVLink带宽仅为这个水平的一半）。

SuperPOD和其他计算机

NVLink的高带宽是构建大规模Blackwell计算机的关键,能够支持运行万亿参数的神经网络模型。

基础计算单元被称为DGX GB200,每个GB200包含36个GB200超级芯片。这些超级芯片模块由一个Grace CPU和两个Blackwell GPU通过NVLink互连组成。

8个DGX GB200可以通过NVLink进一步连接,形成一个576 GPU的DGX SuperPOD超级计算机。这样的计算机利用4位精度运算可实现11.5exaflops级算力。利用Nvidia Quantum Infiniband网络技术,还可构建数万GPU规模的系统。

SuperPOD和其他NIVIDA计算机预计将于今年晚些时候推出。与此同时,芯片代工厂台积电和电子设计自动化公司Synopsys分别宣布，将投入生产NVIDIA的cuLitho逆光刻工具。

除此之外，本次NVIDIA还宣布，推出了一种用于人形机器人的新型基础模型GR00T。希望通过这一举措，让机器人拥有更聪明的大脑，通过观察人类的行为做出自然的动作模仿，大大提升协调性和灵活性。

NVIDIA方面称，目前正在为1X Technologies、Agility Robotics、Apptronik、Boston Dynamics、Figure AI、Fourier Intelligence、Sanctuary AI、Unitree Robotics 和 XPENG Robotics等人形机器人公司构建AI平台。

这样看来，Blackwell B200的出现，开启了一个加速计算和生成式AI的新时代，更有望推动人工智能的发展进入新阶段。

END

裁掉50%的特效，50%的灯光，70%的数字绘景？梦工厂将在未来数月里进行裁员？

轻松将3D模型生成手绘风格！Blender插件推荐

UE5超写实人像渲染

继续滑动看下一个

CG世界

向上滑动看下一个

利诱、警告、威胁、删文，以色列的经费，或许远超16亿美元

越洗越嫩滑，还能拉丝，战火中制作的叙利亚「橄榄古皂」，为何能流传千年？

79元2双！这是我穿过脚感“最好”的帆布鞋，直接秒杀某匡某vas~

79元2双！这是我穿过脚感“最好”的帆布鞋，直接秒杀某匡某vas~

79元2双！这是我穿过脚感“最好”的帆布鞋，直接秒杀某匡某vas~

杀疯了！NVIDIA甩出最强AI核弹！新架构GPU性能暴涨30倍。

这样看来，Blackwell B200的出现，开启了一个加速计算和生成式AI的新时代，更有望推动人工智能的发展进入新阶段。

您可能也对以下帖子感兴趣

利诱、警告、威胁、删文，以色列的经费，或许远超16亿美元

越洗越嫩滑，还能拉丝，战火中制作的叙利亚「橄榄古皂」，为何能流传千年？

79元2双！这是我穿过脚感“最好”的帆布鞋，直接秒杀某匡某vas~

79元2双！这是我穿过脚感“最好”的帆布鞋，直接秒杀某匡某vas~

79元2双！这是我穿过脚感“最好”的帆布鞋，直接秒杀某匡某vas~

生成图片，分享到微信朋友圈

杀疯了！NVIDIA甩出最强AI核弹！新架构GPU性能暴涨30倍。

这样看来，Blackwell B200的出现，开启了一个加速计算和生成式AI的新时代，更有望推动人工智能的发展进入新阶段。

您可能也对以下帖子感兴趣