查看原文
其他

杀疯了!NVIDIA甩出最强AI核弹!新架构GPU性能暴涨30倍。

聪聪 CG世界
2024-07-22

点击上方蓝字CG世界关注我们

“ 感知技术 · 感触CG · 感受艺术 · 感悟心灵 ”
中国很有影响力影视特效CG动画领域自媒体


NVIDIA目前可以说是位居人工智能世界之巅,拥有着各大公司梦寐以求的数据中心GPU。其中当红的Hopper H100和GH200 Grace Hopper超级芯片更是让其成为万亿美元市值公司。

即便如此,NVIDIA也没有停下前进的脚步,在卷死同行的路上一骑绝尘。就在不久前的Nvidia开发者大会GTC 2024上,首席执行官黄仁勋宣布了Hopper的“继任者”:Blackwell B200,作为下一代数据中心和GPU,将在计算能力上实现大飞跃。

B200的AI训练性能是上一代Hopper H100 GPU的4倍,AI推理性能则高达30倍,能效比也提高了25倍。基于全新的Blackwell架构,B200还可以与Nvidia Grace CPU结合,构建新一代DGX SuperPOD计算机,利用新型低精度数值格式,实现高达11.5亿亿次(1.15亿exaflops)AI运算。

这款以第一位加入美国国家科学院的黑人数学家David Harold Blackwell命名的新架构,将取代两年前推出的NVIDIA Hopper架构,Blackwell拥有六项革命性创新,总共支持训练和实时推理最高可达10万亿参数的大型语言模型。




  1. 全球最强大的芯片 - 打包了2080亿晶体管,采用台积电定制4NP工艺生产,两个独立芯片通过10TB/秒芯片级互连合并为统一GPU。

  2. 第二代Transformer引擎 - 支持新的微张量缩放和4位浮点推理,与TensorRT-LLM和NeMo Megatron框架相结合,可实现双倍计算能力和模型规模。

  3. 第五代NVLink - 每个GPU提供1.8TB/秒双向吞吐量,支持576个GPU无缝高速通信,适用于万亿参数和混合专家AI模型。

  4. RAS引擎 - 专用的可靠性、可用性和可维护性引擎,结合基于AI的预防性维护,最大限度提高大规模AI部署的系统正常运行时间,降低运营成本。

  5. 安全人工智能 - 先进的机密计算功能在不影响性能的情况下保护AI模型和客户数据隐私。

  6. 解压缩引擎 - 专用解压缩引擎支持最新格式,加速数据库查询,提高数据分析和数据科学性能。



此外,还将推出Grace Blackwell GB200超级芯片,顾名思义,将保留Grace CPU架构,但会与升级后的Blackwell GPU相匹配、超高速网络解决方案等多款新品,得到了亚马逊、谷歌、微软等云服务商和戴尔、联想等服务器厂商的广泛支持,以及工程和人工智能软件公司的配合优化。

B200集成了2080亿个晶体管(H100/H200为800亿个),能通过单个GPU提供20petaflops的AI性能 (单个H100的最高AI计算能力为4petaflops) ,同时它将配备192GB HBM3e内存,带宽高达8TB/秒。

Blackwell B200并非传统意义上的单一GPU。相反,它由两个紧密集成的芯片组成,根据Nvidia的说法,它们可以作为一个统一的CUDA GPU运行(这两个芯片通过10TB/秒的NV-HBI(Nvidia高带宽接口)连接,以确保它们可以像单个完全一致的芯片那样正常工作)。

采用双芯片设计的原因很简单:Blackwell B200使用台积电4NP工艺,这是现有Hopper H100和Ada Lovelace架构GPU使用的4N工艺的改进版本,性能提高了6%。且值得一提的是,与H100相比,它的成本和能耗最多可降低25倍。

与Hopper芯片类似,B200也包括高带宽内存,这对降低大型AI模型的延迟和能耗非常重要。B200采用最新的HBM3e内存,总容量192GB,比第二代Hopper H200的141GB有所提升。此外,内存带宽也从H200的4.8TB/秒提高到8TB/秒。


数量更小,芯片速度更快



尽管制程工艺推动了Blackwell的诞生,但GPU处理数值的能力才是真正的差异化优势。在去年的IEEE Hot Chips大会上,NVIDIA首席科学家Bill Dally向计算机科学家解释了NVIDIA在人工智能领域取得成功的主要原因:使用越来越少的比特位数来表示AI计算中的数值。

上一代Hopper架构首次引入了"Transformer引擎",它能检查神经网络的每一层,判断是否可以使用低精度数值进行计算,可使用小至8位的浮点数格式(较小的数值计算速度更快、更节能,需要较少内存和内存带宽,所需的计算逻辑也占用更少芯片面积)。

Blackwell延续了使用低精度计算的独特路线,新架构引入了4位宽浮点数矩阵运算单元。更重要的是,Blackwell可以对神经网络每一层的不同部分灵活选择使用这种低精度格式,而不仅限于像Hopper那样针对整层。进一步提高了AI计算的性能、能效和芯片面积利用率,这也是它取得革命性突破的关键所在。


NVLink和其他特性



除了上述架构优势,NVIDIA还透露,Blackwell内置了专门的"引擎",专注于GPU的可靠性、可用性和可维护性。

根据NVDIA的介绍,该引擎采用基于AI的系统来运行诊断和预测可靠性问题,目的是增加系统正常运行时间,并帮助大规模AI系统连续运行数周,这对训练大型语言模型至关重要。同时,NVIDIA还提供了一些系统来确保AI模型的安全,以及解压缩引擎加快数据库查询和数据分析。

最后,Blackwell集成了第五代Nvidia NVLink互连技术,提供1.8TB/秒双向GPU带宽,支持高达576个GPU高速互连(Hopper的NVLink带宽仅为这个水平的一半)。


SuperPOD和其他计算机



NVLink的高带宽是构建大规模Blackwell计算机的关键,能够支持运行万亿参数的神经网络模型。

基础计算单元被称为DGX GB200,每个GB200包含36个GB200超级芯片。这些超级芯片模块由一个Grace CPU和两个Blackwell GPU通过NVLink互连组成。

8个DGX GB200可以通过NVLink进一步连接,形成一个576 GPU的DGX SuperPOD超级计算机。这样的计算机利用4位精度运算可实现11.5exaflops级算力。利用Nvidia Quantum Infiniband网络技术,还可构建数万GPU规模的系统。

SuperPOD和其他NIVIDA计算机预计将于今年晚些时候推出。与此同时,芯片代工厂台积电和电子设计自动化公司Synopsys分别宣布,将投入生产NVIDIA的cuLitho逆光刻工具。

除此之外,本次NVIDIA还宣布,推出了一种用于人形机器人的新型基础模型GR00T。希望通过这一举措,让机器人拥有更聪明的大脑,通过观察人类的行为做出自然的动作模仿,大大提升协调性和灵活性。

NVIDIA方面称,目前正在为1X Technologies、Agility Robotics、Apptronik、Boston Dynamics、Figure AI、Fourier Intelligence、Sanctuary AI、Unitree Robotics 和 XPENG Robotics等人形机器人公司构建AI平台。

这样看来,Blackwell B200的出现,开启了一个加速计算和生成式AI的新时代,更有望推动人工智能的发展进入新阶段。

END

裁掉50%的特效,50%的灯光,70%的数字绘景?梦工厂将在未来数月里进行裁员?


轻松将3D模型生成手绘风格!Blender插件推荐


UE5超写实人像渲染

继续滑动看下一个
CG世界
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存