其他
现场直击GTC|最科幻发布会,性能翻30倍的恐怖Blackwell芯片,黄仁勋宣告“新工业革命”来了
高AI性能:B200 GPU提供高达20 petaflops的FP4计算能力,这是由其2080亿个晶体管提供的。 高效推理:当与Grace CPU结合形成GB200超级芯片时,它能在LLM推理工作负载上提供比单个GPU高出30倍的性能,同时在成本和能源消耗上比H100 GPU高出25倍。 训练能力:使用Blackwell GPU,训练一个1.8万亿参数的模型所需的GPU数量从8000个减少到2000个,同时电力消耗从15兆瓦降低到仅4兆瓦。
GPT-3性能:在GPT-3 LLM基准测试中,GB200的性能是H100的七倍,训练速度提高了4倍。
改进的Transformer引擎:第二代Transformer引擎通过使用每个神经元的四位而不是八位,实现了计算、带宽和模型大小的翻倍。
下一代NVLink开关:允许多达576个GPU之间进行通信,提供每秒1.8太比特的双向带宽。
新的网络交换芯片:拥有500亿晶体管和3.6 teraflops的FP8计算能力,用于支持大规模GPU集群的通信。
扩展性:Nvidia的系统可以扩展到数万个GB200超级芯片,通过800Gbps的Quantum-X800 InfiniBand或Spectrum-X800以太网连接。
大规模部署:GB200 NVL72设计可以将36个CPU和72个GPU集成到一个液冷机架中,提供总共720 petaflops的AI训练性能或1.4 exaflops的推理性能。
支持大型模型:单个NVL72机架可以支持高达27万亿参数的模型,而且有意思的是,黄仁勋似乎透露了一下GPT-4的参数,它可能是一个约1.7万亿参数的模型。