查看原文
其他

人工智能新型智算中心专题报告:拉动全球电力消耗增长,液冷渗透率快速提升(附下载)



需要下载本报告的朋友,可以扫描下方二维码进圈,5万+份报告,3000+会员,高清原版,无限制下载,持续更新

(公众号资源有限,仅能展示部分少数报告,加入星球获取更多精选报告)


(精选报告来源:报告研究所)


能源侧:智算中心电力消耗测算

智算中心:服务器机柜内外组成结构

服务器机柜内:主要包括GPU、CPU、内存(RAM)、硬盘(Hard Drive)、网络交换机(Network Switch)、配电单元(PDU)等;服务器机柜外:主要包括供电系统(功率转化器、功率分配器等)、冷却系统(制冷机、冷却塔、气/水分配系统)、安全及监控系统、网络系统(连接件)等。

智算中心:单一POD(集群)拆解-外部

单一POD(集群)组成:由服务器(例如英伟达DGX系统)、InfiniBand和以太网络、管理节点(Management Node/ManagementRacks)、存储(Storage)、电缆桥架(Cable Tray)、冷通道(Cold Aisle Containment)、跨桥通道(Aisle Crossing Bridge)组成;

智算中心:单一POD(集群)拆解-内部

单个SU架构:由8个服务器机柜组成,每个服务器机构中放置4台DGX H100服务器(包含8颗H100 GPU芯片)和3个配电单元(PDU),即单一SU包含32台DGX H100服务器(对应256颗H100芯片)和24个配电单元(PDU);管理机柜(Management Rack):包含网络交换机、管理服务器、存储阵列(Storage Array)和UFM控制器(Unified FabricManager);以英伟达管理机柜为例,其包含32个QM9700 Compute Leaves、16个QM 9700 Compute Spines、2个Compute UFMs、6个SN4600c In-Band Leaves、2个SN4600c In-Band Leaves、4个BCM Nodes、8个QM9700 Storage Leaves、4个QM9700 StorageSpines、8个SN2201 Out of-Band Leaves。

单一POD(集群)网络结构-计算网络

计算网络:AI大模型的训练,通常需要多个GPU协同工作,计算网络可实现数据跨GPU计算;计算网络层数:通常POD(集群)计算网络可包含三层交换机,分别是Leaf交换机、Spine交换机和Core交换机;在英伟达127节点计算网络中,仅使用两层交换机(Leaf和Spine,型号为Mellanox QM9700),且每个SU中有8台交换机和32台DGX H100服务器,则每台服务器应和8台交换机相连,而如前文所述,单台服务器背面仅4个800G OSFP端口(用于计算网络),则需要在端口接入光模块后,通过拓展端口将1个OSFP端口拓展成2个QSFD端口,进而实现连接。

单一POD(集群)网络结构-In-Band管理网络

In-Band管理网络(In-Band Management Fabrics):In-Band管理网络连接计算节点和管理节点(基于以太网),主要为集群提供以下功能:1)连接管理集群的所有服务;2)管控集群中节点访问主文件系统和存储池;3)连接集群内外服务(集群内服务:Base Commond Manager、Slurm等;集群外服务:NGC登记、代码仓库、数据资源等)。以DGX SuperPOD-A100 In-Band管理网络架构为例,140个节点对应8台交换机(6台Leaf交换机、2台Spine交换机)。

智算中心:服务器拆解(以DGX H100为例)

服务器拆解:以英伟达DGX H100为例,服务器通常包括GPU板组、主板、电源、风扇模块、结构件板块(前框、底架、前结构架)等,其中服务器正面提供电源按键、2个USB接口和1个VGA接口,背面提供6个电源接口以及网络端口(链接主板,实现POD内数据传输)。

智算中心:单位算力能耗模型

单台服务器对应IT设备功率:以英伟达DGX H100服务器为例,单台服务器功率为10,200w;如前文所述,已知127节点SuperPOD中服务器部分(存储、网络、管理)和交换机部分(计算、存储、In-Band管理、Out-of-Band管理)功率,则对应单台服务器为911.62w,加总可知单台服务器对应IT设备功率要求为11,112w; 单台服务器对应智算中心用电量:假设利用率为80%,PUE为1.25,可知单台服务器对应智算中心功率消耗为11,112w,对应年度用电量为97,338KWh;单位算力对应智算中心用电量:已知单台DGX H100服务器算力为8 petaFLOPS(TF32)和16 petaFLOPS(FP16),则TF32下单位petaFLOPS算力对应智算中心年度用电量为12,167 Kwh,FP16下单位petaFLOPS算力对应智算中心年度用电量为6,084 Kwh。

供电侧:多种配电方案并存

供电侧:主流供电方案

供电方案:目前主流的供电方案包括交流UPS架构、高压直流架构、机架式直流架构。交流UPS架构:当市电正常供电时,UPS为电池组充电;当市电中断时,电池组放电,经逆变电路为服务器机柜提供持续的电力供应。目前该架构为行业内最成熟的供电技术,但也存在单点故障、电能变换效率低、设备拓展性差、多机并联易出现环流等问题;高压直流架构:其具备效率高、并机方便等优势,在智算中心占比逐步提升,例如阿里巴巴杭州东冠机房采用高压直流架构,但仍存在单点故障问题,且对器件可靠性和直流断路器等设备要求较高;机架式直流架构:谷歌等公司最早提出了机架式UPS架构,将服务器、UPS设备和电池组集成到服务器机柜内部,避免了单点故障。

供电侧:主流供电方案-高压直流供电架构

高压直流供电架构:由交流配电模块、整流器、直流配电模块、蓄电池组和监控装置组成,包括336V高压直流和240V高压直流两种标准,336V为中国移动标准,需要改造设备和定制电源模块,240V为中国电信标准,配置时基本不需要进行设备改造和电源定制,应用范围更广,实际应用中主要分为240V 2N直流供电架构和市电+240V直流供电架构。工作原理:整流器为核心部件,交流电通过整流器、直流配电模块为IT设备供电,且为蓄电池充电,保障在市电中断或市电质量不满足要求时,通过蓄电池实现不间断供电;优势:1)节能:没有逆变环节,减少转换步骤和电路设备,且高压直流集肤效应小于交流电,输电损耗小;2)可靠性高:蓄电池为负载直接供电且没有逆变环节,设备数量少,故障点减少,可靠性提高;3)无“零地”电压问题:直流输入,系统无零线,避免不明故障;4)利于新能源接入:减少分布式发电系统(如光伏)及直流负荷接入电网的中间环节,进而降低接入成本,提高功率转换效率和电能质量;劣势:1)对配电开关灭弧性能要求高:由于直流电不存在零点,灭弧相对困难,直流配电所需开关性能要求高;2)换流设备成本高:直流换流站比交流变电所的设备多,结构负载,造价高,损耗大,运行费用高。240V 2N直流供电架构:由两套完全独立的2套240V直流系统组成,2套直流系统从不同的低压配电系统引电,平时每套240V直流系统带一半负载,当一套系统出现故障时,另一套系统带全部负载。市电+240V直流供电架构:由一路市电供电和一路240V直流系统供电组成,平时市电供电作为主用电源带全部负载,当市电断电或质量不满足要求时,转由240V直流系统供电。

UPS:市场规模稳步增长,科华数据、华为、Vertiv市占率较高

UPS市场规模稳步增长。UPS是信息化基础设施建设的重要组成部分,下游可应用于数据中心、通信基站、制造业设备等领域,UPS需求持续增长;根据智研咨询披露数据,23年中国UPS市场规模为152亿人民币,对应13-23年CAGR为15.73%,预计25年市场规模将增长至191亿人民币,对应CAGR为12.1%,市场规模稳步增长。科华数据、华为、Vertiv占据主要市场份额。根据智研咨询披露数据,23年中国UPS市场市占率前三厂商分别为科华数据(15.6%)、华为(14.2%)和Vertiv(12.1%),三家合计为41.9%,占据主要市场份额。

冷却侧:液冷将替代传统风冷方案

传统冷却方式:风冷-直膨式精密空调

直膨式(DX)精密空调风冷:通过直膨式(DX)精密空调对数据中心进行制冷,先冷环境,再冷设备,设备构成简单、部署灵活,能满足低功率的制冷需求,早期多用于运营商、互联网等小规模机房。精密空调的蒸发器置于数据中心机房内,为服务器等IT设备提供冷量;冷凝器置于机房外,与环境空气进行换热,其中冷凝器形式多样化(可一对一或集中式部署)。

功率密度持续提升,对数据中心散热提出更高要求

单台服务器功率密度持续提升:1)处理器核数增长:CPU核心数持续增长,单卡功率及芯片发热随之提升;2)异构并行:为满足AI工作需求,服务器加装GPU/Asic等AI加速卡,单台服务器功率提升;3)单服务器内部AI加速卡数量增长:目前,单台服务器内部通常配置8张GPU卡,24年3月英伟达发布的GB200-NVL72服务器,配置72颗Blackwell GPU芯片,未来单台服务器内部加速卡数量有望持续增长。

不同发热器件功率梯度不同,对数据中心散热提出更高要求。传统风冷式方案仅能对机房整体或局部环境温度进行调节,但机柜内服务器不同发热期间功率梯度不同(例如CPU、GPU功率远高于其他器件,而内存、PSU仅占服务器功耗的20%-30%),则传统风冷方案会导致不同器件“过冷”或“过热”,无法实现精确制冷,若通过加大制冷量等方式降低“过热”器件温度,则会导致能源浪费。

案例研究:新型绿色智算中心分析

绿色智算中心设计-英伟达:硬件侧持续迭代

完整报告下载:因篇幅限制,本报告完整版PDF已分享到报告研究所知识星球,扫描图片中二维码进圈即可下载!

(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。

欢迎加入报告研究所知识星球社群,入圈后您可以享受以下服务:

1、报告持续更新,分享最新、最专业、最深度的行业研究报告、投行报告、白皮书、蓝皮书、公司研报等。公众号发布的报告可同步下载;

2、海量研究报告均可下载PDF高清版,无限制;

3、会员可以提问方式获取具体报告需求;


扫描下方二维码加入星球


业务咨询、商务合作:136 3162 3664(同微信)

温馨提示




应广大粉丝要求,「报告研究所」成立了报告交流群,欢迎各位公司企业、投行、投资机构、政府机构、基金、创业者及金融资本圈朋友加入!


这里能且不限于:“行业交流、报告交流、信息交流、寻求合作等......”


入群方式:添加助理微信touzireport666,发送「个人纸质名片」或「电子名片」审核后即可入群


继续滑动看下一个
报告研究所
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存