通信行业报告:AI热浪起,液冷迎来黄金时代(附下载)
(精选报告来源:报告研究所)
1、 AIGC 时代,液冷技术发展迎来风口
AIGC 高速发展,带动数据中心朝着高密度化发展。(1)主流计算芯片功耗不断增加;(2)AI 集群对算力密度有一定要求,训练单元过于分散不利于作业开展,减少组网距离亦可减少通信耗材开支。(3)单机柜功率不断上升,逼近风冷散热极限,液冷散热效率优于风冷,或将成为更佳选择。
政策对 PUE 要求趋严,引导数据中心绿色化发展。我国数据中心耗电量与日俱增,数据中心平均 PUE 水平偏高,液冷方案可使 PUE 降至 1.25 以下,充分满足政策要求。
电信运营商提出解耦式交付,助推液冷标准化和规模化发展。据中国三大电信运营商联合发布的《电信运营商液冷技术白皮书》,电信运营商提出三年愿景:推进液冷机柜与服务器解耦,引领形成统一标准,降低液冷全生命周期成本。服务器厂商和生态链服务商积极布局液冷,促进液冷生态逐渐完善。
1.1、 人工智能发展与算力提升对散热有更高需求
人工智能迎来新变革,带来大量算力和机柜需求。2022 年底生成式 AI 大模型ChatGPT 横空出世,掀起新的 AI 浪潮,海内外互联网巨头、科技企业及研究机构等陆续投入到大模型研发当中,拉开“百模大战”的序幕,据浪潮信息发布的《2023-2024年中国人工智能计算力发展评估报告》,截至 2023 年 10 月,中国累计发布两百余个大模型,其中以科研院所和互联网企业为开发主力军。随着 AI 语言大模型的不断迭代,模型数据量和参数规模呈现指数级增长,算力需求不断提升。以 GPT 模型为例,GPT-3 模型参数约为 1746 亿个,训练一次需要的总算力约为 3640 PF-days。据中国信通院数据,2023 年推出的 GPT-4 参数数量可能扩大到 1.8 万亿个,是 GPT-3 的10 倍,训练算力需求上升到 GPT-3 的 68 倍,在 2.5 万个 A100 上需要训练90-100 天。无论是 AI 模型的训练还是推理均离不开算力资源的支持,AI 的高速发展带来大量算力和数据中心机柜需求,拉动算力基础设施建设。
全球算力规模维持高增长。经中国信息通信研究院测算,在 FP32 精度下,2022年全球计算设备算力总规模达到 906 EFlops 并持续维持较高增速,增速达到 47%,其中基础算力规模为 440 EFlops,智能算力规模已超过基础算力规模,达到 451EFlops,超算算力规模为 16 EFlops。中国信通院预计 2024-2028 年全球算力规模将以超过 50%的速度增长,到 2025 年全球计算设备算力总规模将超过 3 ZFlops,至2030 年将超过 20 ZFlops。
AI 形成强大推动力,液冷数据中心市场规模保持高速增长。AIGC 的高速发展离不开高算力的支撑,随着计算芯片功耗持续上升带动服务器及整机柜功耗上升,液冷散热有望成为首选。据科智咨询预计,2023 年中国液冷数据中心市场将同比增长 53.2%,市场规模将增长至 154 亿元,预计 2022-2027 年,中国液冷数据中心市场将以 59%的复合增长率持续蓬勃发展。预计到 2027 年,随着 AI 系列应用的规模化落地以及液冷生态的日趋成熟,市场规模将突破千亿大关。
(1)在需求方面,随着 AI 大模型、云计算、5.5G 等新兴技术的不断发展,互联网、政府和电信行业仍为液冷数据中心的需求主力军,金融、下游制造、医疗、能源等行业也有望不断加大液冷相关投入。
(2)生态方面,液冷产业早期上下游协同性不高,无统一相关标准,难以形成合力。液冷服务器是液冷生态链的核心价值环节,近期众多服务器厂商先后推出液冷服务器,其他设备厂商相继推出液冷交换机、液冷光模块、液冷机柜等配套设备,积极布局液冷产业,液冷生态链设备商及服务供应商紧密配合,共同推动液冷生态进一步完善。三大电信运营商助推液冷解耦式交付,引领液冷接口标准化、规范化发展,构筑开放生态,液冷渗透率有望进一步提升。
(3)成熟度方面,冷板液冷发展较早,相比浸没式和喷淋式、生态更完善、改造成本更低、改造周期较短,冷板式液冷可作为传统风冷的平滑过渡,未来有望进一步向浸没式液冷转变。随着众多成熟液冷项目持续落地,液冷发展走向良性循环。
(4)政策方面,IDC 耗电量与日俱增,数据中心绿色化发展成为共识,国家对PUE 要求不断趋严,液冷相较风冷具有明显节能优势,减少冷却设备能耗,能有效降低 PUE 至 1.25 以下。
(5)成本方面,虽然液冷总体 Capex 仍高于风冷,但从单位角度来看,单千瓦散热 Capex 已在快速下降,成本拐点或将出现。据赛迪顾问发布的《2023 中国液冷应用市场研究报告》,2022 年液冷数据中心 1kW 的散热成本为近 6500 元,相比2022 年已经下降了 54.2%,预计 2023 年 1kW 的散热成本有望降至 5000 元左右,与传统风冷的建设成本已基本持平。随着单位散热成本持续下降,液冷 TCO 优势逐渐显著,或将加速老旧风冷数据中心改建为液冷数据中心,液冷渗透率持续增长。
1.1.1、 高算力需求下 IDC 机柜数量持续增长
算力需求支撑我国数据中心机架规模持续增长。服务器设备是提供算力资源的主要载体,IDC(数据中心)则是给集中放置的 ICT 设备(服务器设备、网络设备、存储设备)提供运行环境的场所(数据中心=IT+电力+制冷)。AIGC 的兴起引发数据量和计算量快速增长,在一线城市数据中心资源日趋紧张的情况下, AI 的高算力需求或将持续带动 IDC 的建设和机架数量的增长。据工信部、信通院数据,截至 2023年 6 月底,我国在用数据中心机架规模达到 760 万架,同比增速达到 28.8%,2022年底总机架规模达到 650 万架,2018-2022 年复合增速超过 30%。
1.1.2、 高算力需求下单机柜功耗持续增长
计算芯片功耗持续攀升,以满足高算力需求。后摩尔定律时代下,芯片制程技术发展趋缓,计算芯片多以提高核心数量等方式提高算力,导致计算芯片如 CPU 和GPU 的功耗不断攀升。AI 服务器作为人工智能发展的重要算力底座,CPU 和 GPU(或其他 ASIC 计算芯片)的整体功耗在 AI 服务器总功耗中占比达到 80%左右(。1)在 CPU 方面,从 2017 年 Intel 第一代铂金至强处理器的发布到 2023 年 12 月第五代处理器问世,核心数量从早期的 24 颗提升至最多 64 颗,同时 TDP(热设计功耗)从 150W 提升至最高 385W,功耗相比第一代提升超 2 倍;(2)在 GPU 方面,用于人工智能计算的GPU TDP从早期V100 Nvlink的300W提升至H100 SXM的700W,未来功耗或将持续增长。
AI 服务器功率已达风冷散热瓶颈。(1)芯片单点冷却方面:芯片功率密度的不断提升直接影响着芯片的散热和可靠性,逼近风冷散热上限 800W 左右,而液冷能有效满足芯片的散热需求。(2)机柜整体冷却方面:芯片功率的增加也导致整机柜功率的增长,采用传统风冷的数据中心通常可以解决 12kW 以内的机柜制冷。随着服务器单位功耗增大,同样尺寸的普通服务器机柜可容纳的服务器功率往往超过15kW,相对于现有的风冷数据中心,已逼近空气对流散热能力天花板。通用服务器功率平均在 0.5KW 左右,对于 6KW、8KW 的高功率机柜可以放置 10 台服务器以上。
AI 服务器功率可达 6KW 以上,以 NVIDIA DGX A100 服务器为例,额定功率约为4KW,单机最大功率约为 6.5KW。一个标准 42U 高度的机柜中,假设放置 5 个 5U高度的 AI 服务器,则需要超过 20KW 的单机柜功率,此时已超过风冷的散热极限,液冷或将成为最佳选择。
数据中心机柜功率持续上升,在 AI 驱动下功率增速或将加快。根据 Uptime Institute 发布的《2020 全球数据中心调查报告》 统计,2011 年数据中心平均单机架功率仅为 2.4 kW/机架,2017 年上升到 5.6 kW/ 机架,至 2020 年已达 8.4 kW/机架。
AI 高速发展带来了高算力需求,芯片功耗随之不断增长,导致数据中心单机架的功率升高,从 4.4 kW/机架逐渐升高至 8 kW/机架、25 kW/机架、30 kW/机架甚至更高。
单机柜功率持续上升,液冷散热更具优势。在传统风冷机房微模块中,随着通用服务器或 GPU 服务器上架率的提升,单机柜功率密度不断增长,迫使列间空调数量大增,导致机柜数量减少,并出现风冷制冷技术成本高、难度大的问题,性价比较低。在单机柜功率上升趋势下,对于用于 AI 训练与推理的智算机柜,在不减少AI 服务器上架量的情况下,单机柜功率或已超过风冷的散热极限,液冷可支持高密度散热,散热效率和成本等优势愈发显著。
1.2、 与传统风冷技术相比,液冷技术优势显著
液冷散热相比传统风冷散热效果更佳。传统风冷技术是成熟且应用最广泛的数据中心散热技术,它以空气为介质进行散热,通过送入低温空气、经与电子器件进行热交换后,将热量带走。相较于液冷散热,风冷技术存在密度低、散热能力差、易形成局部热点、机械能耗大等缺陷。液冷方式则以液体为介质进行散热,由于液体的体积比热容是空气的 1000-3500 倍,意味着冷却液可以吸收大量热量而不会显著升高温度;液体的对流换热系数是空气的 10-40 倍,同等空间情况液冷的冷却能力远高于空气;只需提供中温液体即可满足元器件散热需求,比空气冷却方式散热效率更高,也更加节能。
与风冷技术相比,液冷技术主要具有以下优势:
(1)低能耗:液冷散热能显著降低制冷设备能耗。传统风冷数据中心建成后,电费占运维总成本的 60%-70%。根据赛迪顾问统计数据显示,2019 年中国数据中心主要设备能耗占比中,制冷耗电占比(约 43%)位居第二,仅次于 IT 设备自身能耗占比(约 45%)。液冷技术相较传统风冷散热,取代大部分空调系统(压缩机)、风扇等高能耗设备,可实现节能 20%-30%以上。以某液冷数据中心为例,液冷设备取代空调设备,耗能占比仅为 9%,数据中心 PUE 降低至 1.2 以下。此外,除了制冷系统自身能耗降低外,采用液冷散热技术有利于进一步降低芯片温度,芯片温度降低带来更高的可靠性和更低的能耗,整机能耗预计可降低约 5%。
传热路径短:低温液体由 CDU(冷量分配单元)直接供给通讯设备;
换热效率高:液冷系统一次测和二次测之间通过换热器实现液液换热,一次测和外部环境之间结合风液换热、液液换热、蒸发换热三种形式,具备更优的换热效果;
制冷能效高:液冷技术可实现 40~55℃高温供液,无需压缩机冷水机组,采用室外冷却塔,可实现全年自然冷却。
(2)高散热:液冷解决高功率芯片的散热问题,延长设备寿命,减少折旧成本。
风冷容易产生局部热点,芯片长时间高温运行,影响芯片性能和使用寿命。研究发现,温度每升高 1 摄氏度电子器件的寿命缩短 5%,液冷可维持芯片低于临界温度 10℃~20℃稳定运行,释放芯片最大计算潜能,延长芯片使用寿命。液冷系统常用介质有去离子水、醇基溶液、氟碳类工质、矿物油或硅油等多种类型;这些液体的载热能力、导热能力和强化对流换热系数均远大于空气;因此,针对单芯片,液冷相比于风冷具有更高的散热能力。
(3)低噪声:液冷散热技术利用泵驱动冷却介质在系统内循环流动并进行散热,解决全部发热器件或关键高功率器件散热问题;能够降低冷却风机转速或者采用无风机设计,从而具备较好的降噪效果,提升机房运维环境舒适性,解决噪声污染问题。
(4)低 TCO:液冷初期 CAPEX 更高,但 OPEX 更低。液冷技术具有更佳的节能效果,液冷数据中心 PUE 可降至 1.2 以下,每年可节省大量电费,能够大幅降低数据中心运行成本。相比于传统风冷,液冷散热技术的应用虽然会增加一定的初期投资,但可通过降低运行成本回收投资。以规模为 10MW 的数据中心为例,比较液冷方案(PUE1.15)和冷冻水方案(PUE1.35),预计 2.2 年左右可回收增加的基础设施初投资。同时,由于液冷服务器对空间的要求降低,可实现高密度设计,提高了数据中心内设备部署密度,降低数据中心 TCO。
(5)空间利用率高:使用液冷系统的数据中心相对于传统的风冷数据中心更加简单,去掉了庞大的末端空调系统,提高了建筑利用率,在小空间里也能布置足够规模的服务器,单机柜功率密度得到较大提升, 节省主机房空间 50%-80%;应用场景更易布置,受地理位置影响较小,全国布局皆可实现低 PUE 运行。
(6)适应性强:冷板式液冷兼容性强,易配套开发,不需改变原有形态和设备材料;空间利用率高,可维护性强,布置条件与普通机房相近,可直接与原制冷系统(常规冷冻水系统)兼容适应。
(7)余热回收易实现:相比传统水温,使用液冷方案的水温更高,温差大,热源品味和余热系统效率高。
1.3、 全国 IDC 能耗偏高,政策对 PUE 提出新要求
数据中心已成为新“能耗大户”。电力资源作为算力发挥作用的必备条件,消耗程度也大幅增长。据中国能源报,2022 年全国数据中心耗电量达到 2700 亿千瓦时,占全社会用电量约 3%。2021 年全国数据中心耗电量为 2166 亿千瓦时,为同期三峡电站累计发电量 1036.49 亿千瓦时的两倍。随着互联网数字化进程加速推进,预计到 2025 年,全国数据中心用电量占全社会用电量的比重将提升至 5%,到 2030 年全国数据中心耗电量将接近 4000 亿千瓦时。数据中心减排迫在眉睫,优化算力平均能源消耗,打造绿色算力,是未来算力发展的重点目标。
我国数据中心平均 PUE 仍处于较高水平,节能降耗空间较大。据中国信通院数据,2022 年,我国在用数据中心平均 PUE 为 1.52,部分数据中心存在实际运行 PUE值与设计 PUE 值相差大的问题;据数据中心绿色能源技术联盟统计,2021 年度全国数据中心平均 PUE 为 1.49,仅有 41%的数据中心 PUE 在 1.4 以下,并且有相当数量的数据中心 PUE 仍超过 1.8 甚至 2.0。我国数据中心 PUE 仍处于较高水平,液冷方案能大幅降低 PUE,潜在应用空间较大。随着政策的逐步落地,下游行业对液冷技术的认可度提升,液冷散热渗透率有望持续提升。
液冷散热技术可实现更低 PUE,助力数据中心绿色化发展。液冷散热相较于传统风冷,取代大部分空调系统(压缩机)、风扇等高能耗设备,可实现节能 20%-30%以上。
政策引导数据中心绿色低碳加速发展。2021 年 9 月,《中共中央国务院关于完整准确全面贯彻新发展理念做好碳达峰碳中和工作的意见》要求推动互联网、大数据、人工智能、第五代移动通信(5G)等新兴技术与绿色低碳产业深度融合,提升数据中心、新型通信等信息化基础设施能效水平,助力实现碳达峰、碳中和目标。随着我国碳达峰碳中和战略的深入推进,国家层面出台多项政策促进数据中心绿色化发展,降低“老旧小散”数据中心能源消耗。在京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵州、甘肃、宁夏等 8 地启动建设国家算力枢纽节点,并规划了 10 个国家数据中心集群,标志着“东数西算”工程正式全面启动。
数据中心作为“新基建”重要内容,被赋予绿色低碳等新内涵。在落实节能降碳方面,政策明确要求到 2023 年底新建大型及以上数据中心 PUE 降低到 1.3 以下;到 2025 年,数据中心运行电能利用效率和可再生能源利用率明显提升,全国新建大型、超大型数据中心平均电能利用效率降到 1.3 以下,国家枢纽节点进一步降到 1.25以下,绿色低碳等级达到 4A 级以上,旨在有序推动以数据中心为代表的新型基础设施绿色高质量发展,发挥其“一业带百业”作用,助力实现碳达峰碳中和目标。
1.4、 运营商助推液冷解耦式交付,生态逐渐完善
液冷技术规范化程度较低,产品形态各异。我国液冷技术起步稍晚于国外,起步后发展迅速,目前与国外发展进程基本同步,但当前液冷生态尚不完善,机柜与服务器深度耦合,各家服务器设备、冷却液、制冷管路、供配电等产品形态各异,不同厂家产品接口不同,尚无统一接口标准,难以标准化、规模化推广应用。
电信运营商提出三年愿景,液冷发展按下“加速键”。据三大电信运营商联合发布的《电信运营商液冷技术白皮书》,电信运营商提出三年愿景:构筑开放生态,降低 PUE 与 TCO;发挥规模优势,大力拓展应用。冷板式液冷方面,推进形成拥有原创技术、接口标准统一、产业生态完善、应用规模最大的发展态势;浸没式液冷方面,推进形成标准统一化、产品国产化、实施工程化、推广规模化的发展格局。
《电信运营商液冷技术白皮书》提出:2023 年开展技术验证,充分验证液冷技术性能,降低 PUE,储备规划、建设与维护等技术能力;2024 年开展规模测试,推进液冷机柜与服务器解耦,促进竞争,推进产业生态成熟,降低全生命周期成本;至 2025 年,开展规模应用,共同推进形成标准统一、生态完善、成本最优、规模应用的高质量发展格局,电信行业力争成为液冷技术的引领者、产业链的领航者、推广应用的领先者。运营商近年来对算力基础设施的资本开支增长较快,我们认为运营商大力开展液冷技术验证,有望加速液冷数据中心的标准化,完善液冷生态。
冷板式液冷服务器可细分为三种交付方式,一体化交付相对成熟。液冷系统涉及一次侧散热系统、二次侧散热系统、CDU、液冷机柜、液冷服务器的对接,根据 IT设备侧与机房配套侧各自的交付内容,液冷服务器可分为三种交付模式:模式一:IT侧仅交付液冷服务器;模式二:IT 侧交付“液冷服务器+液冷机柜”;模式三(一体化交付):IT 侧交付“液冷服务器+液冷机柜+CDU+二次侧管路”,是当下应用案例较为广泛、成熟度最好的交付模式。
解耦交付或将促进液冷行业走向标准化。(1)解耦交付是液冷机柜与液冷服务器之间遵循用户统一制定的接口设计规范,机柜与服务器解耦,由不同厂商交付,基础设施和服务器厂家需协调合作。(2)一体化交付是液冷整机柜(包括机柜和服务器)由厂商自定标准进行集成设计开发,整机柜由同一厂商一体化交付。我们认为解耦交付的推进使液冷技术更易于推广与灵活部署,最终降低液冷整体 TCO,加强液冷散热竞争力,利于提高液冷行业渗透率。
2、 冷板式液冷相对成熟,浸没式液冷长期发展空间大
本报告文件将分享到报告研究所知识星球,扫描下方图片中二维码即可查阅
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
欢迎加入报告研究所知识星球社群,入圈后您可以享受以下服务:
1、报告持续更新,分享最新、最专业、最深度的行业研究报告、投行报告、白皮书、蓝皮书、公司研报等。公众号发布的报告可同步下载;
2、海量研究报告均可下载PDF高清版,无限制;
3、会员可以提问方式获取具体报告需求;
温馨提示
应广大粉丝要求,「报告研究所」成立了报告交流群,欢迎各位公司企业、投行、投资机构、政府机构、基金、创业者及金融资本圈朋友加入!
这里能且不限于:“行业交流、报告交流、信息交流、寻求合作等......”
入群方式:添加助理微信touzireport666,发送「个人纸质名片」或「电子名片」审核后即可入群