「独家观察」解析数据中心单机柜平均功率密度的变化
编者语
自2022年4月以来,CDCC启动了《数据中心基础设施运维故障专项调研》,整个调研项目涵盖了数据中心运维的完整体系,包括电气、制冷、消防、应急演练等运维全过程。CDCC自2020年启动数据中心行业市场调研,在连续三年的调研中,数据中心单机柜平均功率密度一直是行业的重要关注点。因此,我们就2022年与2021年调研的结果进行了对比分析,从数据中心单机柜平均功率密度的现状、趋势以及单机柜平均功率密度提升带来的影响等相关话题邀请专家深入分析,并与广大读者进行分享和探讨。
随着“东数西算”工程的正式启动,数据中心建设正紧跟政策引导向着高质量、绿色低碳的方向发展,更加专业化和集群化。近年来,液冷技术的快速发展以及超算中心的规模化落地,使得新建数据中心单机柜平均功率密度相比前几年已经有了较大提升,存量数据中心单机柜平均功率密度也随之越来越高。
2021年全行业数据中心单机柜平均功率密度调研结果如下图所示:
2022年互联网/云服务数据中心单机柜平均功率密度调研结果如下图所示:
从2022年调研结果来看,数据中心单机柜平均功率密度在8kW以上的比例明显增加。以互联网/云服务数据中心为例,8kW以上达到25%,12kW以上达到10%,说明高功率密度机柜及配套基础设施均已经成熟商用。但单机柜平均功率密度在20kW以上的数据中心很少,说明液冷在数据中心的规模化商用还需要时间。
从不同行业维度来看,2022年金融行业单机柜平均功率密度8kW以上的数据中心只占15%,而互联网/云服务数据中心占到25%,可以理解为金融数据中心EDC更关注的是安全和稳定,而互联网/云服务数据中心IDC服务商追求更高的性价比。
抽样调研虽然无法像全量统计一样精准,但是仍然可以反映整体情况以及趋势。通过2022年与2021年金融行业的采样数据进行对比和综合分析可以看到,参与调研的金融数据中心,单机柜平均功率密度在4-6kW之间的比例从2021年的56%下降到2022年的40%,而6-8kW之间的比例从12%上升到21%,8kW以上的比例从10%上升到15%,数据中心单机柜继续向着高密度的方向发展。
2021-2022年金融数据中心单机柜平均功率密度调研结果如下图所示:
详细对比如下图所示:
数据中心单机柜平均功率密度的影响因素
调研和公开数据都表明,数据中心单机柜平均功率密度正在逐年升高,原因有很多,主要包括政策指引、业务发展、设施升级、技术革新等众多因素。
1、政策指引
1)新政策普遍要求平均机架设计功率不低于6kW
2021年以来,上海、内蒙古、江苏、河南等地在出台的最新数据中心规划建设相关文件中,已明确要求新建数据中心平均机架设计功率不低于6kW,低功率密度机柜存量将变得越来越少,详见下表:
特别是今年6月2日,上海市通信管理局印发了《新型数据中心“算力浦江”行动计划(2022-2024年)》,此计划是一个转折点,其将平均机柜设计功率不低于6kW的标准,提升到单体机柜功率不低于6kW,这就意味着6kW已经是可以新建的最小单体机柜,低功率密度机柜开始彻底退出,后续几年功率密度将会有更大幅度的提升。
2)新政策普遍要求新建数据中心PUE小于1.3
2021年7月,工信部印发了《新型数据中心发展三年行动计划(2021-2023年)》,要求“到2023年底,…,新建大型及以上数据中心PUE降低到1.3以下,严寒和寒冷地区力争降低到1.25以下。”2022年3月,“东数西算”工程中,更明确要求张家口、韶关、长三角、芜湖、天府、重庆集群的PUE在1.25以下,和林格尔、贵安、中卫、庆阳集群的PUE在1.2以下。
为满足相关政策对PUE的要求,数据中心服务商一方面需要采用更先进的技术架构、更高效节能的产品、更智能的管理手段降低基础设施能耗,提升能源到算力的转换效率,另一方面也需要通过提升单机柜功率密度来降低PUE。
Intel的研究资料表明(https://docplayer.net/12214670-Data-center-2020-delivering-high-density-in-the-data-center-efficiently-and-reliably.html),在保持同一制冷模式的前提下,提升单机柜功率密度可以有效降低PUE。实验表明,在冷冻水供水温度设置为8℃时,12kW机柜相比5.5kW机柜,PUE由1.45下降至1.35,降低7%左右。
3)鼓励高算力已成为常态
2021年7月,《新型数据中心发展三年行动计划(2021-2023年)》,“到2023年底,…,高性能算力占比达到10%。”
2021年10月,山东省出台关于加快构建山东省一体化大数据中心协同创新体系的实施意见》,“加快算力规模提升。重点支持大型、超大型数据中心建设,鼓励数据中心采用集约化、高密化、智能化设备,持续提升数据中心单体规模与单机架算力,提升数据中心超大规模云计算能力”。
对于数据中心来说,无论是EDC还是IDC,高算力通常也意味着高密度,超算等业务的规模化落地必然将继续提升机柜功率密度。
2、企业效益
数据中心寸土寸金,土地成本虽然在TCO中占比并不高,但是考虑土地的性质、位置、扩展性等因素,提高单机柜功率密度,将提高数据中心kW/平方米指标,有效降低数据中心从建设到运营的成本,提升土地的使用效率,提升算力/平方米和产值/平方米。同时,采用高密度机柜也相当于维护人员和维护设备数量在减少,降低了运行维护成本,变相提高了企业的效益。
3、业务需求
随着高清流媒体、AR/VR等大数据量、高速业务的持续增长,大数据运算等业务的开展,以及各业务系统的云化,低功率密度的机柜已不能满足业务的需求,数据中心功耗密度不可避免地迅速提升。过去单个机柜功率一般在4-6kW左右,而高性能超算数据中心的机柜功率可以达到20-30kW,甚至更高。业务将驱动数据中心的机柜继续向着高功率密度方向发展。
4、IT设备升级
随着IT技术发展以及芯片的持续迭代,服务器处理器(包括CPU、GPU)的性能在提升,功耗也在加大。根据Intel官网显示,SKU的TDP(热设计功耗)已经从原来的150W提升到250W,服务器额定功率也将相应提升。
https://www.intel.cn/content/www/cn/zh/products/docs/processors/xeon/3rd-gen-xeon-scalable-processors-brief.html
由于数据中心标准机架U数相对固定,因此单个服务器功率的提升也就意味着机柜功率密度必须做出相应的提升,才能确保每个机柜能上架更多的服务器,不至于造成机柜空间资源的浪费。
5、基础设施发展
传统的数据中心通常采用风冷的散热模式,在高功率密度时代风冷散热的瓶颈已经显现出来。一般认为,风冷模式下单机柜最大功率密度不超过20kW,一旦超过20kW,空调系统的能耗将大幅增加,PUE也将随之升高。随着液冷等技术的发展和成熟落地,机柜散热能力得到迅速提升,已经完全适用于40kW以及更高功率密度的机柜。液冷散热不但可以将单机柜功率密度变得更高,也实现了更低的运行PUE。
随着数字化、智能化的快速落地,数据中心的运维体系和运维手段也在升级,数字孪生、AI运维、机器人巡检等技术极大地提升了维护水平。同时,与高功率密度机柜相匹配的高功率密度UPS系统也在规模化的发展,基础设施已经完全满足并支撑机柜向着高功率密度方向平滑演进。
单机柜平均功率密度提升带来的影响
1、过度追求高功率并不可取
单机柜平均功率密度高并不代表实际运行功率大,由于业务类型等众多原因,通常情况下单机柜实际负载率均达不到100%,大部分在50%-80%之间,甚至部分业务会低于30%。低负载率一方面会造成很大的资源浪费,一方面也将导致UPS等设备无法处于最优的工作状态,造成能源浪费。
规划设计和业务实际落地始终是无法完全匹配的,最佳的方式可能是将配电、制冷到列头等全系统模块化,实现机柜功率密度可动态调整,在适配业务需求的同时,将投产后的运行、改造成本降到最低。
2、对运维工作提出更高要求
高功率密度可能带来更高的业务风险。以制冷系统为例,当其出现故障时,12kW机房升温的速度将是4kW的N倍以上,留给运维部门应急抢修的时间将变得更短。早期,低功率密度机房甚至可以通过开门以及利用风扇通风散热等方式进行应急处理,给抢修留有更多的时间。但是高功率密度机房这些手段都将失效,甚至连冰块和干冰等应急措施都来不及开展。因此如何在提升机柜功率密度的同时,同步提升运维安全和应急措施,是必须要思考的事情。
3、基础设施和IT设备生命周期的匹配
数据中心生命周期一般为几十年,基础设施生命周期一般为10-15年,而IT设备的生命周期一般为3-5年,三者如何最佳匹配,在前期规划建设时可能很少考虑。由于数据中心寿命远超IT设备,传统老旧数据中心的改造也将是未来几年的重点,而改造的重点将是如何用最小的成本,实现机柜向着高功率密度平滑升级。
作者:车凯
联通数字科技有限公司哈尔滨中心建维经理、高级工程师。“2021数据中心科技成果奖青年科技人才奖”获得者。
超过10年的数据中心相关行业,参与多个数据中心的设计、验收测试及运维管理工作,擅长数据建模与分析。主要研究方向为数据中心绿色节能、可持续发展、智能化运维和数字孪生体系。主持开展了数据中心低负载下能耗优化、运维数据模型化分析应用和数据中心数字孪生等项目。
关注我们获取更多精彩内容>>>>