查看原文
其他

液冷如何给“火热”的数据中心降温?

谢丽娜 李洁 中国信通院CAICT 2020-08-20
来自专辑
新基建

一、序言


如果列举目前数据中心领域有哪项技术是又冷又热的,液体冷却肯定榜上有名。所谓冷是指液冷的散热效率高,对于计算功率密度大的设施有良好的降温作用;所谓热则是指液冷的发展势头火热,在业内的认可度和关注度越来越高。上世纪60年代开始,液冷已经被用在大型计算机上,但因为热负荷不高的情况下风冷成本更低也更安全,液冷产业并未得到太大发展。随着移动互联网的发展,数据中心需应对的业务复杂度日益提高,功率密度快速增长,数据中心因此变得越来越“热”,在绿色高效的发展压力下,液冷技术强势回归。


二、需求分析


1. 5G

如今互联网已经成为第四次工业革命的核心推动力,伴随着此次工业革命的发展,人类生活的方方面面都在发生改变,尤其表现在数据流量需求持续猛增、网络负荷大幅提高。5G是全世界期待的解决网络通信问题、打开万物互联大门的钥匙,作为支撑5G的重要基础设施之一,基站承担着处理和传输海量数据的重任,此过程中会产生大量的废热,据统计,基站本身占用了通信网络传输总能耗的80%。随着5G的深化和应用场景的落地,这些基站散热问题或可以依靠液体冷却来解决。目前,诺基亚已在芬兰的一栋大楼部署了全球首个液冷基站系统,并将回收的基站废热用于楼内供暖,有效降低了能源消耗。


2. 边缘计算

数据中心建设有一条经验,一个10.5kW的服务器机架每分钟需要1200CFM的冷却空气,这些空气每分钟流量足以填满一个11平方米、楼高3米的机房空间,单是移动这些空气就需要大量的能量。液体冷却系统可以比风冷系统提供更高的冷却性能,但却不需像风冷那样耗费过多空间,它对机房的体积要求要小得多。换言之,优化设计的液体冷却解决方案将使数据中心能够在更小的空间内提供更多的计算能力。边缘数据中心为了靠近业务端通常设计得较小,并且为了适应业务需求而需容纳更多的高密度硬件设施,液冷可以满足边缘数据中心所期望的小空间和高性能特征,有能力成为未来边缘数据中心的理想制冷解决方案。


3. 人工智能

从通用的CPU到GPU(图形处理单元)、FPGA(现场可编程门阵列)和ASIC(专用集成电路),新一代AI处理器的出现使得强大的机器学习分析程序能顺利运行,为现代AI提供了动力支撑。然而,人工智能场景的计算量和迭代需求都非常高,服务器等设备通常会采用集群部署AI加速器的方式提升算力,因此,单台服务器的功率越来越高,数据中心基础设施的冷却能力越来越紧张。以谷歌为例,其专为人工智能业务设计的TPU pod计算机,升级一代(从2.0到3.0)功耗增加了8倍,为此不得不在数据中心中使用液冷散热。未来,随着越来越多的企业和组织开始运用机器学习提供AI解决方案即服务,设备散热的需求会更快驱动液冷的实施和落地。

正是关注到液冷面对数据中心新业务展现出的良好前景,中国信息通信研究院云计算与大数据研究所数据中心部自2016年便开始进行数据中心液冷技术研究、标准制定、测试验证等各项工作,并取得了标准、书籍、白皮书、奖项等阶段性成果。


图1  液冷项目获得2019“数博会”黑科技大奖


三、液冷技术分析


液冷技术是通过液体循环介质将大部分热量带走,单台服务器需求风量降低,机房整体送风需求也随之降低,可以达到削减散热系统消耗的效果,以此促进数据中心的绿色化进程。目前来看数据中心液冷主要有间接液冷和直接液冷两种主流技术路线,间接液冷以冷板式为主,技术成熟度较高;直接液冷以浸没式为主,散热效率较高。直接液冷同时也涌现出喷淋式等新形态,目前尚处于发展初期,公开展示的研究和实践成果较少,具有一定发展潜力。


1. 间接液冷——冷板式

冷板式液冷对发热器件的改造和适配要求较低,技术成熟度较高,应用进展最快。冷板式液冷系统由换热冷板、分液单元、热交换单元、循环管路和冷却液组成,它是通过换热冷板(通常是铜、铝等高导热金属构成的封闭腔体)将发热器件的热量传递给封闭在循环管路中的冷却液体进行换热的方式,按照管路的连接方式不同可分为串联式和并联式。串联方式中,冷却液体先进入一个冷板腔体散热后再继续流入下一个冷板腔体,管路连接简单但不同部分的CPU会存在温差;并联式方式中,冷却液在进入不同腔体前会先进行分流,然后再分别进入腔体内,散热更高效但管路系统更复杂。由于冷板式液冷中发热器件无需直接与液体接触,所以对发热器件本身的改造和适配要求较小,因此,冷板式液冷的成熟度相对较高。目前,百度、腾讯、美团等互联网企业均开始对冷板式液冷进行技术研究和试验验证,在冷板式液冷产业内形成了强劲的带动作用。


2. 直接液冷——浸没式

浸没式散热优势最明显,能极大提升能源使用效率,较适合新建数据中心。浸没式液冷是一种以液体作为传热介质,将发热器件完全浸没在液体中,发热器件与液体直接接触并进行热交换的冷却技术。按照热交换过程中冷却液是否存在相态变化,可分为单相液冷和相变液冷两类。区别在于作为传热介质的液体在热量传递过程中是只发生温度变化,还是存在相态转变。浸没式液冷系统一般分为浸没腔体子系统、冷却子系统、室外冷源系统、监控系统四部分。由于系统架构特殊,冷却液可以与发热器件直接接触,所以浸没式的散热效率较高,可支持更高功率密度的IT部署,能极大提升能源使用效率(PUE)。虽然制冷效果较好,但由于需要直接将冷却液和发热器件接触,数据中心设备改造的动作更大,因此浸没式更适合新建数据中心。目前,阿里巴巴已经在其北京冬奥云数据中心进行浸没式液冷的规模化部署,开启了浸没式液冷的正式商用。


四、变化与影响


革新数据中心的整体架构。从避免液体接触机房设备到主动引入液体和使用液体,液冷技术的使用让数据中心的基础架构发生了变化。从地板到天花板,从线路到管路,从机柜外部结构到内部部署,液冷将会带来完全不一样架构的数据中心。


革命性地改变数据中心散热方式。以往数据中心散热以风冷为主,散热消耗要占据大部分的能源消耗。液冷逐渐替代了风冷散热后,散热效率显著提升。应用证明,大多数地区使用液冷技术后可获得机房PUE<1.1的效果。


重构IT设备及关键部件的设计和部署。以服务器为主的IT设备,包括CPU、GPU、存储、网卡等关键部件,都会为了更好地散热(例如,与风冷相比部分CPU满载工作时的核温可降低20℃)开始直接或间接接触液体,为了与液冷系统兼容,它们的设计和部署势必会做出改变。


颠覆数据中心的监控和运维模式。液冷技术进入机房后,数据中心的监测和控制系统会重点围绕它进行,如部署漏液监测、温度监测、压力监测等。除此之外,数据中心的运营和维护思路也会改变,液体、管路、接口等液冷配套设施均会给运维带来新要求。


完善能效评价指标和方法。目前评价数据中心能源效率的主要指标是PUE,它是数据中心总能耗与IT设备能耗的比值。现阶段数据中心液冷部署还处于过渡阶段,即同一数据中心可能同时使用风冷和液冷系统,为了充分了解两部分系统的性能,需要分开度量能源效率,因此,PUE的度量指标可以进一步完善。


五、展望


在数据中心中,受限于机房设计和配套设施,当单机架功率密度接近20kW时,风冷系统就已达到其经济有效的制冷极限。液体冷却技术是一个开放、灵活的制冷解决方案,它支持技术计算、网格部署和数据分析等工作负载,可以有效应对高性能计算(HPC)、大规模云数据中心、边缘计算、人工智能等高功率密度场景,对于减少数据中心能源消耗、降低TCO有非常明显的优势,具有广阔的市场前景。


然而,液冷的优势和潜力并未形成很强的商业带动效应,从世界互联网巨头们释放出来的信号来看,它们对液冷系统和零配件产品的规范化和标准化还有很大顾虑,不愿面对设备采购和后期维护的麻烦。因此,在加强液冷技术和产品创新的同时,还应该重点关注标准化和适配性问题。


目前,中国信息通信研究院云计算与大数据研究所数据中心部推动中国通信标准化协会(CCSA)、开放数据中心标准推进委员会(ODCC)在此方面做了大量工作,与阿里巴巴、腾讯、百度、美团、中国电信、中国移动等联手合作,出台了6项液冷团体标准,立项了6项液冷行业标准,通过这些标准文件有效规范了液冷行业的发展。此外,还出版了2本液冷书籍,详细梳理了液冷技术的过去、现在和未来,为业内使用液冷技术提供了重要的参考依据。除了技术成果外,由ODCC组织申报的液冷项目还获得了2019年“数博会”领先科技成果最高奖项——“黑科技”奖,极大提升了液冷解决方案的行业影响力。如果今后国家层面对数据中心液冷有更加直接的标准引导和政策支持,那么液冷技术将具有更强劲的提升动力,会更显著地推进数据中心绿色节能发展。


图2  《冷板式液冷》和《液冷革命》



作者简介

谢丽娜,中国信息通信研究院云计算与大数据研究所数据中心部高级业务主管,主要从事数据中心、服务器、液体冷却相关的政府支撑、产业咨询、技术研究和标准制定等工作。ODCC新技术与测试工作组成员,液冷项目主要参与人,参与编写《液冷革命》、《液冷技术与应用白皮书》等系列书籍和行业规范。

联系方式:18800199616,xielina@caict.ac.cn


李洁,博士,正高级工程师,中国信息通信研究院云计算与大数据研究所数据中心部主任,开放数据中心委员会(ODCC)副主席,中国通信标准化协会互联网与应用工作委员会数据中心工作组(TC1WG4)组长。长期从事数据中心的政策支撑、产业和技术等研究工作。

联系方式:lijie1@caict.ac.cn




校  审 | 陈  力、 珊  珊

编  辑 | 凌  霄


推荐阅读

5G领衔新基建,网络建设走在前——我国5G网络建设分析
AI新基建,已经在路上



点亮在看共渡难关

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存