微软出“奇招”,用沸腾液体为数据中心降温
编者按:人工智能的快速发展,对计算机的性能提出了更高要求,计算机行业也已经转向能够应对更高电功率的芯片架构。处理器电功率越高,芯片本身的温度就会越高,风冷技术已经无法满足降温需求,因此,微软引入浸入式冷却技术,直接降低芯片表面的温度,效率比在空气中高出几个数量级。
在美国华盛顿州昆西市,数量庞大的邮件和信息往返于微软员工之间。而在位于哥伦比亚河(Columbia River)东岸的数据中心,装有计算机服务器的钢制贮槽中的液体正因这些数据而沸腾着。
与水不同的是,这个沙发型槽体中的液体对电子设备无害,经过设计,其沸点约为122华氏度(约50摄氏度),比水的沸点低了90华氏度(约50摄氏度)。
因服务器运行温度产生的沸腾作用,使热量从正在运行的计算机处理器中散发。低温沸腾使服务器能够在全功率下持续运行,避免因过热而出现故障。
在槽体内部,沸腾液体所产生的蒸汽不断上升,直到触及到槽罐上的风冷式冷凝器变成液体。紧接着,这些“雨水”流回浸入式服务器中,形成一个封闭的循环冷却系统。
工作于美国华盛顿州雷德蒙德的 Husam Alissa,是一名微软数据中心的高级开发团队的首席硬件工程师,他表示:“微软是第一家在生产环境中采用两相浸入式冷却的云服务提供商。”
图为 Azure 首席软件工程师 Ioannis Manousakis(左),与微软数据中心高级开发团队首席硬件工程师Husam Alissa(右)正在检查位于微软数据中心的两相浸入式冷却槽
在计算机芯片风冷技术稳定发展放缓之际,微软长期计划的下一步就是在生产环境中部署两相浸入式冷却,以满足对于更快、更强大的数据中心计算机的需求。
几十年来,得益于同一大小芯片上可容纳的晶体管数量提升,芯片技术不断进步,在不增加耗电量情况下,计算机处理器的速度几乎每两年就会翻一倍。
这种现象被称为“摩尔定律”,以英特尔联合创始人戈登•摩尔(Gordon Moore)的名字命名。戈登•摩尔在1965年观察到了这一趋势,并预测其将持续至少10年。摩尔定律在过去几十年中得到了验证,但是现在,这个趋势已经开始放缓。
这是因为晶体管的宽度已经缩小到原子级,即将达到物理极限。“与此同时,面对诸如人工智能之类的高性能应用,对更快速的计算机处理器的需求正在加速增长”,Alissa 表示。
为了满足性能需求,计算机行业已经转向能够应对更高电功率的芯片架构。例如,中央处理器(CPU)中的功率已从每芯片150瓦增加到300瓦以上;图形处理器(GPU)的功率已增加到每芯片700瓦以上。
这些处理器电功率越高,芯片本身的温度就会越高,容易出现故障,这就对冷却效果提出了更高的要求。
工作于雷德蒙德总部的 Christian Belady 目前担任微软数据中心高级开发团队的杰出工程师兼副总裁,他表示:“风冷已经无法满足需求了。因此我们引入了浸入式冷却技术,直接降低芯片表面的温度。”
他强调,热传递在液体中的效率比在空气中高出几个数量级。
他还补充道,向液冷技术的转变为整个数据中心带来了类似摩尔定律的思维方式。
他指出:“液冷使我们能够提高冷却效果,提升芯片集成度,实现了摩尔定律趋势在数据中心层面的延续。”
图为微软杰出工程师兼数据中心高级开发团队副总裁 Christian Belady 在位于微软数据中心的两相浸入式冷却槽旁
Belady 指出,液冷是一项成熟的技术。目前道路上行驶的大多数汽车都依靠它来防止发动机过热。包括微软在内的几家科技公司也正在试验冷板技术,让液体通过金属板后输送到服务器,对服务器进行冷却。
加密货币行业的从业者率先在计算设备使用了液体浸入式冷却技术,对记录数字货币交易的芯片进行冷却。
微软研究了液体浸入式技术作为高性能应用(如人工智能)冷却解决方案时的表现。结果显示,两相浸入式冷却可以将任何给定服务器的功耗减少5%到15%。
在这一结果的推动下,微软团队与数据中心 IT 系统制造商和设计商 Wiwynn 合作,开发了两相浸入式冷却解决方案。首个解决方案现正运行在微软位于华盛顿州昆西市的数据中心中。
沙发型槽体中充满了 3M 工程流体。3M 的液冷流体具有介电特性,使其成为有效的绝缘体。当服务器完全浸没在这类液体中时,仍能正常运行。
Azure 首席架构师、微软技术研究员兼副总裁 Marcus Fontoura 表示,这种向两相液体浸入冷却技术的转变,为有效管理云资源提供了更大的灵活性。
举例来说,管理云资源的软件可将数据中心计算需求的突发峰值分配给液冷贮槽中的服务器。这是因为,这些服务器可以在较高的功率下运行且不会有过热的风险,这个过程也被称为超频。
Fontoura 指出:“打个比方,我们知道 Teams 的使用高峰是1点或2点,通常情况下,人们会在这个时间段内的同一时间加入会议,而浸入式冷却为我们处理这些突发负载提供了更大的灵活性。”
Fontoura 补充道,将两相浸入式冷却服务器加入到现有计算资源中,还能够促使机器学习软件在整个数据中心更高效地管理包括电力、冷却以及技术维护人员在内的资源。
他强调:“我们不仅会大大提高效率,还会对可持续发展产生巨大影响。我们部署的每一件 IT 设备都将得到充分利用,不会产生任何浪费。”
液体冷却也是无水技术,这将帮助微软兑现承诺,即到2030年,微软补充的水量将超过其全球运营的水消耗量。
Alissa 介绍道,穿过槽体的冷却盘管可使蒸汽凝结,并连接到一个单独的封闭回路系统,利用流体将热量从槽内传递到槽外的干冷却器。由于这些盘管中的流体温度总是高于周围空气温度,因此无需通过喷水来调节空气、进行蒸发冷却。
同时,微软也在与基础设施行业的合作伙伴一同研究如何以一种既能减少流体流失、又对环境几乎没有影响的方式来运行槽体。
Azure 首席软件工程师 Ioannis Manousakis 说:“如果方法得当,两相浸入式冷却将同时满足我们在成本、可靠性和性能方面的所有要求,且与空气冷却相比,能耗非常小。”
对两相浸入式冷却技术的研究,是微软多管齐下战略的一部分,旨在使数据中心的建设、运营和维护更加可持续化且高效。
例如,数据中心高级开发团队也在探索使用氢燃料电池代替柴油发电机,作为数据中心备用发电的可能性。
液冷项目与探索水下数据中心可能性的 Natick 项目类似,这种数据中心可以被快速部署,并且能够被密封在类似水下管道内的海床上运行数年,无需进行任何现场维护。
水下数据中心不再充满工程流体,取而代之的是干燥的氮气。服务器由风扇和一个热交换管道系统进行冷却,该系统通过密封管道将海水泵入。
Natick 项目中的一个重要发现表明,海底服务器的故障率是陆地数据中心同样服务器的八分之一。初步分析表明,低湿度和低氧气腐蚀作用是水下服务器性能优越的主要原因。
根据 Alissa 的预计,液体侵入式槽体内的服务器将具备类似的优越性能。他说:“我们让服务器无需安置水下,即可拥有‘深海体验’。”
如果浸入式槽体中服务器的故障率如预期降低,微软将可以转向一种无需在出现故障时立即更换组件的模式。这不仅能够控制蒸汽损失,还能允许将槽体部署在偏远且难以维修的位置。
此外,Belady 指出,如果能够把服务器密集地封装在槽体内,就能重新构想服务器的架构,并针对低延迟、高性能应用和低维护操作进行优化。
例如,这种槽体可以部署在城市中心的 5G 蜂窝通信塔下,用于自动汽车驾驶等应用。
到目前为止,微软在超大规模数据中心中只有一个运行工作负载的槽体。在接下来的几个月中,微软团队将进行一系列测试,以证明槽体和这项技术的可行性。
Belady 说:“第一步是让人们接受这个概念,并证明我们可以运行生产负载。”
你也许还想看: