液冷服务器进化:解决漏水检测才能放心跑200W CPU
液冷比风冷效率高,为何难普及?
PUE是数据中心能源利用效率方面一个永恒的话题,该名词的我想很多朋友都熟悉。在中学物理课上,我们就知道人类活动的许多能量最终转换成了热能,计算机也不例外。为了把数据中心运行的服务器等设备产生的热量散出去,还会增加额外的能源消耗,通过公式计算得到一个大于1的数值就是PUE。
除了完全被动散热,PUE不可能等于1,但越接近1越好。该数值越小代表因为散热所浪费的能源越少。
在近日的一篇新闻中我们看到:“戴尔针对数据中心发布了一项创新性液体冷却技术,代号Triton。该项技术来自戴尔ESI(ExtremeScale Infrastructure极限扩展基础设施)小组,其开发用于帮助eBay在新的数据中心提升性能… 将这项技术与一个专用200W英特尔Xeon E5v4处理器相结合可提供两位数的性能提升… 电源使用效率(PUE)低至1.02到1.03就已经相当瞩目了。”
戴尔采用Triton液冷散热技术的服务器节点。有朋友看到后说“一圈黄色的绳子,看着很酷:)”
我们知道液冷/水冷散热技术并不是一个全新的领域,而目前的风冷散热仍占据绝对主流。主动式风冷就是利用风扇产生的气流来带走热量,与此同时风扇本身需要耗电,气流的碰撞本身也会产生额外的热量,因此风冷效率难以提到一个比较高的水平。
相比之下,利用液体的流动来带走热量,产生的额外损耗会小很多,水的比热值又很大。可是液冷为什么还不够普及呢?据服务器/数据中心技术专家表示:“传统液冷或者油冷方式,对于数据中心的设计规划和部署,都属于重度定制,不利于模块化的扩展。同时对于服务器本身的电气设计,也有存在诸多挑战。”
从我个人角度也很容易想到两点:
1、 风险:怎么防范漏水/漏液?会不会因此而导致设备短路等损失?
2、 成本:液冷系统比风冷会增加多少成本?当然这部分可以从运行节省的电费中找回来。
从铜管布局到漏水检测:戴尔3代液冷设计变化
上图是来自戴尔的3代“Triton”液冷节点设计。附着在CPU上的水冷散热件叫做冷盘,也有人俗称“水冷头”。我们看到第一代的铜管长度比较长且走向复杂;第二代铜管外边好像套了一层黑色防渗漏塑料管,还可以看到一条盘旋缠绕的黄色粗线,这个是做什么用的呢?
为此我们请教了相关方面的技术专家,答案是“漏水检测绳(缠绕部分)”。将它们部在液冷头附近,一旦连接处漏水,我猜测检测绳会很快浸湿并发出短路信号?以触发进一步的保护措施。
再看第三代产品,铜制水管走向很整齐,并且漏水检测绳伴随全程。可见无论铜管任何部位破裂都能照顾到,因此也不再需要塑料套管保护了。
200W功耗的英特尔Xeon E5 CPU是咋回事?
大家都知道正式发布的Intel Xeon E5-2600系列最高TDP为145瓦,目前最新一代22核的E5-2699 v4就是如此。在这次看到的新闻里一同参与对比的还有14核的E5-2680 v4。
引用自Moor Insights & Strategy的文档《DELL’S LIQUID COOLING INNOVATION FOR SCALE-OUT DATACENTERENVIRONMENTS》
根据上述文字,‘Triton’和这款特别的CPU(我理解应该是20个核心能同时加速到3.3GHz,此时功耗达到200W)可以提供比XeonE5-2699两位数百分点的性能提升,与E5-2680相比则提高达到59%。”这里的3.6GHz和3.3GHz都是TurboBoost之后的频率,普通Xeon CPU只有在少数核心工作的情况下才能加速这么多。
可见只要解决好散热问题,Intel处理器的潜力还是很大的。
下篇预告:PUE=1.02x的水冷数据中心散热知识
笔者从2004年就做过服务器散热测试工作,包括风冷、热管(也称热导管,就是一头蒸发一头冷凝那种)等知识都是在那时积累。撰写本文的过程中,我又学到了不少新的知识,而上面还只是一少部分,因为谈到PUE,放大到整个数据中心的散热技术显然会涉及更多。
由PUE驱动的不同冷却系统方式
如上表,Dell ‘Triton’的PUE范围在1.026-1.029,与之效率最接近的是“混合风冷&水冷散热”——1.036-1.056,其它几种散热系统方式的PUE都在1.30以上。那么CRAC、CRAH等名词都代表什么意思呢?
这些就是我在下篇中要讲的,敬请继续关注!
注:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。进一步交流技术,可以加我的QQ/微信:490834312。
欢迎转发链接分享,请在本公众号发布2天后,才能转载本文。尊重知识,请必须全文转载,并包括本行及如下二维码。
感谢您的阅读和支持!《企业存储技术》微信公众号:huangliang_storage
长按二维码可直接识别关注