1U双路风冷350W?点评方升服务器散热设计
注:封面图放个2U的见谅哈,因为我没找到1U的。
最近因为工作上的项目,我从周末到前天晚上算是连续加了点班。昨天下午,在搬砖的同时线上听了一段阿里云主办的《方升架构年度峰会》,想就服务器散热这块简单扯几句。在各位业内专家老师面前班门弄斧了,如有我写的不对之处,欢迎拍砖指正:)
1U风冷2x 350W CPU的取舍(代价)
上面这张ppt来自阿里云服务器高级硬件架构师曹洪浩的演讲《方升架构技术介绍》。
不知大家是否还记得,我在《下一代Xeon服务器:Ice Lake-SP通用云平台设计预览》中曾经列出过一张Intel朋友的资料,里面写的1U Spreadcore传统布局双路服务器,典型风冷限制CPU TDP为230W(应该是针对35℃环境温度),对应的PCIe(2.5英寸NVMe)SSD数量10个,系统散热风量90 CFM,散热器也是T型的。如下图:
相比之下,阿里列出的通用1U和方升1U的系统最大流量(150 CFM)明显更高。提高风量的办法可以有2个,一个是加快风扇转速,这个4056风扇已经很高了不能无限增加;另一个就是降低流阻。
流阻怎么降低呢?下面图片,我拿一款目前支持比较高TDP CPU(280W AMDEPYC)的Dell PowerEdge R6525图片为例。在服务器前部进风口和风扇排之间,可能影响到CPU散热效率的几乎只有HDD/SSD驱动器,方升就是在这块下的文章(后面我在介绍英业达做的2U系统时,也是一样的原理)。
试想一下,如果互联网用户的某款1U机型,只需要2-4个2.5寸或者M.2SSD,然后把PCIe I/O卡挪到传统通用型服务器前端放盘的位置。前面板的开孔率和进风效率提高,这时流阻降低25%应该说是合理的。
根据我的理解,某款机型设计在功耗(发热)一定的情况下,风流量越大,进出风口的温差应该越小。为什么方升的进出风口温差15.5℃反而比通用1U提高了?这应该是因为CPU功耗支持更大吧,在机箱内进行的热交换相应增加了。
提到热交换面积,PowerEdgeR6525可以配置L型CPU散热片,也就是我上图中用红圈标出的。大家不难理解T型的总表面积可以做到更大,为什么R6525不用T型呢?
我用绿色箭头标了2个通过L型散热器臂的气流路径——通过内存之后就是电源,别忘了电源尾部还有自己的风扇。
而在2颗CPU之间的内存区域,其下风方向还有PCIe I/O板卡,比如支持个70W的Tesla T4什么的。如果用了T型CPU散热器,这部分的温度上升也是要考虑的哦。
上表引用自《Dell EMC PowerEdge R6525技术规格》文档,里面很细致的写了限制条件(仅截取部分,背后是大量测试验证和设计工作),我们重点参考下对280WCPU的支持。
当1U服务器支持4个3.5寸/8个2.5寸盘,与10个2.5英寸SAS/NVMe盘时搭配的4056系统风扇要求也不同——后者要最高的“金牌”风扇,可见流阻的影响。
这里还写了R6525 280W CPU支持的最高环境温度为30℃。我粗略按照阿里方升“系统散热能力10%+”来推算,在加上L型与T型CPU散热器的一点差距,感觉支持到320W左右的TDP正常,只是我没找到R6525的系统流量LFM值作为参考。
方升有可能在35℃进风温度下支持350W CPU长期运行吗?阿里的朋友似乎没讲到这一点,不过我还是觉得有点悬,如有知道的朋友可以在下面留言。
这里对比的环境温度为25℃。按照我以往的经验,通用型服务器只有高密度GPU节点、2U 4节点这些才会在有些条件下限制到不高于25℃的进风温度。当然如果数据中心条件可控(特别是自建),服务器啥的都按照25℃来设计也没啥不行的,只是空调的要求——PUE数字可能就不那么好看了。
至于散热能耗降低,我觉得还是因为流阻,DIMM也是同样的道理。其实对于通用1U服务器来说,内存能支持的温度还有一定空间。QSFP网卡模块的温度降低较多——因为从机箱后端移到了前端,只不过QSFP能容忍的温度更高(后面我会列出一张图),降到30多摄氏度的意义大吗?
ODM(英业达)分享:智能网卡,又一个服务器新热源
这个和后面几张ppt,来自英业达SDQC技术总监邱国书的分享《英业达Horsea与方升架构结合》。作为参与方升服务器项目的ODM之一,真正设计和制造者讲的往往干货更多些。上面这个机型修改的时间轴线,对从事设计、产品规划相关工作的朋友可能有参考价值。
90%的部件沿用现有模具,包括主板、8HDD背板等;由于管理网口也要改到机箱前端,所以新开了一个MGMT Board。
这里的通用2U/方升2U对比很直观吧。在把Front Storage部分改为Front I/O之后,进风的流阻同样降低了。不过我们试想一下,通用2U服务器如果经过一些调整,前面只插8块2.5寸盘的话,是不是流阻和散热情况也能同样改善?
这张图吸引我的一点是:SSD固态盘用的不是传统U.2,而是还不太常见的E3.S。扩展阅读《EDSFF 3英寸企业级SSD会成为下一代标准吗?》
一开始我是这样理解的:与其强调把I/O板卡移到前端进风口处,不如说现在SSD单盘性能较高,在计算/存储分离架构下,只要不是大容量存储服务器,8块SSD对于互联网的计算节点多数情况够用了。至于thermal loading,最应该关注的不是CPU、GPU吗?
看了这张图,我才发现自己上面的观点不够全面。虽然对于OCP QSFP(网卡部分)的spec温度上限105℃,通用服务器还有不少裕量;但智能网卡(DPU)没这么乐观,我们以阿里神龙服务器的MOC卡为例,使用FPGA的话功耗接近75W或者更高都有可能。如果智能网卡温度已经距离125℃不太远,它需要像GPU那样散热“被照顾”就正常了。
最早这款神龙MOC卡功耗看上去高一些,现在的应该早就从双宽改单宽卡了。
按照上图中列出的数字,方升2U机型在较低(50%)fan duty cycle的情况下,对QSFP和智能网卡的散热都比通用服务器有改善,但内存和GPU进风温度就不同了。谈到GPU支持,本文里面写的这2款1U/2U方升,又回到和通用服务器差不多同一起跑线,显然这不属于它们擅长的领域(方升还有别的对应机型)。
350W CPU何时出现?方升开源在哪里?
我们知道,AMD EPYC3和Intel IceLake-SP新一代Xeon的TDP还达不到350W,不过看大家这个研究节奏,下一代再堆点核心进去就差不多了?
依照以往的惯例(参见《2019 OCP Global Summit会议资料下载 -Part 1》),最后我再吐槽点技术以外的东西:
我记得这次会议提到了方升开源BMC软件,个人觉得与OCP的OpenBMC相比,可能还是后者参考价值更大一些吧。那么硬件方面的设计资料/规范呢?
上图截自opendatacenter开放数据中心委员会网站,COCI那些方升相关的文档仍然需要认证会员才能下载,什么时候能跟人家OCP学学?
表面上看方升的设计创新是由互联网公司主导的,实际上背后往往有着默默无闻的ODM/OEM工程师,乃至于上游(Intel等)的努力。互联网真正让人垂涎的是规模,当每年达到数万台或者更多的服务器采购量,可以做的事情就多一些了。
扩展阅读:《企业存储技术》文章分类索引(微信公众号专辑)》
注:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。进一步交流技术,。如果您想在这个公众号上分享自己的技术干货,也欢迎联系我:)
尊重知识,转载时请保留全文,并包括本行及如下二维码。感谢您的阅读和支持!《企业存储技术》微信公众号:HL_Storage
长按二维码可直接识别关注
历史文章汇总:http://www.toutiao.com/c/user/5821930387/
http://www.zhihu.com/column/huangliang
↓↓↓