查看原文
其他

Dell Precision 7960 Tower工作站:模块化的传承与提升

唐僧 huangliang 企业存储技术
2024-12-09

引言:什么是工作站的模块化设计?模块化又有什么好处呢?我认为主要是三点:1、灵活性; 2、易维护;2、高密度(空间利用率高)。而另一方面,模块化会不会带来一定的成本增加呢?我觉得这要看具体机型的设计是否值得。

目录

- 存储扩展依然豪华:10块SATA/SAS或8个NVMe热插拔

- 散热导流罩下“一吸一吹”的内存风扇

- 主板布局+模块化机箱=易维护

- PCIe扩展槽与GPU、NVMe存储支持

- SAS/SATA/PCIe FlexBay存储扩展托架、模块电源

- 配电板:GPU功耗支持至少1500W?

- 电源开关LED故障诊断:为什么说高端机型用到多?

当2017年Dell发布基于Intel Skylake平台(即第一代Xeon Scalable CPU,后来加入第二代支持)的Precision 79207820和5820 Tower工作站时,可能没有多少人会想到中高端工作站平台,会在五年半之后才会再次更新。

所以这两个月的新品发布才更值得关注,以Dell工作站为例,3款新机型分别是Precision 5860 Tower、7960 Tower和7960 Rack。其中5860的机箱结构与半年前发布的AMD Threadripper平台的7865机型较为接近,CPU为Xeon W-2400系列;而7960 Rack是2U机架式机箱,硬件上与PowerEdge R760服务器同平台;本文介绍的重点,则是Dell 7960塔式工作站。

扩展阅读:《AMD 64核搅局工作站市场:Dell Precision 7865技术解析

一台取下导流罩的Dell Precision 7960 Tower工作站

上面这张照片不是我拍的,因为我手头没有那么多高端的NVIDIA专业显卡——这一代的旗舰工作站机型,支持4块双宽300W功耗的GPU显卡,已经不算新鲜事。同样地,最多56核的Xeon W-3400系列CPU,各大品牌工作站也都会有对应的机型。那么,大家有什么差异吗?本文就是想讲讲Precision 7960 Tower的特点。

扩展阅读:《单路为王?Intel Xeon W-3400、2400工作站平台预览

当我把Precision 7960主机从包装箱里拎出来,第一印象就是顶盖的凹陷区域不像以前那么规则了,而是流线型过渡的设计。

上面是7960工作站正面和背面的照片示意。我用红框标出的是PCIe扩展卡的I/O挡板位置,从技术潜力来讲,该机型应该最多可以支持2块三宽显卡+ 2块双宽显卡。这一点我在下文中还会在主板图上说明。

存储扩展依然豪华:10块SATA/SAS或8个NVMe热插拔

拆下右边的驱动器导风挡板,可以看出7960 Tower的存储盘位设计与上一代7920比较接近。当前这台的配置,最底下是2块3.5英寸SATA HDD硬盘;往上有一块热插拔的NVMe SSD(M.2加转接组件),左边的空位可以加第2块M.2——技术上也兼容2.5英寸U.2接口的企业级PCIe SSD。

具体到Dell模块化工作站对NVMe SSD热插拔的支持,我在《Optane 900P SSD评测(1):当工作站热插拔遇上Cache软件》一文中早有讨论,没看过的朋友可以参考下。

上图是贴在7960 Tower工作站机箱盖板内侧的说明贴纸。就像前辈产品那样,Dell依然重视旗舰工作站机型的存储扩展性。前面板上的5.25英寸和超薄光驱位,可以替换成2个存储驱动器,再加上机箱后侧可选的4个盘位,总共最多支持10个3.5/2.5英寸SATA/SAS盘,或者8个NVMe SSD(PCIe x4),而且都支持不拆机箱盖直接取出维护(SATA/SAS盘在配RAID卡+对应背板之后也支持热插拔)。

主要升级点,是热插拔NVMe盘的支持从7920的4个增加到8个。有朋友可能会问,NVMe SSD是不是板载M.2插槽成本最低?应该是,比如在Dell工作站新品中7960以下的型号主板上都有M.2 NVMe盘位,扩展阅读:《以“小”见大:从Precision 3660看工作站技术发展趋势》。

至于Precision 7960,由于Xeon W-3400系列CPU支持112个PCIe lane以及充足的插槽,还可以用下面这种转接卡来支持更多的M.2 SSD。一转四的Ultra-Speed Drive Quad如果插2块,又可以支持8个M.2 NVMe盘。

Dell Precision Ultra-Speed Drive(超速盘),在上一代产品上还是PCIe 3.0转接卡

8个热插拔的NVMe SSD盘位还有什么别的好处吗?我理解,如果客户需要更大的单盘容量,或者更高的写入寿命,7960 Tower在技术上同样可以支持8个U.2企业级SSD,PCIe Flex Bay从背板接口,到空间和散热上都预留够了。这方面的定制想象空间,一般塔式工作站达不到吧?

位于7960 Tower机箱后侧的可选驱动器安装架(支持4块盘)——引用自Dell技术文档《Precision 7960 塔式工作站服务手册》

模块化的存储盘位,对应的还有分区域的散热风道设计。如上图BIOS界面,每两块盘的仓位后面都会带有一个风扇,并根据传感器的温度来各自调速,兼顾散热和静音——后者也是塔式工作站用户看重的。

上图为PCIe 4.0 x8一转二的Ultra-Speed Drive Duo SSD转接卡,我注意到随着NVMe盘性能的提高,其功耗有所增大。这款卡上增加了M.2的散热片,应该是为了避免SSD过热降速(同时风扇也不需要转太快)。

散热导流罩下 “一吸一吹” 的内存风扇

打开机箱左侧板之后,中间的大块黑色就是散热导流罩,在取下它之前,我们先看看右下角的一个“小玩意”。

根据我理解,这里应该是固定RAID卡BBU电池/电容模块的位置,有一个卡子可以把这个小盖板取下来。

取下导风罩之后,就如同本文第一张图了。我们先来看看主板这一侧的散热风道示意——机箱前面有4个进气风扇,后面2个专门用于CPU和内存热量排出。接下来,我就要研究下导风罩底下的2个风扇,又是如何的引流的呢?

Dell新一代7000系列工作站导流罩的一个改进,是固化集成了插到主板的风扇连接器(如上图右下角),不用像之前7920 Tower那样,还需要单独插一下CPU风扇的插头。

把7960 Tower的导风罩翻过来,依然是右侧对应机箱前面进风的方向,我看到先是一个80mm的风扇(品牌:Delta台达)对着内存(主板)“向下”吹,然后整体气流向后经过CPU散热器之后,再从另一侧的内存方向吸风“向上”吹。如果我解释的还不够直观,请看下面照片:

从这个角度看,2个内存风扇沿着机箱风道顺序,先向下吹、(经过CPU散热器)再向上吹的设计就比较清楚了吧:)

主板布局+模块化机箱=易维护

上图这个塑料支架主要有2个作用,一个是辅助较长的PCIe扩展卡金属把手固定;另外还能收纳/隐藏若干8pin GPU供电线缆接头。

当把机箱前端的风扇排(含4个风扇)也拆下之后,整块主板上的接线感觉比较清爽——这也是我面对7960 Tower测试机的感觉。基本上就是上图中标箭头的几个边角位置,拔了线之后就可以拆主板了。

PCIe扩展槽与GPU、NVMe存储支持

上面是主板的正面图。我用红框标出的2、30两个PCIe插槽,从空间上具备支持三槽位宽度GPU的潜力,而27和33两个PCIe插槽还能同时安装2块双槽位宽度GPU显卡。

23和24位置,是2个PCIe x8的连接器,可以引出向下绕到主板背面的机箱另一侧,用于连接4个热插拔NVMe SSD。

主板背面的1、2位置,也是2个PCIe x8连接器,用于支持另外4个热插拔NVMe SSD。3、4的位置,则是2x 4个SATA接口,在不加SAS RAID卡的情况下,7960 Tower与7920一样最多支持8块SATA盘。

SAS/SATA/PCIe FlexBay存储扩展托架、模块电源

上图红框标出的区域,是机箱后侧可选的4个存储驱动器扩展位——相当于把左边那两个双盘仓位 “翻过来” 加到这里。

正如上一代7920工作站,7960 Tower右侧盖板的2颗螺丝在一般维护工作中很少需要卸下。在这个区域,主要就是布局存储扩展仓位(最多10块盘),也包括5.25英寸&超薄光驱位、电源(同样是模块化,不用拆侧盖就能从后面抽出)及其专用的配电板。

上图是位于2块盘位后侧的背板+风扇模块,这里示例的版本正好是NVMe热插拔——连接一条PCIe x8信号电缆就好。根据客户的不同需求,7960 Tower总共5个这种双盘仓位,在这里可以选择SAS热插拔背板,或者纯SATA支持的配件。

配电板:GPU功耗支持至少1500W

上图是连接电源模块,以及各用电设备的配电板,当然还包括机箱这一侧几个存储风扇的供电,以及对应温度传感器插座。这一块我最关注的就是PCIe/GPU供电的支持情况。

4个红圈的位置,就是7960 Tower的PCIe/GPU供电线缆插座

还记得它的前辈机型7920 Tower设计支持3块300W的显卡(如:NVIDIA RTX A6000),那款的配电板上提供了4个8pin GPU供电插座——只用其中3个,每个经过转接线就能输出225W的辅助供电。上一代的这种“超前设计”,当我后来测试2块350W的GeForce 3090显卡,乃至实验2块450W的4090显卡时,才完全理解设计者预留的用意。

如今的7960 Tower,配电板上的4组PCIe/GPU供电插座改为12pin,其中+12V线缆从3条加倍到6条——因此每组都能不打折扣地转接出2条8pin供电线。我手头这台测试机配置的1400W电源;如果配上2200W电源模块,就可以接出全部8条8pin供电线——我觉得GPU总功率至少可以达到1500W(8x 150 + 主板插槽4x75)。

电源开关LED故障诊断:为什么说高端机型用到多?

如果您也像我这样经常处理硬件故障,就会意识到下表的价值。虽然Dell全线客户端产品都支持电源开关LED诊断代码,但由于像79xx这样的高端机型复杂度高,内存、风扇支持的数量比较多,所以系统诊断指示灯对debug判断的帮助就更大。

注:报错多数时候并不见得就是硬件损坏,比如某条内存接触不良;或者某个风扇插头掉了在BIOS自检中也会停下来报错的

由于页面所限,上表只是截出了一部分,如需要完整的,请查看Dell每一款机型对应的服务手册,网站上都有的。

这次又写的比较晚了,希望本文对大家有帮助。其中有些超出官方规格范围的技术讨论,仅供读者朋友参考。


扩展阅读:《企业存储技术》文章分类索引(微信公众号专辑)


:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。如果您想在这个公众号上分享自己的技术干货,也欢迎联系我:)


尊重知识,转载时请保留全文,并包括本行及如下二维码。感谢您的阅读和支持!《企业存储技术》微信公众号:HL_Storage

长按二维码可直接识别关注


历史文章汇总:http://www.toutiao.com/c/user/5821930387/

http://www.zhihu.com/column/huangliang



点击下方“阅读原文”,查看更多历史文章↓↓↓
修改于
继续滑动看下一个
企业存储技术
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存