查看原文
其他

关于PCIe SSD几个问题的讨论

2016-05-10 唐僧 企业存储技术
点击上方“企业存储技术”可以订阅哦

 

PCIe FlashSSD/闪存卡)的优点很明显,速度快、延时低,无论IOPS还是带宽通常都可以达到SATA/SAS SSD的几倍。我在前年曾经写过点东西,在当时比较全面地讨论了这一领域的相关技术。

 

破解PCIe SSD进化:从踩坑到解决方案

二、用户最该关注的兼容性、稳定性和服务

三、解决方案和全闪存阵列:向左还是向右?

四、PCIe双端口支持、没有控制器的SSD

 


 

前几天,有位同行朋友撰写了一篇关于PCIe SSD服务器使用场景的探讨,其中提到了几个问题:

 

1. 在机器里面很难确定故障的SSD,对普通人来说没什么,但当你面对的是数据中心成千上万台机器的时候,只能欲哭无泪;

2. 不能热插拔,更换必须关机,这就意味着这台机器这段时间不能工作。

3. 共享主板电源,当电流过大的时候,容易导致主板挂掉。”

 

看到几位朋友的讨论,我也想把自己的观点分享出来,其中不少已经是业内有结论的东西,也可以说是我把同行专家们的观点做一些归纳吧:)

 

一、供电和散热:一块卡25W还是多块?

 

首先,对于AIC(标准PCIe扩展卡)形式来说,除了x16接口的显卡插槽之外PCIe规范的功率支持是到25W

 

大多数PCIe闪存卡的标准功率不超过25W,少部分提供性能模式,可以在超标的功耗下提供更高性能(主要是写)。也有些比较特别的卡,比如Intel SSD P3608的功耗达到40W

 


 

上图引用自我以前熟悉的HP Z800工作站手册,可以看到2个显卡插槽的最大功率是75W(从主板供电,如果更大功率的显卡需要6pin/8pin外接供电);余下的PCIePCI都是25W,即使将物理尺寸做到x16也是如此。

 

比如说插槽4或者7,我曾经尝试过将一块30W的显卡放在里面可以正常运行,但不代表所有插槽都可以同时这么干。

 

另外,我也看到有的服务器主板说明中写全部PCIe插槽(除了75W支持显卡的)功率总和不超过25W或者35W这样的描述。毕竟按照IntelSSI-EPS 12V电源规范,CPU有单独的8pin +12V供电,给主板的24pin电源接口中+12V黄线只有2条,这一路根据UL安全规范不应超过240VA?而不要忘了还有一个用电大户是内存,我记得有些1.8V之类的内存供电是来自主板上的DC-DC电路,也是+12V输入。

 

所以,如果25W或以上的PCIe闪存卡插了多块,在有的平台上引发供电问题是有可能的,电流过大时引起保护或者更严重的问题。我们看到有朋友反映:“据说上次腾迅上海微信故障是因为PCIe闪存卡导致的,不知是不是真的?

 

那么,如果是SFF-8639PCIe SSD,不超过25W且由热插拔背板供电,是不是就没有供电的问题了?也不一定。按照2U机箱前端24-15mm厚度2.5英寸驱动器的设计,如果都是PCIe SSD单这一部分的功率就可能高达600W,远超以前15K硬盘的水平。

 

而且解决了供电问题,散热呢?系统风扇需要转多快?主板能够转接出多少PCIe信道?我们看到OracleExadata X5的使用的SFF-8639 SSD2U机器前端只配置了8个(PCIe x4全速就要占用32 lane),如果再多对CPU处理能力也是个考验。

 

二、NVMe热插拔成熟没?

 

PCIe Flash的热插拔问题分为硬件和软件两部分,软件部分有要考虑操作系统内核和驱动这两个方面。

 

首先,硬件形态上即使主板PCIe插槽支持热插拔,AIC形态的闪存卡也基本没人去那样用。因此更多是关于SFF-8639驱动器形态的讨论。

 

戴尔是比较早将SFF-8639 PCIe SSD引入服务器的厂商,最开始时还没有NVMe,在RedHat Linux下热插拔需要先将SSD驱动停用再拔出

 


Dell PowerEdge R930(红圈标出部分共有8个热插拔PCIe/NVMeSSD安装位),详情参见《服务器设计进化:戴尔R930跨代对比之存储篇》一文。

 

听朋友说RHELCentOS7.1支持NVMe热插拔有bug7.2可以。这些较新操作系统已经内置通用NVMe驱动,但可能还有不完善之处。如果想用到SSD厂商自己的监控软件等增值功能,好像有的需要装专用驱动。

 

三、前面板LED、BMC集成监控

 

如果是SFF-8639 PCIe SSD,机箱前面板和背板应该共同支持LED状态指示,不像安装在机器里的闪存卡那样难于故障定位。

 


 

如上图,戴尔已经在12G/13G服务器的iDRAC8管理模块中加入了NVMe设备监控功能。其中包括一些行业标准属性,包括写寿命、S.M.A.R.T.日志等。

 

这些有利于大规模/集中管理的功能,我不认为有多大技术门槛,也许随着NVMe的普及更多的厂商会加入支持。

 

四、NVMe、数据保护:RAID卡带宽瓶颈何处?

 

最后一点也是老生常谈了,PCIe Flash在服务器上如何做RAID保护?

 

在《IDF16NVMe Over FabricSPDK和双控存储元年》一文中我曾经讨论过“传统RAID能否胜任NVMe SSD”里面写过的内容我就不重复了,大家可以点击这里的链接过去阅读,下面再补充讨论一点。

 


 

LSISAS3108是目前主流的12Gb SAS RoC(RAID on Chip)控制器,配合SAS/SATA SSD使用SCSI-mq据说能实测到60-70万IOPS。如果在此基础上改造成支持PCIe的RoC,除了双核PowerPC处理能力之外,总线带宽也是一个不同忽视的问题。

 

如果保持现在的PCIe 3.0 x8接口,4NVMe SSD就能把带宽吃满。换成PCIe 3.0 x16接口也就是支持4-8NVMe SSD比较合适(已达32 lane的规模)。个人感觉MegaRAID的代码不适合与PCIe Switch硬件直接结合,也不知Broadcom/Avago支持NVMeRAID何时才能出来?

 


:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。进一步交流技术,可以加我的QQ/微信:490834312

 

欢迎转发链接分享,请在本公众号发布2天后,才能转载本文。尊重知识,请必须全文转载,并包括本行及如下二维码。

 

感谢您的阅读和支持!《企业存储技术》微信公众号:huangliang_storage


长按二维码可直接识别关注



点击下方“阅读原文”,查看更多历史文章↓↓↓


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存