NVMeF的另一种用法:连接AFA控制器和JBOF
昨天发的《IntelOptane P4800X评测(3):Windows绑核优化篇》好像阅读数有点少哈,要知道写这篇费了不少力气,有时反而觉得不如简单整个短文,再来个标题党看上去效果好。当然,评价文章质量不能光看点击数:)
由于谈到了不同版本Windows的性能,有专家朋友问我Server 2016系统有没有升级到最新?这里跟大家解释一下,我用的版本是RTM那时候的Build 14393.rs1_release.160715-1616,没有更新。也曾考虑过是否会有影响,一方面后来测试时间有限,另外我也想到许多内网用户不会频繁更新系统(重要安全补丁例外,为了一点不太容易体现出的性能差别而投入测试人力估计不是刚需)。
本次NVMe SSD在Linux下性能表现更好,而我在《存储极客:服务器SSD RAID性能速查手册》一文中曾经指出:“Linux下需要考虑内核&设备驱动的多队列支持,而本文中测试数字是在Windows Server 2008 R2下获得的,看来Windows在这方面比较早做好了准备…”,这也就是SAS RAID卡、HBA在Windows容易测出更高性能的原因。
扩展阅读:《突破百万IOPS:blk-mq释放SCSI性能》
在继续讨论本文主题之前,我先简单写点今天参加的XSKY发布会,算是占用了工作时间交个差吧:)
上周日的Ceph day上,我就听耿航讲发布现场会实际展示一个PB Ceph集群,果然是4个机架,管理界面还有比较炫的视觉效果。
XSKY集群的机柜中使用了许多Dell PowerEdge R730xd服务器,基本上满配的3.5英寸盘。
会议中有一个时段的演讲人是戴尔全球副总裁、大中华区企业级解决方案总经理曹志平,以及用户代表飞贷金融科技CTO陈定玮。Dell和XSKY都是“未来就绪企业云联盟”的成员,上面照片里简述了两家公司的合作成果。
在这个X-SKY EDP企业级数据统一存储平台中,飞贷金融使用的服务器硬件就来自Dell。
好了,“广告时间”结束,我们继续聊技术。今天在国外网站看到下面这个图,Pure Storage在FlashArray X上引入定制的NVMe闪存模块DirectFlash已经不是新闻,而我想说的是控制器机箱与SHELF(JBOF扩展柜)之间的NVMe/F连接。
号称NVMe over Fabric ready的阵列产品可能有几家了,但似乎又没看到真正有几个用户部署。用于存储系统的前端主机连接,NVMe/F还是太年轻了些,尽管未来前景不错,但SCSI走到今天真的是积累了好多年。点对点单机连接相对还简单,像多路径、故障切换这些特性NVMe/F估计还要有一个成熟的过程。
后端驱动器则不同了,听小道消息说企业级SSD供应商已经接到某一线存储厂商的大笔双端口NVMe SSD订单。我们也曾看到EMC的人表示过“由于其自身的模块化架构,VMAX架构将能够在无需等待下一代控制器的前提下发挥NVMe驱动器的性能优势”。无论对应的产品GA在什么时候,我相信这一块的技术已经不是难题。
接下来一点就是Scale-up,人们很容易想到在控制器和JBOF之间直接使用PCIe效率最高,尽管有距离限制、PCIe Fabric拓扑规模这些需要考虑的问题。那么Pure Storage在这里为什么要使用NVMe/F呢?
首先,50Gb RoCE v2以太网的带宽比PCIe Gen3x4还要高一些,延时问题也不大。为了保持双控的冗余,机箱间这样的连接至少也要2条。当然,指望它把JBOF里的NVMe SSD性能全发挥出来不太现实。
从成本上看,一个50Gb网口带宽要想跑满就要插在PCIe Gen3 x8上,网卡芯片也有花费。但总的来说,这对于售价不菲的全闪存阵列来说不难消化。
从优势上看,我反而觉得可以不要直连。因为接交换机的话,一台JBOF理论上就可以同时连接到多个控制机箱,在它们之间切换或者将SSD资源划分。只不过,PureStorage目前还只是双控,如果是像VMAX那样的Scale-out控制器架构,NVMe/F能否替代SAS将后端改成一个Fabric网状连接?
富士通ETERNUS DX8700 S2曾经采用过的SAS全互连后端设计,在新一代S3上已经放弃。这种设计未来会不会随着NVMe/F重出江湖呢?
对于大规模Scale-out的闪存系统,我还是认为Server SAN会是未来的主流。像传统存储控制器+SSD框分离的设计,有限的CPU和I/O资源带的盘多了容易有瓶颈。NVMeSSD能提供的IOPS很高,这一点在我昨天的评测中大家也能看出。
最后再缅怀一下DSSD(指硬件设备),这里改放我一位朋友公众号的链接《斯人已去,凭吊曾经的性能怪兽"DSSD"》,因为文中的技术内容比我写得好:)
DSSD从性能角度已经不需要扩展了,而下一代服务器也能插很多NVMe SSD。那么从容量或者冗余(副本)保护的角度,Shared Nothing扩展才是最理想的方式吧?
时间不早了先写到这里,有什么想讨论的可以给我留言。
注:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。进一步交流技术,可以加我的QQ/微信:490834312。如果您想在这个公众号上分享自己的技术干货,也欢迎联系我:)
尊重知识,转载时请保留全文,并包括本行及如下二维码。感谢您的阅读和支持!《企业存储技术》微信公众号:huangliang_storage
长按二维码可直接识别关注
历史文章汇总(传送门):http://chuansong.me/account/huangliang_storage