查看原文
其他

Optane P4800X比闪存写快3倍,杀手应用在哪里?

2017-02-13 唐僧 企业存储技术
本文内容非商业用途可无需授权转载,请务必注明作者及本微信公众号、微博ID:唐僧_huangliang,以便更好地与读者互动。

 

春节前我写的《3DXPoint遇上SAPHANA:机遇与挑战》只能算是展望未来,因为那样的应用要等下一代Xeon平台,并且是未来DIMM内存插槽形态的3D XPoint存储器。

 

估计许多朋友看到了最近的新闻,Intel Optane SSD DC P4800X——即针对数据中心3D XPoint固态盘的资料已经被放出来,距离正式发布应该不远了。

 

 

上面这个发布会展示的产品图片,是面向消费级市场的M.2接口“闪腾”,根据之前泄露出来的资料可能是Optane Memory 8000p系列,只有16/32GB的容量。我在本文中要讨论的显然是P4800X,虽然还没看到实物图,但技术规格已经比较详细了。

 

对比闪存:3D XPointIOPS、延时优势明显

 

 

根据这份资料,首批Optane P4800X只有375GB PCIe 3.0 x4NVMe)扩展卡一种外形,有点像早期的SLCSSD。没有U.2SFF-86302.5英寸的形态,显然不是18W功耗的限制,也许热插拔、双端口的支持还没有研发成熟吧。

 

最大的亮点还是性能:55万随机读IOPS不算啥,而50万随机写(应该是4KB稳态)就比较出众了,大致相当于3块写密集型NAND闪存的PCIe/NVMe SSD;典型读/写延时都小于10μs,与《从技术到应用:揭开3DXPoint Memory迷雾》中的资料(即之前宣传)基本一致,关于这点稍后我再与现在的SSD比较。

 

平均无故障时间(MTBF100万小时并不算长,因为现在的企业级HDD硬盘都超出这一水平,SSD也是如此。我觉得毕竟是第一代产品,3D XPoint SCM介质和控制器等方面经历的考验还不够,所以故障率可能会略高。

 

除了性能之外,我最关心的就是写入寿命。P4800X30 DWPD并没有与NAND闪存拉开差距,因为现在的SLC和写密集型MLC SSD通过调高OP(超量配置)都有能达到25DWPD的型号。与DRAM内存相比,差的可不只一个数量级。

 

简单总结一句话:Optane P4800X写速度更快,但不见得更耐写

 

下面我们来对比下目前定位高端的Intel SSD DC P3700

 

物理尺寸就不讨论了,先看容量点——最大2TB。如果换成读密集型SSD,现在15.36TB乃至32TB都快出来了吧。

 

在容量的基础上,10 DWPDP3700最大写入限制反而高达36.5PB,拿容量换寿命也是一种办法哦。

 

Intel P3700随机读IOPS 46万比P4800X落后没多少,而写入只有17.5万。这里列出20μs的延时不要太当真,因为是顺序(Seq)读写,有写缓存和预读的效果。真正裸NAND闪存介质的性能可以参考下面的图:

 

优化前的闪存和3D XPoint的前身PCM

 

 

这才是保守(真实)的NAND闪存。以ONFI 2.x 接口的Micron 512Gb MLC为例,物理块大小8800KB,页面即最小I/O单位16KB,读延时115μs,页面编程即写延时1600μs1.6ms),而块擦除需要3ms

 

我们知道存有数据的闪存如果要重复写入需要先擦除,即P/E Cycle的过程。可以说闪存控制器和SSD厂商做了大量工作,我们才能用到实际读/写延时100μs左右的产品,至于比这个低的,我只能说DRAM缓存了。

 

上图曾在《从技术到应用:揭开3D XPoint Memory迷雾》一文中列出过

 

相比之下,3D XPoint显然要比早期的PCM(相变内存)进步很多,尽管10μs里面可能也有缓存的效果,但好歹比NAND闪存经过写Cache后的20-3xμs要好不少。而且关键是稳定的低延时,当然这个可能还要看真正产品出来之后的测试报告。

 

展望:ServerSAN、数据库还用不上这么快?

 

最后要谈应用了。由于只有AIC扩展卡的形态,暂时主要适用于服务器;还有个别存储控制器上可以插PCIe SSD做读缓存(如:NetApp FlashCache),但好像换3D XPoint的意义太大。

 

前面也说了,一个P4800X可以顶3P3700 SSD的随机写性能,并且延时低。我能想到的用途,包括分布式存储(ServerSAN)的写缓存层(Journal,还有数据库日志等。

 

 

在《另类VSAN选型、下一代3DXPoint分层架构》一文中,我就列出过VMware透露未来支持Intel Opteron的证据。当然硬件更快的同时,软件栈也要进一步优化才能充分发挥性能,一个对应的例子就是Ceph

 

 

在《IDF16:解读Ceph百万IOPS测试及优化》里面我也介绍了Ceph的随机写效率,当时只能发挥出每节点上一个P3700 SSD日志盘的60%。考虑到Ceph随机写的协议栈太长以及CPU消耗,在进一步的优化和BlueStore应用之前,上3D XPoint的意义也不大

 

 

根据Ceph OSDFileStore)软件部分延时分析,在一个写操作过程中的PG锁就会消耗总共17ms中的10ms

 

至于数据库应用,如果Optane P4800X不能放在共享存储中,还有像Exadata存储节点那样的位置。3D XPoint感觉很适合Redo log,不过在《数据库&存储:互相最想知道的事》里面我们讨论过EMC XtremIOPCIe SSD这些闪存设备已经表现很好了。不知Optane P4800X的价格会比P3700贵出多少?

 

关键的X因素

 

尽管3D XPoint设计的远景目标是抢内存市场,但是在近期,成本可能才是关系它发展的一个重要因素。

 

 

最后,我列出消费级的Optane 8800p基础规格,如果不考虑如此小的容量,这个性能并不算出众。而我想没有做更大也是受价格限制吧。

 

:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。进一步交流技术,可以加我的QQ/微信:490834312。如果您想在这个公众号上分享自己的技术干货,也欢迎联系我:)


尊重知识,转载时请保留全文,并包括本行及如下二维码。感谢您的阅读和支持!《企业存储技术》微信公众号:huangliang_storage


长按二维码可直接识别关注

历史文章汇总(传送门):http://chuansong.me/account/huangliang_storage

点击下方“阅读原文”,查看更多历史文章↓↓↓

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存