Optane P4800X比闪存写快3倍,杀手应用在哪里?
春节前我写的《当3DXPoint遇上SAPHANA:机遇与挑战》只能算是展望未来,因为那样的应用要等下一代Xeon平台,并且是未来DIMM内存插槽形态的3D XPoint存储器。
估计许多朋友看到了最近的新闻,Intel Optane SSD DC P4800X——即针对数据中心3D XPoint固态盘的资料已经被放出来,距离正式发布应该不远了。
上面这个发布会展示的产品图片,是面向消费级市场的M.2接口“闪腾”,根据之前泄露出来的资料可能是Optane Memory 8000p系列,只有16/32GB的容量。我在本文中要讨论的显然是P4800X,虽然还没看到实物图,但技术规格已经比较详细了。
对比闪存:3D XPoint写IOPS、延时优势明显
根据这份资料,首批Optane P4800X只有375GB PCIe 3.0 x4(NVMe)扩展卡一种外形,有点像早期的SLCSSD。没有U.2(SFF-8630)2.5英寸的形态,显然不是18W功耗的限制,也许热插拔、双端口的支持还没有研发成熟吧。
最大的亮点还是性能:55万随机读IOPS不算啥,而50万随机写(应该是4KB稳态)就比较出众了,大致相当于3块写密集型NAND闪存的PCIe/NVMe SSD;典型读/写延时都小于10μs,与《从技术到应用:揭开3DXPoint Memory迷雾》中的资料(即之前宣传)基本一致,关于这点稍后我再与现在的SSD比较。
平均无故障时间(MTBF)100万小时并不算长,因为现在的企业级HDD硬盘都超出这一水平,SSD也是如此。我觉得毕竟是第一代产品,3D XPoint SCM介质和控制器等方面经历的考验还不够,所以故障率可能会略高。
除了性能之外,我最关心的就是写入寿命。P4800X的30 DWPD并没有与NAND闪存拉开差距,因为现在的SLC和写密集型MLC SSD通过调高OP(超量配置)都有能达到25DWPD的型号。与DRAM内存相比,差的可不只一个数量级。
简单总结一句话:Optane P4800X写速度更快,但不见得更耐写。
下面我们来对比下目前定位高端的Intel SSD DC P3700。
物理尺寸就不讨论了,先看容量点——最大2TB。如果换成读密集型SSD,现在15.36TB乃至32TB都快出来了吧。
在容量的基础上,10 DWPD的P3700最大写入限制反而高达36.5PB,拿容量换寿命也是一种办法哦。
Intel P3700随机读IOPS 46万比P4800X落后没多少,而写入只有17.5万。这里列出20μs的延时不要太当真,因为是顺序(Seq)读写,有写缓存和预读的效果。真正裸NAND闪存介质的性能可以参考下面的图:
优化前的闪存和3D XPoint的前身PCM
这才是保守(真实)的NAND闪存。以ONFI 2.x 接口的Micron 512Gb MLC为例,物理块大小8800KB,页面即最小I/O单位16KB,读延时115μs,页面编程即写延时1600μs(1.6ms),而块擦除需要3ms。
我们知道存有数据的闪存如果要重复写入需要先擦除,即P/E Cycle的过程。可以说闪存控制器和SSD厂商做了大量工作,我们才能用到实际读/写延时100μs左右的产品,至于比这个低的,我只能说DRAM缓存了。
上图曾在《从技术到应用:揭开3D XPoint Memory迷雾》一文中列出过
相比之下,3D XPoint显然要比早期的PCM(相变内存)进步很多,尽管10μs里面可能也有缓存的效果,但好歹比NAND闪存经过写Cache后的20-3xμs要好不少。而且关键是稳定的低延时,当然这个可能还要看真正产品出来之后的测试报告。
展望:ServerSAN、数据库还用不上这么快?
最后要谈应用了。由于只有AIC扩展卡的形态,暂时主要适用于服务器;还有个别存储控制器上可以插PCIe SSD做读缓存(如:NetApp FlashCache),但好像换3D XPoint的意义太大。
前面也说了,一个P4800X可以顶3个P3700 SSD的随机写性能,并且延时低。我能想到的用途,包括分布式存储(ServerSAN)的写缓存层(Journal),还有数据库日志等。
在《另类VSAN选型、下一代3DXPoint分层架构》一文中,我就列出过VMware透露未来支持Intel Opteron的证据。当然硬件更快的同时,软件栈也要进一步优化才能充分发挥性能,一个对应的例子就是Ceph。
在《IDF16:解读Ceph百万IOPS测试及优化》里面我也介绍了Ceph的随机写效率,当时只能发挥出每节点上一个P3700 SSD日志盘的60%。考虑到Ceph随机写的协议栈太长以及CPU消耗,在进一步的优化和BlueStore应用之前,上3D XPoint的意义也不大。
根据Ceph OSD(FileStore)软件部分延时分析,在一个写操作过程中的PG锁就会消耗总共17ms中的10ms。
至于数据库应用,如果Optane P4800X不能放在共享存储中,还有像Exadata存储节点那样的位置。3D XPoint感觉很适合Redo log,不过在《数据库&存储:互相最想知道的事》里面我们讨论过EMC XtremIO和PCIe SSD这些闪存设备已经表现很好了。不知Optane P4800X的价格会比P3700贵出多少?
关键的X因素
尽管3D XPoint设计的远景目标是抢内存市场,但是在近期,成本可能才是关系它发展的一个重要因素。
最后,我列出消费级的Optane 8800p基础规格,如果不考虑如此小的容量,这个性能并不算出众。而我想没有做更大也是受价格限制吧。
注:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。进一步交流技术,可以加我的QQ/微信:490834312。如果您想在这个公众号上分享自己的技术干货,也欢迎联系我:)
尊重知识,转载时请保留全文,并包括本行及如下二维码。感谢您的阅读和支持!《企业存储技术》微信公众号:huangliang_storage
长按二维码可直接识别关注
历史文章汇总(传送门):http://chuansong.me/account/huangliang_storage