如何做好企业级存储产品的测试
目录
- 测试方法、磁盘&全闪存阵列测试数据
- 分布式存储测试要点、性能评估指标
- 冷存储:磁带库、VTL、蓝光光盘
- 测试方/厂商/上游供应链角度、技术/非技术因素
上一篇《NVMe-oF以太网SSD:三星说第一家,东芝/Marvell两年前就有了?》的内容,出自ODCC开放数据中心峰会的“新技术与测试分论坛”,而就在同一间论坛里还有个分享干货满满,那就是中国移动通信研究院技术经理鲁江华老师的《如何做好企业级存储产品的测试》。
除了甲方用户视角之外,下面的资料中还分享了不少珍贵的测试数据。而我也尝试加入一点自己的解读。
测试方法、磁盘&全闪存阵列测试数据
图片点开后可放大,以下同
关键业务数据库,一直是运行在存储阵列上的重要应用之一,只是近年来连接的小型机越来越多地换成了x86服务器。上图中的压力模型数据是模拟的中国移动现网环境,也比较有代表性。
具体来说,OLTP交易型数据库主要考验存储IOPS,4KB-8KB随机读写所占比例较大,特别是读。其中占到总I/O数20%的随机读能够被阵列的Cache缓存命中。
OLAP分析型数据库则更多考验存储的顺序I/O带宽,64KB顺序读占到了70%。
解读:按照前面的测试方法,(HDD机械硬盘)磁盘阵列的IOPS没有纯4KB或者8KB随机读那么高,通常实际用户也很少真的满配1000-2000块盘。移动分享的高端磁盘阵列平均IOPS为12万多,5家厂商也都在10-16万这个范围内;中端盘阵平均IOPS在4.5万左右;低端也达到了1万以上。
从历年测试数据来看,由于HDD本身的I/O瓶颈,从2010年前后高端阵列就没有明显的突破了。有些年份偏低,估计与采购的配置和价格有关。
上图中还提到一点:“中低端存储的国内厂家主要以OEM国外厂商的方式参与“,具体在这里主要是指H3C/HPE、联想/NetApp吧。
由于SSD本身速度快,存储控制器软硬件更容易成为瓶颈,因此不同厂商全闪存阵列的性能差距比较大,比如上图中有的跑到90万IOPS,也有的只有10几万。
解读:当然也不是在测试中跑的快的存储,在实际业务中就100%一定很好用,我听到银行等客户处也有过不同的例子。所以对于新的存储型号,有些行业甲方会先买来跑一到几年测试业务,稳妥之后才上核心业务。
全闪存阵列普遍提供压缩/重删功能,不同厂商测试的数据缩减比例在2-4倍不等。
解读:如上图,有的厂商全闪存阵列在开启压缩后性能下降40%,而重删+压缩后甚至下降80%;而有的厂商数据缩减的影响却很小。记得我在2018年写到PowerMax时,官方宣称“重删和压缩的性能影响几乎为零“;而后来的中端NVMe全闪存阵列PowerStore,也有专门的QAT硬件来处理压缩。
至于连续创建快照时的性能下降,从原理上来讲COW(写时复制,或称CoFW)影响会比较大,而ROW(写时重定向)至少写入性能保证的比较好。至于ROW带来数据碎片化的问题,我在2015年的一篇讨论中曾拿Nimble和NetApp举过例子,在全闪存时代这一点对后续读性能的影响减小了许多。
分布式存储测试要点、性能评估指标
解读:上图中提到:“Ceph等分布式存储软件开源组织的蓬勃发展,降低了分布式存储产品开发的门槛。”由于要协同多个节点,分布式存储的数据切块/Chunk算法比集中存储阵列要复杂,也有些容易出现容量分布不均衡的问题,影响到利用率。
除了传统的性能测试之外,可靠性测试要考虑的因素增加了——比如:掉电影响、节点离线、断网(模拟交换机故障)等。企业级特性方面,支持同步复制/双活的分布式存储好像不多;另外就是重删,这个要想跨节点实现全局重删元数据管理上会相当麻烦。
具体到分布式文件存储,测试表明小文件表现好不代表大文件表现也一定好。这个要结合业务特点来选择了。
冷存储测试:磁带库、VTL、蓝光光盘
电信运营商的冷数据主要包括:备份、日志数据、话单数据和统计数据。在全部存储的业务数据中,预期30天后进行数据检索的冷数据比例达到60%。
解读:物理磁带库提高性能,主要靠驱动器和机械手的数量,在备份任务中实现并发操作。相比之下,虚拟带库(VTL)能够实现更好的单数据流性能。由于是磁盘存储,VTL也没有物理磁带产品那么多机械故障,同时支持随机访问——特别是在恢复备份时不用等着磁带倒带的时间了。
VTL的数据可靠性通过RAID等来保护;而磁带要是放重要性高的数据备份,通常存2-3盘才保险一些。
VTL的价值就是面对备份软件时模拟成物理磁带库,因此兼容性比较重要。其实当前主流的磁盘备份产品,大多也提供文件访问接口,或者像Data Domain(最新名字叫PowerProtect)DD Boost这样的专用备份加速协议。
测试方/厂商/上游供应链角度、技术/非技术因素
解读:从甲方角度的三个要素为:使用部分的需求、采购部分的需求,以及测试实施能力。从采购的KPI来看,通常是买到够用的产品越便宜越好?所以需要标准化模型、量化指标来引入合理竞争。对于测试技术人员来说,如果能发现乙方产品的不足或局限,配合使采购部门谈判到更低的价格,也可以算一种贡献吧?
解读:站在厂商(乙方)角度,用户需求至上自不必说;“业界对标”即所谓知己知彼;对于测试团队,如果允许修改软件代码的情况下,带上研发人员现场支持自然更好。对于重要的项目,特别是技术因素占据主导的,还可以在异地厂商实验室的测试环境镜像同步验证,以便快速复现、分析问题等。
至于迭代改进,无论研发还是测试人员,大家都是在不断的项目参与中,摸索经验并逐渐进步的。
解读:关于存储厂商的上游供应链角度,我举一个简单的例子吧:比如某个品牌/型号的SSD性能表现更好,为了跑高分,厂商就会倾向于用这款来测试。这也会间接影响到后续用户的采购吧?如果在性能、品质上没有优势的供应商,是不是只能打价格战了。
通过共享部分测试成果,能够划分出产品的档次。来自用户的长期需求反馈,会影响到产品的功能和性能特点。中国移动的测试分享希望给业界提供两点启发:放大测试的价值,参考相同场景的成果。
最后,再次感谢鲁江华老师的精彩分享!
扩展阅读:《企业存储技术》文章分类索引(微信公众号专辑)》
注:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。进一步交流可加微信:490834312。如果您想在这个公众号上分享自己的技术干货,也欢迎联系我:)
尊重知识,转载时请保留全文,并包括本行及如下二维码。感谢您的阅读和支持!《企业存储技术》微信公众号:HL_Storage
长按二维码可直接识别关注
历史文章汇总:http://www.toutiao.com/c/user/5821930387/
http://www.zhihu.com/column/huangliang
↓↓↓