金融行业异构存储监控实施和运维的 10 个难点解读
整理者:张鹏,任职于某城市商业银行运行维护中心,从事存储、备份、应用负载等实施、运维与管理工作,曾参与行内新一代核心系统上线、容灾建设切换等项目。
1、异构存储监控如何定位故障?
异构存储监控定位正是异构存储统一监控,相比与单一品牌商业存储管理和定位复杂,而相比 IDC 级别监控定位有不够详细的优势特点所在。
存储虚拟化设备以及其后端存储都会接入异构存储监控平台,出于维护和未来调整的角度,都会这样来做,例如行内存储虚拟化 SVC 后端按性能和容量需求分三个层次,共 7 台存储设备,均接入监控平台。
如果经过存储虚拟化设备,无论是存储虚拟化网管( SVC/VPLEX )还是后端可以挂载其他存储的高端存储设备,整合都是在逻辑卷以上,这些逻辑关系以及状态都会被监控,而逻辑卷以下,通过后端存储的监控实现,包括物理磁盘,磁盘组,各存储端口、 CACHE 、处理器以及电池风扇等部件。
一旦某应用系统是由于逻辑卷状态或 SAN 链路(包括端口)导致出现问题,那么下面贴两张实际中的图上来,第一时间就可以找到关联的主机、虚拟化存储池、后端存储以及故障部件或主机与存储之间 SAN 链路部件( HBA 卡、光纤、 SAN 交换机等),检索就一层一层点下去就可以,例如主机发生故障,逻辑卷状态如果不是联机( ONLINE )状态,会找到对应的存储池点进去查看,存储池对应着后端存储,点进去直接看到后端存储各部件状态和告警信息,第一时间就处理了。如果没有这样的系统,会对存储管理员的日常记录分配习惯和记忆力有很高的要求。
2、存储的一体化监控有关联其他监控平台的监控项吗?
【问题描述】比如存储里的物理磁盘会对应到逻辑 lun 或者 NAS 里的一个目录, lun 或者目录又对应到哪个服务器或者哪个虚拟机?这样在监控告警或故障诊断时,是不是更便于根因分析?
异构存储统一监控相比于上层整体监控系统(也就是包含主机、存储、动环等所有设备的监控)的优势之一,就是在于能将存储物理磁盘 - 物理磁盘组 - 逻辑池 - 逻辑卷 - 映射主机 - 主机逻辑磁盘(或物理磁盘 - 物理磁盘组 - 逻辑存储池 - 逻辑卷 - 共享目录 - 主机挂载点)这样的关联影响监控并预警出来,根因分析是很重要的一方面,另外,评估故障对业务的影响范围,以及维护方案以及维护时间窗口,都需要根据此平台给出信息加以判断。
这样完整而快速的分析,就是为了弥补其他监控平台仅能通过 SNMP 告警硬件故障,而不知影响范围,需要存储管理员去各台存储设备查看的亡羊补牢式工作。
3、异构存储的日常管理?
【问题描述】金融系统作为特殊的行业,对于存储的重要性,不言而喻。大家都会面临这样的问题,当存储设备达到一定规模,就需要维持很长的管理列表,用于记录和维护各设备的用途、容量、分配和基本信息,工作任务繁重、效率低下,如何在项目实施前期通过合理的选型与配置,做到预判,避免在日常使用中出现类似的问题?
对于金融行业,存储项目众多,品牌多样,用途各异,存储管理工作繁杂但要求细致、准确与合理,因此为规避由于基本信息梳理效率低下的问题,建议有如下两点:
1、建议对现有存储设备进行资产盘点和存储资源按性能、类别和用途分类梳理之后,形成不通的资源池,通过异构存储统一监控形成存量空间报告和容量分析报告,对现有业务增长速度做出正常的评估,为后续的扩容采购提出客观的建议,避免亡羊补牢式的工作,做到资源预判
2、新项目实施前期,在选型和配置是,一是要满足项目本身的需求,最好能够对存储整体资源池进行补充,缓解该类业务的存储需求,以及未来 3-5 年的增长需求。
3、设备管理列表、用途、容量、分配与映射情况, SAN 拓扑,不通业务域所用空间报告,都可以通过存储统一监控来辅助,可以大大提高存储管理的效率。
4、异构存储的监控后的报警标准如何设置?
【问题描述】我们知道,报警的报警阀值是很难设立的,通常我们会选用基线来定阀值,但如果有异构存储的话,底层的存储是不一样的,那 IO 就有可能时快时慢,请问,我如何设置这种阀值呢?是否能对其中不同的存储分别设置监控指标?
这个问题建议分三个层面来分析:
1、业务逻辑层:无论何种架构,银行业务上线前的架构设计、投产评审都会有相关业务的访问逻辑和使用高峰与特点,如实时交易类的系统对随机读写访问 IO 要求较高,主要集中在日间;而监管报送类系统需要在夜间进行批量操作,对批量时间又要求,因此 IO 会以大量的写操作为主;因此 IO 阀值会根据不同业务系统的峰值进行设置,以这个标准去匹配性能能够达到要求的存储设备,再配合系统监控的磁盘繁忙百分比和关键业务指标,多角度综合判断会比较合理。
2、系统层面:在系统集成完成后,通常会进行压力测试,数据体量规模,在业务层面打压,给出系统可以承受的极值,并根据业务正常相应的压力值,设置极限 IOPS 值,再按百分比设置告警值(例如 85% ),另外可以通过 IOMETER 或 PYTHON 等的存储性能工具在搭建好的系统运行一下,根据极限值的百分比设置阀值
3、存储层面:在异构存储监控软件或存储厂商自带的监控软件中,收集并分析一段时间映射给主机 LUN 的 IOPS 情况,并根据存储访问峰值和存储自身指标设置告警阀值。
综合参考以上,进行 IOPS 阀值综合设置,同时还要参考其他指标综合来看。不同的存储本应设置不同的监控指标,尤其是性能指标,根据存储设备的极限值和来确定该存储适用的业务,充分发挥作用,提高异构存储尤其是利旧存储的使用效率,节能减耗,便于管理。
5、目前哪些软件支持对异构存储统一监控,而且必须符合金融企业合规?
绝大多数存储厂商的异构存储统一监控软件,和支持 SMIS 协议的网管软件,都可以实现此类功能。金融行业合规性主要原则是,应当遵循独立性、系统性、全员参与、强制性、管理地位与职责明确的科学管理原则,对各管理岗位与职责明确的,各相关人员的角色和职责清晰界定。因此,异构存储监控软件在安全管理、存储性能监控用户权限会严格限制,不同报告内容的目标角色会进行相应地删选发送。同时,异构存储监控系统本身,属于内部系统,漏扫和版本监测通过之后,便基本符合需求。
6、异构存储的性能下降的幅度?
【问题描述】异构存储,顾名思义,要将不同体系、品牌的存储连接起来使用,这样的做法必须是该存储是有接口开放,支持这种模式运行的,但是,这样的话,性能不可避免的会下降,请问下降幅度大约有多少?
这个问题,各存储厂商应当都有所考虑,为了监控或管理不损耗存储本身性能,在 Firmware 层或存储内部管理控制台内部(通常含有一套经过优化改造的操作系统)会讲自身性能数据按用户需求收集与保存,同时负责通过通讯协议讲性能数据传输至外部异构存储监控平台,因此对存储本身性能影响微乎其微,但部分厂商有些旧型号设备内部 code 优化不好的设备,会由于性能数据积累,影响内部使用空间,更改设置或定期清理即可。
7、项目商业集群存储如何进行监控整合?
【问题描述】目前项目中使用资源是多种存储混合使用,目前项目管理人员经常需要切换多个平台,包括开源自建,及商业存储自带的,经常出现遗漏等风险,是不是有什么方案或者技术可以将平台监控能力进行整合?最低要求是统一平台监控硬件。
上面这种场景是金融行业或者其他行业中很普遍的现象,由于项目中各系统需求不通,各存储用途不通,导致管理容易疏漏、监控难以统一,其实开源自建的存储还比较容易统一,首先对标准服务器的硬件设备进行监控目前都比较成熟,通过管理端口进行状态采集并分析即可,但其他传统统一存储的管理平台就各异了。
项目管理人员在设备安装使用时,进行资产录入和管理 IP 配置的时候,就加入到监控平台中,一方面可以随时监控存储状态,避免因 firmware bug 或故障影响项目进度,另一方面,项目进行中的各项测试也需要平台来提供存储侧的报告数据,项目实结束后,交付运维的时候,也是清晰明确。
8、实际应用采用的监控方案是什么样的?使用起来有无什么问题?
【问题描述】据目前了解,监控软件有多种,每个存储厂商有自有监控软件,而对于 DC 与 IDC 量级的,大多会采用类似 zabbix、普罗米修斯之类的监控平台软件,也会有自行开发监控平台加定制化脚本监控,因为有开发人员维护并具备多基础设施监控能力,我想问问大佬们在实际应用采用的监控方案是什么样的?使用起来有无什么问题?
根据使用和管理者不同,监控范围不通,通常厂商的存储监控软件是存储管理员或项目集成人员使用,监控的是该厂商存储设备为主,其他厂商的存储设备的大多数型号也能兼顾,查看内容具体详细,用于存储故障根因分析,存储指标的监控。
而类似网管软件的异构存储统一监控,是将各厂商的存储设备统一监控与管理,通常使用者就是存储管理员或基础设施中负责存储资源的管理人员,按照业务类型来看,使用者还有各应用系统的管理人员,以及行内各使用部门,异构存储统一监控,负责定期报告存储状态、容量、扩容参考意见以及各维度的定时报告,服务于 IDC 量级的整体监控平台。
IDC 量级的监控一般是整个监控组或值机组使用,负责全单位范围设备的监控,涉及到风、火、水、电这样的动环基础设施,也涉及到存储、交换机、服务器和各系统专用设备,更涉及到业务交易状态和关键应用系统指标,一旦发现故障,会调度相应的组员去解决相关问题,汇总原因再统计数据,一般关注着都是部门或行级领导,和各业务系统直接负责人。
实际使用过程中,由于级别和关注点不同,往往在实施的过程中将重点监控功能完成即可,但存储管理员希望在 IDC 级别监控,做到对某一品牌存储的热点逻辑卷进行监控与分析的程度,通常达不到,或需要再投入不少人力和财力去实现,因此异构存储统一监控,是解决存储管理员和各系统业务需求部门的具体工作、热点分析以及成本评估问题的,同时可以为 IDC 级别的监控提空具体而详细的监控对象或告警数据源,实现对整体监控的补充。
9、异构存储虚拟化技术如何处理不同的 IOPS ?
【问题描述】异构存储主要是利用虚拟化技术来统一管理下端不同的存储,但不同的存储有快有慢,有好有差,如果保证输出到前端的 IOPS 保持稳定?
异构存储整合和统一管理分配,可以按照存储的性能和容量,进行分层管理。
第一层:通常是性能层,利用全闪存储或性能较高的存储设备充当存储池中资源,用于实时的在线交易类系统或高性能计算。
第二层:通常是平衡层,标准的企业级万转以上的磁盘池组成,均衡性能与存储容量,适用于标准应用系统的分配
第三层:通常为容量层,用成本较低的磁盘池组成,提供近线业务存储容量为主
这三层可以通过虚拟化软件的自动层间热点数据发现和智能移动,将热点数据迁移到上层存储,保证业务在高峰时段的 IOPS 不会成为瓶颈。
异构存储统一监控并不会实现上述配置功能,但可以为关键系统的 IOPS 设置监控指标,提醒系统或业务人员 IOPS 到达阈值,需要手动或自动干预,保证主机端 IOPS 动态满足需求。另外,前端的 IOPS 本身就是根据业务特点变动的,如果了解了业务峰值,需要将该业务 IOPS 控制在峰值以下,避免影响存储设备前端口和逻辑池的整体性能,可以对 IOPS 进行 Qos 限制
10、异构存储统一监控有哪些实施风险?
【问题描述】异构存储统一监控有哪些实施风险?如果将各存储告警数据流统一定制化,会影响存储性能的正常运行使用吗?
大多存储设备厂商本身在存储设备设计的时候,就按照 SMIS 或 restful api 协议设计了性能数据监控与收集分析的接口,而异步存储监控在实施中只是把众多品牌的存储集中监控与收集起来,并统一监控、分析和报告。另外监控在存储中使用的用户,也仅仅只有查看的权限,并没有操作与删除的权限,因此会比较安全。各存储告警数据或性能数据,也可以按照需求和存储本身特点制定采集频率需求,一般不会太频繁,避免发生性能问题,不过如果存储本身设计的不好,性能或告警日志数据将存储内置系统容量占满,或监控进程 hang 死,需要手动干预,通常这种情况,都可以通过升级 firmware 来解决,再旧一些的存储就不适合再投入生产系统使用了。
原题:异构存储监控线上交流活动问题总结如有任何问题,可点击文末阅读原文,到社区原文下评论交流 觉得本文有用,请转发、点赞或点击“在看”,让更多同行看到
资料/文章推荐:
欢迎关注社区 "监控"技术主题 ,将会不断更新优质资料、文章。地址:
https://www.talkwithtrend.com/Topic/3937
下载 twt 社区客户端 APP
长按识别二维码即可下载
或到应用商店搜索“twt”
长按二维码关注公众号
*本公众号所发布内容仅代表作者观点,不代表社区立场