高效存储运维怎样炼成?
在整个IT系统生命周期内,运维占据80%以上的时间,运维管理的质量直接影响存储资源的利用率以及ROI(投资回报率)。根据EMEA的一项调查,对于企业的云部署来说,存储的配置和管理成为其中最严重的瓶颈所在(58%)。而在XSKY公司2017全国十城巡展超过600位客户问卷调查中,在回答“未来挑选SDS(软件定义存储)厂商的主要判断标准”时,超过50%的受访者同样选择了“易于维护和可视化管理”。
如何准确预测容量趋势,科学指导采购规划?如何降低运维复杂度,减少人员和时间投入,降低维护成本?如何提前实现故障感知,防范于未然?如何精确识别故障点,一改撒网式故障排查……面对存储系统日常运维过程中的痛点,且看国内软件定义存储领导厂商XSKY如何化繁为简,推动实现存储运维的自动化和智能化。
1
向自动化运维演进
SDS的发展,实现了存储资源的按需获取,存储资源得到充分利用的同时,基于100%图形化维护,全方位监控与管理,全方位健康管理等功能设计,可实现存储运维向自动化与智能化的平滑演进。相比传统存储依靠繁琐的命令行操作以及对运维人员的高要求,SDS极大地简化了IT运维复杂度,减少了运维人员和时间投入,降低了人工管理运维成本。
较为容易存在的一个误区是:SDS是存储软件和服务器硬件的解耦合,需要“运维两个东西”,而传统存储仅需要面对一套设备的运维,传统存储运维看似比SDS运维更简单。
实际上,SDS运维体系遵循化零为整的方式,将通用服务器统一化、一体化管理,所有服务器设备在运维人员眼中,均可看作一个整体,当作一台存储设备来运维,以此解决企业运维复杂、难度高、风险压力大的问题。
SDS在硬件方面基于通用服务器搭建,管理员无需专业的存储运维知识掌握,即可轻松胜任日常运维工作;成熟的SDS不仅涵盖了硬件运维的大多数工作,例如针对磁盘、网络设备的故障运维,并且面向大多数升级扩容的任务实现了自动化。
监控管理方面:通过图形化界面可清晰观察到整个存储平台所有硬件设备的运行状态,当出现硬件损坏时,可快速告知用户硬件损坏类型(如:硬盘损坏、网络中断、服务器损坏、机柜损坏等),以及损坏的硬件设备物理位置(包括:机柜、服务器、盘位等信息),降低运维难度;
自动化运维方面:系统自带自动容错机制,可自动化的弥补硬盘损坏、服务器损坏对业务系统的影响,保证业务连续性的同时,提供硬件设备生命周期检测、在线更换硬件设备、扩容后数据自动重平衡等功能,将运维与业务运行分开,做到互不干扰,降低业务风险,减少运维人员压力。
在安装阶段,可以实现极速上线,采用一键安装、快速配置的方式极大简化了IT运维复杂度;
在使用阶段,采用智能运维方式,实现100%图形化、全局搜索、状态监控、性能监控、全方位健康管理、自动化分析报表、SNMP、生命周期管理等机制;
100%图形化维护
全方位监控与管理
全方位健康管理
在扩容阶段,可保证业务的整体连续性,实现在线软件升级、在线硬件升级、数据保护、容量分析及预警机制。
实例对比
传统RAID模式下针对坏盘运维,一块4TB磁盘恢复通常要耗费10多个小时,期间还需要占用大量CPU计算资源,数据保护降级周期长,数据安全风险大;而分布式SDS只需恢复实际写入的数据,且全局磁盘参与恢复过程,1TB数据在三节点集群恢复仅需20分钟,资源占用可以根据应用需求灵活调整。
2
SDS革新运维实践
某国内大型互联网金融公司是一家典型的Fintech(金融科技)模式企业,自2015年全面拥抱移动互联网以来,用户数量增长了76倍。随着业务的爆发式增长,集群不断增加,硬件故障也趋于常态化;节点或磁盘离线带来服务中断时长已经超出分布式数据库容错范围,客户生产业务极易受到影响,给日常的运维造成了巨大的压力。
面对这一情况,该用户决定基于SDS革新现有的存储架构,并最终采用了XSKY分布式存储解决方案。虽然管理的设备是之前的4倍多,但通过测算发现,内部核算时间仅为之前的1/10,运维人员数量仅为之前的40%,稳定支撑了其7x24的业务流量。
湖南省某地级市税务平台现有的IT系统是基于传统PC方式,需要在每台PC上安装业务所需的软件程序及客户端,同时重要的数据也分散在各PC上,在传统的维护方式下面临着诸多的安全以及管理上的难题,且效率低下。
该用户决定基于XSKY分布式存储解决方案构建办公云平台,将数据从IT 环境的边缘移到数据中心内,降低 IT 部门所面临的安全风险,并简化合规性工作程序。新方案不仅避免了桌面启动风暴带来的性能瓶颈问题,降低了运维风险,全方位健康管理、图形化运维等丰富的智能化运维工具更加简化了运维难度,降低了运维成本。
3
完成一个操作需要几步?
在XSKY软件定义存储平台中,完成一个操作需要几步?
三步。
为了降低运维的复杂度,在XSKY软件定义存储平台中,基本上一个操作在三步之内完成。管理系统实现单点管理多处数据中心,且管理界面上嵌入了存储系统中的所有配置方法,可以监控到系统内所有存储服务器的运行状态、CPU使用率、操作系统版本、存储系统整体访问带宽、所有服务器磁盘使用效率与磁盘运行状态、运行时间、内存使用率等信息,并可设置自动报警机制,当服务器出现宕机或者磁盘损坏时,监控系统会自动将此消息发送到运维人员的手机或者Email上,方便运维人员管理,减少运维成本。
在XSKY最新升级的企业级统一数据存储平台X-EDP 3.2版本中,应对更广泛的用户日常运维场景,在易用性上进行了增强。
硬盘支持维护模式
硬盘维护模式是辅助对硬盘进行维护操作时,数据不进行重平衡,利用该模式可用于硬件设备下线维护场景,例如:服务器要下电更换或者增加内存,如果正常模式需要将服务器下电后,数据开始自动恢复,等处理完服务器之后,还要对服务器进行处理以及重平衡,比较浪费时间。加入此机制将系统可操作单元降低,进一步提升用户体验。
服务器厂商识别
自动识别获取服务器厂商及型号,提升与服务器厂商特有功能的整合度,方便用户管理(维护以及报修)。
监控统计支持Prometheus
prometheus 是一个开源的监控/报警系统,XSKY 存储管理服务通过 direct exposing 的方式,支持以 prometheus format 的形式导出监控数据到第三方平台,同时管理平台自身也使用 prometheus 作为时间序列数据库,存放和查询监控数据。优势:可以导出监控数据到第三方平台,监控粒度更细化。
浏览器时间和服务器时间不同步提示
客户端浏览器时间和集群时间如果不同步,将影响集群监控信息显示准确性。如果不同步时间大于5s则界面显示警告。
监控保留时间设置
监控保留时间设置: 可以根据预留的管理数据容量设置指定的监控数据时间保留范围。
● 最佳实践 | 找对了“对象”,贵广网络全媒体运营商转型So easy