某股份制银行如何基于Zabbix实现自主运维和自主可控?
姚健 | 某股份制银行科技运营中心运维工程师
项目情况说明
项目背景
伴随着本行业务的快速发展,总行对IT基础架构设备的运维监控和数据管理要求也日渐提高,势必对分行运维监控系统带来极大的挑战。
同时,各种新型应用组件和开源技术组件日渐成熟,越来越多此类组件在分行业务系统生产环境中上线使用,传统商业监控软件已无法满足我行IT基础架构设备的监控和数据管理展示要求,且传统商业软件存在产品费用高、license限制、监控功能不全、架构复杂等痛点,因此本行急需建设新一代运维监控平台。
项目目标
经过长期的调研和功能测试,本行决定采用开源监控系统配合定制化方式来构建新一代运维监控平台,实现基础架构设备和对象监控覆盖,为全行业务系统健康稳定运行打下坚实的基础,并将关键数据通过大屏方式展现出来,最终实现自主运维和自主可控的目标。
为什么选择Zabbix?
Zabbix作为世界范围内最受欢迎的开源监控系统之一,已经在非常多金融行业用户环境中得到广泛的使用,拥有众多难以比拟的优势,如下:
完全开源,无产品费用和license限制;
功能强大,能够实现对各种对象的监控支持;
完善的图形化界面,使用简单,易于维护;
版本迭代快,系统运行稳定,资源占用率低;
配置灵活,能够快速实现架构和功能扩展;
拥有Zabbix官方、合作伙伴和社区技术支持。
项目建设说明
平台架构
平台架构说明:
基于Keepalived组件配合脚本方式实现Zabbix Server高可用配置;
基于MySQL数据库的主从同步机制实现数据库高可用配置;
基于Zabbix Proxy组件构建分布式架构,实现对不同类型和区域对象的监控纳管,同时分摊Zabbix Server的监控压力。
监控范围
本期监控平台实施范围是实现对本行大厦基础架构对象、环控系统及74家支行网络设备的监控覆盖和故障告警通知。
标准范围
在进入监控实施阶段之前,需要对监控平台进行标准化规范制定,规范对于整个平台的日常维护来说是极为重要的,标准统一的配置能够帮助用户更好的管理监控平台,并且保证监控平台对外提供数据格式的统一性,标准化规范操作主要有以下内容:
监控平台主机群组命名规范
监控平台监控模板命名规范
监控平台主机名命名规范
监控平台监控触发器命名规范
监控平台Tag标签使用和命名规范
监控平台组件安装目录规范
监控平台自定义脚本目录规范
监控平台组件日志存储目录规范
平台功能
操作系统
针对操作系统(Linux、Windows)的监控主要是在被监控主机上部署Zabbix Agent来采集主机的资源信息,包括系统CPU、内存、磁盘空间和IO使用情况,并且配合脚本方式实现Agent的自动化部署,监控效果如下图:
数据库
针对数据库(Oracle、SQL Server、MySQL)的监控主要是通过脚本配合ODBC方式及性能计数器方式实现对各种数据库性能和状态的监控,包括用户关注的Tablespace表空间、连接数、锁信息等关键指标,监控效果如下图:
中间件
针对中间件(WebLogic、Tomcat)的监控主要是通过JMX(Java Management Extensions)方式来实现对中间件性能和状态的监控,包括JVM使用情况、内存池、GC垃圾回收情况、加载类等指标,如下图:
虚拟化平台
针对VMware虚拟化平台的监控是利用Zabbix监控平台开箱即用的监控模板,通过VCenter的SDK接口来实现对VMware虚拟化平台的宿主机和虚拟机资源的监控,并且Zabbix原生支持LLD自动发现的方式,能够全自动的发现VMware虚拟化平台的宿主机和虚拟机信息,同时自动完成监控的配置,监控效果如下图:
网络、硬件和存储
针对网络、服务器硬件和存储设备的监控主要是利用SNMP协议方式来实现性能和状态监控,包括设备的状态、接口状态、接口流量、存储容量、风扇和电源状态等指标,并基于MIB库中对应指标的OID值,配合Zabbix LLD发现规则实现监控项和触发器的全自动生成,监控效果如下图:
环控系统
针对环控系统的监控主要是利用Zabbix原生的HTTP协议方式调取环控系统的API接口来获取数据,在通过Zabbix依赖监控项和预处理的功能对数据进行拆分和加工,最终实现对环控系统关键指标的监控功能,如下图:
数据展现
为了更好的将Zabbix监控采集的数据展现出来,本期项目分别基于定制化和Grafana组件方式实现特定数据的展现,数据展现说明如下:
定制化大屏展现
大屏展现主要是基于监控平台实施厂商通过自有平台进行定制化开发实现,将Zabbix采集到的网络流量数据按照每个支行的维度集中统一的展现。
某银行专线带宽监控系统
Zabbix仪表盘
Zabbix默认拥有灵活定制仪表盘的功能,用户可以结合实际需要和权限管理要求定制数据仪表盘。
Grafana数据展现
Grafana是一个优秀的开源数据展现工具,拥有丰富的展现方式和数据源支持,能够展现包含Zabbix在内的众多平台的,同时具备默认的Zabbix数据展现模板。
项目建设价值
监控平台作为运维的“眼睛“,对于运维人来说极其重要,本期新一代监控平台完全基于开源Zabbix监控系统构建和定制化,最终实现对本行及支行的各种类型设备和对象的监控覆盖,解决了过去监控覆盖不全、监控深度不够等问题,同时降低运维的成本和管理难度,满足我行的监管要求。
总而言之,新一代监控平台建设价值主要体现为如下几点:
基于开源监控系统建设,无license限制和产品费用,降低成本;
轻量级分布式架构支持,对服务器硬件资源的要求更低;
实现对各种基础架构对象和支行设备的监控覆盖,避免出现监控盲区;
友好的图形化界面,易于用户上手使用和日常的维护及管理;
监控平台具备良好的架构和功能扩展性,能够快速支持新的监控需求;
实现自主运维和自主可控的目标,降低对厂商的过度依赖。
往期推荐
Zabbix 6.0 升级完全指南!
Zabbix 6.0 TimescaleDB 安装配置
Zabbix全年在线课录屏
Zabbix学习资料、客户案例申请
扫一扫|加入技术交流群
小Z|17502189550
备注“使用Zabbix年限+企业+姓名”
5000+用户已加入!
一个人走得快,一群人走得远!