实战 | 提升突发事件管理水平,奠定智能化运维基础——一般事件转突发事件及应急响应级别判断模型研究
欢迎金融科技工作者积极投稿!
投稿邮箱:newmedia@fcmag.com.cn
——金融电子化
文 / 中国农业银行数据中心 董闯 徐淼
银行的本质是在经营风险,风险管理是银行的核心管理目标之一。而突发事件管理作为风险管理中的重要组成部分,也是银行数据中心运维保障的核心内容与主要工作之一。
突发事件管理的挑战
突发事件通常发生突然、社会影响较大,且易造成客户服务中断或交易资金损失,但是当信息系统发生故障异常时,并不是所有的事件都是突发事件,而且伴随着事件的持续发展,一般事件也会逐渐转变为突发事件。对于运维人员而言,在信息系统发生故障异常时,如何快速判断事件是否转变为突发事件,并启动相应级别的应急响应,是事件应急处置中的关键环节。当前银行数据中心存在信息系统部署众多、故障异常情况复杂、岗位分工细、横向联动难等问题,对突发事件的迅速判断与快速响应,以及安全生产的风险防控带来极大挑战。
应对挑战的解决方法
为应对当前数据中心突发事件管理的需求与挑战,本文研究并提出了一种解决方法,即建立一般事件转突发事件树型判断模型和应急响应级别象限判断模型。事件转变判断模型属于树形结构,是异常告警信息从发现到确认业务影响,最后判断事件类型的模型;应急响应级别象限判断模型属于象限模型,是事件启动应急处置后,确定启动应急响应等级的判断模型。前者根据事件来源和监控类型对事件进行分类,并在树形根上进行聚合、关联和收敛;后者按照事件影响程度和信息系统等级,结合事件的时长发展和影响范围变化,启动不同的应急响应等级。
一般事件转突发事件树型判断模型
为了减少突发事件带来的危害和损失,一旦有事件发生,需要快速判断故障异常是否为突发事件,从而作出快速合理的应急响应和处置决策。如果运维人员仅凭经验进行判断,存在个体差异性大、判断效率低、准确性差等缺点。因此,数据中心可以通过建立一般事件转突发事件树型判断模型(事件转变判断模型),来提高事件的受理分析和转变升级判断能力。
1.事件转变判断流程介绍。通过研究分析实际生产运行事件现场处置流程,梳理形成以下一般事件转突发事件判断流程。
(1)先根据事件来源,将故障异常分为数据中心外部报告和数据中心内部监控告警发现。
(2)数据中心外部报告具体可分为客户报告和用户报告。客户报告说明客户使用已经受到影响,即业务受到影响,因此现场负责人应立即启动应急响应;用户报告则需由现场负责人核实为非个例现象或误报故障后,随即启动应急响应。
(3)数据中心内部监控告警发现后,依照监控告警类别,把数据中心内部监控告警分为应用类告警和基础资源类告警。
(4)应用类监控告警先根据监控类型分为联机类和批量类,再根据监控对象分为联机交易、联机进程、中间件和网络通讯等,基础资源类则根据监控对象分为系统、网络、硬件设备和环境。
(5)根据不同的监控对象,细分为具体的监控指标。
(6)对应指标由相应专业条线的二线运维人员,判断是否影响系统可用性和业务连续性。
(7)如果单独专业条线无法判断或需要定位问题,则需通知现场负责人,由现场负责人组织基础专业条线和应用条线启动联合排查和判断。
(8)如果判断影响业务服务或确定系统正常运行受到影响,二线运维人员即可判定一般事件转变为突发事件,启动应急处置,并须负责立刻报告现场负责人,由现场负责人启动相应的应急响应级别;反之,则按一般事件管理流程进行流转和处置。
2.事件转变判断模型构建。数据中心突发事件判断流程实质是一个以运行值班现场负责人(值班长、值班经理等岗位)为枢纽,信息系统故障异常信息在多个专业领域运维人员之间流转传递的过程。树形结构正是一种数据元素之间存在着“一对多”的树形关系的数据结构,非常符合事件的流转判断过程。同时,树形结构作为一种非顺序数据结构,也方便快速查找信息,因此特选用树形结构作为事件判断模型的基础结构。
根据突发事件判断流程,选取树形结构,建立的一般事件转突发事件树形判断模型,模型简图如图1所示。
图1 一般事件转突发事件树形判断模型(简图)
应急响应级别象限判断模型
应急响应级别象限判断模型(应急判断模型),承接一般事件转突发事件树形判断模型的判断结果,以信息系统灾备能力等级与事件影响程度为核心判断维度,快速判定应急响应级别。其中,信息系统灾备能力等级是根据其经济效益和社会效益两个要素的得分,以及特定领域特征和实施策略的综合评分,评定的信息系统保障级别,是商业银行运维保障、应急灾备等科技管理中实现差异化管理的基础。
1.应急判断模型的判断维度数值定义。应急响应级别象限判断模型,以事件影响程度为纵轴,如表1所示,依据故障异常造成的业务或服务影响、系统运行影响及影响时长等因素,将事件影响程度分别赋值为0~6;以信息系统灾备能力等级为横轴,系统灾备能力等级共分为1、2、3、4、5、5+六个等级,分别赋值为1~6。
表 1 事件影响程度数值表
2.应急判断模型的应急响应级别定义。应急响应级别象限判断模型,对应的事件应急响应级别结果(见图2)。应急响应级别分为Ⅳ到Ⅰ级,应急报告范围和层级依次扩大,应急响应级别定义结果如下。
(1)无业务影响(白色区域):一般事件处置;(2)Ⅳ级(黄色区域):向现场负责人汇报,故障相关专业运维人员排查,值班长跟踪;(3)Ⅲ级(金色区域):向数据中心领导和相关处室负责人汇报,各专业二线运维人员协同排查;(4)Ⅱ级(橘色区域):组织启动总行数据中心应急处置领导小组,并向总行科技管理部门报告,同时视事件影响情况向受影响的单位、业务部门、相关技术支持单位等进行通报;(5)Ⅰ级(红色区域):由总行科技管理部门组织启动全行重大突发事件应急处置领导小组,并向分管行长报告。
图2 应急响应级别判断模型
模型应用展望
双模型的建立,使事件转变判断有据可依,规范了突发事件转变判断流程及其应急响应级别的判断方法,可极大提升数据中心的生产运行保障水平和安全生产风险防控能力。一是减轻生产运行现场运维人员压力,判断模型从现场负责人、运维人员的角度出发,通过明确处置流程与判断标准,使模型简单易行,协助现场负责人、运维人员迅速判断事件的影响程度并启用相应级别的应急响应;二是提升突发事件应急响应速度,缩短运维人员之间的沟通时间,缩短应急响应级别的判断和决策时间,降低事件影响时长;三是为智能化运维奠定基础,根据数字定义及判断模型,不断积累事件转变和应急响应级别判断实例,形成AI大数据学习案例库,奠定智能化运维实现基础。
(栏目编辑:韩维蜜)
往期精选:
● 实战 | 助力客户体验提升——NLP在分析客户反馈场景下的应用
《金融电子化》新媒体部:主任 / 邝源 编辑 / 傅甜甜 潘婧