《数字中国建设整体布局规划》指出建设数字中国是数字时代推进中国式现代化的重要引擎。用于支撑数字中国构建的一体化、高水平数字平台,其可用性保障至关重要。
今年5月发布的《互联网政务应用安全管理规定》,强调筑牢互联网政务应用安全防护屏障,保障和促进政务应用安全稳定运行,对可用性保障提出了进一步要求。
从“找部门”到“找政府”,一体化打破了众多“孤岛”,形成了“环岛”效应。然而,这也带来了诸多挑战:系统构成不明、负载不清、超负荷运转不自知;架构设计缺陷、联调测试不充分导致协同难;风险知识未总结、未共享造成响应不及时。不存在与生俱来就绝对安全的数字平台,我们只有重视问题、总结规律,按照PDCA(计划-执行-检查-行动)成熟度模型,持续精进对象纳管、监测预警、迅速响应、高效处置及深度复盘五大环节,才能驱动可用性运营体系实现螺旋式迭代升级。为避免产生运维“黑域”,实现从“机器”级向“零件”级的纳管。按照物理拓扑关系,以客户端和服务端为起始点,建立运维链路。该链路包括对象和关系两部分:对象由外部依赖的基础资源、共享服务、第三方组件、端服务等,内部建设的前端页面、后端接口和生产数据库等构成,共23种对象207项要素;关系是对象之间的调用秩序,按照全链路压测要求,结合各服务阈值设置限流值,建立各对象依赖关系。为降低漏报导致的不自知、误报导致的不准确,定义漏报率、误报率两个核心指标用于评估监测水平。当所有运维对象在线以后,监测的全面性决定是否存在漏报,传统是通过技术专家结合经验设置的监测规则,完善为针对16类97项对象的标准化监测规则包,解决专业能力不足导致的漏配问题;当所有对象及监测规则在线后,调整与业务相匹配的阈值是减少误报率的必要手段。为避免技术没有内驱力快速恢复服务,导致响应低效问题,需要定义“两线”告知原则,“两线”分别是风险告警线和责任告警线。风险告警线是以传统的技术推进方式,推动研发、运维、测试快速响应;当技术响应或处置超时,将风险告警提级为责任告警,告知业务影响范围,由业务单位负责人协同推动。为避免风险定因慢,设计“三图”提升定因效率,“三图”分别是风险图、拓扑图与时序图。风险图指出了风险的来源方向,分为“东南西北中”五个方面,分别是东向竞争、西向变更、南向依赖、北向流量、内部缺陷;拓扑图指出了风险的位置,在复杂的拓扑关系中,结合风险信号快速找到存在问题的节点;时序图指出了风险的初因,结合前面两张图和技术专家经验,通过时序序列分析,判断风险源头,找到“第一片雪花”。风险处置的结束不是可用性运营的终点,而是带来了一次发现新知识的机会。为避免任务式驱动,应全面复盘每个风险,提炼为可用性运营的一般性方法。可用性运营的载体可称为“TKS”,分别是工具、知识和服务。通过根因分析和复盘整改,持续优化“链路”、“两率”、“两线”和“三图”。总结来说,可用性运营既要聚焦当下存在的矛盾,也要预判未来发展的趋势。不断以问题为导向,持续通过PDCA循环优化纳管、监测、响应、处置、复盘五大环节,以TKS为抓手撬动可用性运营各环节迭代升级,通过对人员、资源、技术、过程四位一体变革,完善可用性运营体系,支撑业务高水平发展。 来源 作者:数字浙江技术运营有限公司运维部部长 成增存 ,原文标题为《可用性运营的一般性方法》转载请注明来源