查看原文
其他

数字平台可用性运营的通用五步法

成增存 数据要素社
2024-09-16

《数字中国建设整体布局规划》指出建设数字中国是数字时代推进中国式现代化的重要引擎。用于支撑数字中国构建的一体化、高水平数字平台,其可用性保障至关重要。


今年5月发布的《互联网政务应用安全管理规定》,强调筑牢互联网政务应用安全防护屏障,保障和促进政务应用安全稳定运行,对可用性保障提出了进一步要求。

从“找部门”到“找政府”,一体化打破了众多“孤岛”,形成了“环岛”效应。
然而,这也带来了诸多挑战:系统构成不明、负载不清、超负荷运转不自知;架构设计缺陷、联调测试不充分导致协同难;风险知识未总结、未共享造成响应不及时。

不存在与生俱来就绝对安全的数字平台,我们只有重视问题、总结规律,按照PDCA(计划-执行-检查-行动)成熟度模型,持续精进对象纳管、监测预警、迅速响应、高效处置及深度复盘五大环节,才能驱动可用性运营体系实现螺旋式迭代升级。

第一:以“链路”为线索提升“纳管”水平

为避免产生运维“黑域”,实现从“机器”级向“零件”级的纳管。按照物理拓扑关系,以客户服务端为起始点,建立运维链路。
该链路包括对象关系两部分:对象由外部依赖的基础资源、共享服务、第三方组件、端服务等,内部建设的前端页面、后端接口和生产数据库等构成,共23种对象207项要素;关系是对象之间的调用秩序,按照全链路压测要求,结合各服务阈值设置限流值,建立各对象依赖关系。

第二:以“两率”为抓手提升“监测”能力

为降低漏报导致的不自知、误报导致的不准确,定义漏报率、误报率两个核心指标用于评估监测水平。
当所有运维对象在线以后,监测的全面性决定是否存在漏报传统是通过技术专家结合经验设置的监测规则,完善为针对16类97项对象的标准化监测规则包,解决专业能力不足导致的漏配问题;当所有对象及监测规则在线后,调整与业务相匹配的阈值是减少误报率的必要手段。

第三:以“两线”为原则优化“响应”效率

为避免技术没有内驱力快速恢复服务,导致响应低效问题,需要定义“两线”告知原则,“两线”分别是风险告警线责任告警线
风险告警线是以传统的技术推进方式,推动研发、运维、测试快速响应;当技术响应或处置超时,将风险告警提级为责任告警,告知业务影响范围,由业务单位负责人协同推动。

第四:以“三图”为手段提升“处置”效果

为避免风险定因慢,设计“三图”提升定因效率,“三图”分别是风险图、拓扑图与时序图
风险图指出了风险的来源方向,分为“东南西北中”五个方面,分别是东向竞争、西向变更、南向依赖、北向流量、内部缺陷;
拓扑图指出了风险的位置,在复杂的拓扑关系中,结合风险信号快速找到存在问题的节点;
时序图指出了风险的初因,结合前面两张图和技术专家经验,通过时序序列分析,判断风险源头,找到“第一片雪花”。

第五:以“TKS”为驱动提升大运维体系

风险处置的结束不是可用性运营的终点,而是带来了一次发现新知识的机会。
为避免任务式驱动,应全面复盘每个风险,提炼为可用性运营的一般性方法。可用性运营的载体可称为“TKS”,分别是工具、知识和服务。通过根因分析和复盘整改,持续优化“链路”、“两率”、“两线”和“三图”。
总结来说,可用性运营既要聚焦当下存在的矛盾,也要预判未来发展的趋势。不断以问题为导向,持续通过PDCA循环优化纳管、监测、响应、处置、复盘五大环节,以TKS为抓手撬动可用性运营各环节迭代升级,通过对人员、资源、技术、过程四位一体变革,完善可用性运营体系,支撑业务高水平发展。

 来源   作者:数字浙江技术运营有限公司运维部部长 成增存 ,原文标题为《可用性运营的一般性方法》转载请注明来源

,由END好文推荐Valuable Articles


数据要素信息参考(2024年第32期:8.12—8.18)

央企首家,中国移动已悄悄实现数据资产入表

自然资源部:数据为王、应用为本、创新为要、安全为基

中纪委深挖!彻查资产评估造假,数据资产评估需提高警惕

实习生招募丨加入我们,一起探索数据要素的无限可能!

素材来源官方媒体/网络新闻
继续滑动看下一个
数据要素社
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存