擎创动态 | AIOps中统一监控体系的实践分享-2022GOPS·上海站(回顾)
2022年10月29日,第十九届GOPS全球运维大会在上海圆满落下了帷幕。会议上颁布了IT技术领导力年度评选相关奖项,擎创科技荣获2022年度AIOps领域极具影响力产品奖。
此次会议为期两天,共计16个专场,80+演讲嘉宾,擎创科技资深IT运维专家叶瑞于【AIOps最佳实践及解决方案】专场中,带来了由深度实践经验总结而来的《AIOps中统一监控体系的实践分享》。
在一个多月之前的乌镇用户大会上,擎创科技创始人兼CEO杨辰提出了智能运维建设发展相关的“三个阶段、五个统一”理念。
即IT运维从传统走向智慧,应分为三个阶段:数字化运维、智能化运维、智慧化运营。在此发展的过程中,需要把核心目标落在以用户为中心上,通过“五个统一”来支撑实现这三个阶段的逐一达成。
其中,统一监控作为建设路径中的先行者,承担着集中采控、收归离散数据并进行管理分析的重要作用,是为后续数据治理做好铺垫的先决条件。
在不断的实践应用中,擎创认为监控体系建设应以用户场景为中心,依据不同场景的需求分层建设。
● 运维领导需要看到的场景是一体化监控的总览,需要通过总览视角去关注各机构的实时状态,为决策提供依据;
● 对于各专业领域的运维人员来说,更需要的是细分领域的监控,包括应用监控、系统监控、设备监控、网络监控、云监控等,依据不同职能专业搭建相应监控功能,在面对问题时可以及时有效的完成故障根因定位、排障等工作;
● 而各专业领域的运维管理者主要负责规则的制定,包括关联设定、处置流程设定、指标项管理、各类阈值管理等,依据专业领域监控的总体反馈,对规则进行设定或修订,保障运维的高效平稳。
点击查看大图
同样的,对于监控数据而言也需要分层分域的进行治理,进而能够提供给各类消费场景使用,包括集中告警、运营可视化、统一分析等。擎创在建设监控数据的治理体系时,将其分为三层:贴源层、核心层、应用层。
● 贴源层:抓牢数据质量管理,确保核心层的数据质量完整性、时效性、正确性、合规性
● 核心层:重在数据模型管理,构建运维数据骨架、统一跨域数据统计口径,服务上层场景消费
●应用层:关注业务模型管理,统一管理各场景主数据管,可跨场景复用,确保业务场景描述一致
点击查看大图
以监控指标为视角,第一步要进行指标体系的规划,要求是规划范围要全体系要完整,假设在各个层级和专业领域规划了860项指标 接着需要对指标项进行采集,要求采集的数据质量要高,具备时效性、完整性、一致性,假设通过采集合格的指标有730项 再为这些合格的数据配置详细的监控规则,要有高业务覆盖度、强动态检测能力,并且颗粒度和交易维度要细等要求,配置合格的指标剩余513项 最后这些指标要为告警服务,根据相关告警的处置策略,对指标的等级准确性,误报率、漏报率、事件转化率都有相应要求,最终告警准确的指标仅为230项
实践是维持创新的推动力,擎创科技将持续不断的落地更多智能运维建设方法,通过实践创新理论,希望未来能与更多行业客户携手并肩,共探智能运维发展的康庄大道。
擎创科技,Gartner连续推荐的AIOps领域标杆供应商。公司致力于协助企业客户提升对运维数据的洞见能力,优化运维效率,充分体现科技运维对业务运营的影响力。
行业龙头客户的共同选择