其他
贝壳找房一站式报警平台建设实践
背景介绍KeMonitor是贝壳找房服务端一站式监控报警平台。2018年~2020年是业务的快速发展阶段,在这期间陆陆续续研发了基于CAT、Prometheus、ELK、Skywalking、以及部分自研专有数据监控平台,大大小小攻击十余个监控系统,各系统均自行建设了各自的报警能力。报警发生之后,一线研发同学就会同时打开多个平台,去看基础设施监控、应用监控、日志等,五花八门的报警也给用户带来了最多的痛点。在此背景下具有一站式体验的KeMonitor平台就应运而生了。在2021年,由贝壳找房人店技术中心牵头,联合了多个部门,针对在报警环节进行了系统性的治理,治理报警的过程中也沉淀了一套完善的报警中心以及配套的报警响应SOP机制,下面会为大家详细介绍整体的建设经验。问题及挑战在2020年年底进行了一次面向公司范围全体研发的用户调研,用户的诉求主要是希望项目组牵头对公司范围的研发侧同学日常收到的报警进行系统性治理。分析用户调研问卷的问题集合,一类是是报警太分散,缺少一站式平台化的能力来系统性的根治报警漏报、报警风暴、误报等问题;另外一大类问题就是在研发习惯层面对于如何补齐监控项以及报警如何治理的经验的缺失。平台治理能力问题主要是涉及到报警的一系列“灵魂拷问”,该如何解决?报警入口/触达太分散,报警不统一五花八门报警太多,每一天,需要很大的精力来响应报警关键的报警漏掉了,没发对人,也没有人及时跟进发给我的的报警,本身就不合理,并不适合我的系统特点,我应该如何治理?技术运营层面问题如何快速推进大家补齐监控?如何形成一套标准的报警处理SOP机制?解决思路报警治理需要按照事前、事中、事后进行全生命周期的管理。事前,主要关注报警的完备度,要尽可能全的补齐监控,这一点我们在今年的健康分技术运营活动,重新梳理定义了监控的范式,建立了一套度量机制来度量报警的完备程度。事中,主要是指报警发生后,要第一时间进行处理——跟进/解决、止损恢复、信息同步通报,也就是对于关键的报警,要做到“件件有着落,事事有回音”,这样才能避免问题处理不及时,转化成故障。事后,主要是针对已经发生的报警,进行总结、复盘解决隐患,持续关注,形成长效机制。基于一线业务研发团队实践中的总结,监控/报警的成熟度,分为三个阶段:初阶:主要对应完善监控/报警,提升覆盖面进阶:主要对应报警规则补全之后,需要对于已经发生的报警,保持关注度,同时要及时识别出来报警的有效性,及时消灭无意义的报警,研发资源是宝贵的,要避免把过多的精力花在处理无意义/无关紧要的报警上。稳定:监控/报警已经体系化,能够召回绝大多数问题,也是一个成熟技术团队良好技术习惯养成的标志之一。对应前两个阶段已经做到位了,系统监控范围已经足够完备,团队内各成员已经养成了良好的技术习惯。同时,组织结构以及系统是会不断迭代演进的,因此还需要持续治理。详细的报警分阶段治理以及报警成熟度模型,如图1所示:图1
2022年2月18日