查看原文
其他

【早说】事故处理

情封 前端早读课 2024-01-30

今日《早说时间》来自《程序员的 README》提到的在事故处理。要是刚好让你碰到,要及时上报千万不要去隐瞒,有的人会自以为自觉得别人应该不知道这事故。有兴趣的童鞋可以加入《早说时间》晨读群,可加 vx:zhgb_f2er

早说从这开始~~

事故处理是 On-Call 人员最重要的职责。大多数开发人员认为处理事故是为了解决生产问题。解决问题确实很重要,但在关键事故中,第一个目标是减轻问题的影响并恢复服务。第二个目标是捕捉信息,以便以后分析问题是如何发生以及为什么发生的。确定事故的原因,证明它是罪魁祸首,并解决根本问题一一只是你的第三个目标。

事故响应分为以下 5 个阶段

  • 分流 (triage): 工程师必须找到问题,确定其严重性,并确定谁能修复它。

  • 协同 (coordination): 团队 (以及潜在的用户) 必须得到这个问题的通知。如果 On-Call 人员自己不能解决这个问题,他们必须提醒那些能解决的人。

  • 应急方案 (mitigation): 工程师必须尽快让事情稳定下来。缓解并不是长期的修复,你只是在试图 “止血”。问题可以通过回滚一个版本、将故障转移到另一个环境、关闭有问题的特性或增加硬件资源来缓解。

  • 解决方案 (resolution): 在问题得到缓解后,工程师有一些时间来喘口气、深入思考,并为解决问题而努力。工程师将继续调查问题,以确定和解决潜在的问题。一旦眼前的问题得到解决,事故也就得到了解决。

  • 后续行动 (follow-up): 对事故的根本原因一 - 为什么会发生,进行调查。如果事故很严重,就会进行正式的事后调查,或进行回顾性调查。建立后续任务,以防止那个 (或那些) 根本原因的再次出现。团队要寻找流程、工具或文档中的任何漏洞。在所有的后续任务完成之前,相应事故的处理不应该被认为已经结束了。

程序员的 README》蛮建议每一个开发都值得一看的书。有的内容常看常新。 

继续滑动看下一个

【早说】事故处理

向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存