查看原文
其他

【早说】回顾文档与及时响应

情封 前端早读课 2024-01-30

今日《早说时间》来自《程序员的 README》提到的事故文档。有的人怕承担责任写的文档会写各种外因,不会去发现自己到底有没问题。有兴趣的童鞋可以加入《早说时间》晨读群,可加 vx:zhgb_f2er

早说从这开始~~

【早说】事故处理

事故回顾文档

处理事故的 On-Cal1 工程师会负责起草一份回顾总结的文档其中应记录发生了什么、学到了什么,以及需要做什么来防止事故再次发生。有很多撰写回顾总结的方法和模板。一个很好的例子是 Atlassian 的回顾总结模板。该模板有一些章节和例子,描述了事故的前因后果、故障、影响、检测、响应、恢复、时间表、根本原因、经验教训和所需的纠正措施。

任何回顾总结文档的关键部分是根本原因分析 (root-causeanalysis,RCA)。根本原因分析是利用 5 个 “Why” 进行的。这种技巧非常简单:不断地追问为什么。 以一个问题为例,问它为什么会发生。当你得到一个答案时,再问一次为什么;一直问为什么,直到你找到根本原因。

【早说】有效沟通:What、Why、How

随时响应

“随时响应” 并不意味着立即放下你正在做的事情来解决最新的问题。对于许多请求,完全可以先承认你已经收到了询问,并回答你应该在什么时候能看一下这个问题:“我现在正在协助其他人,我可以在 15 分钟内给您答复吗?” 一般来说,人们希望 on-call 工程师能做出快速反应,但不一定需要快速解决问题。

继续滑动看下一个

【早说】回顾文档与及时响应

向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存