出现事故后我们怎么复盘分析
背景:博客为什么没人用了
当正式环境修复完事故后,我们要对事故进⾏复盘,⽬的是清楚知道为什么会发⽣这个事故?是否有建⽴防范机制?下次是否可以避免在犯同样的问题?
⼀、分析过程
分析事故我们分3步:(可⽤⽩板进⾏)
1.阐述事实
2.逻辑推理
3.改善措施
1. 阐述事实
以时间节点,对故障发⽣过程进⾏追溯,记录每个时间节点、哪些⼈在做哪些事、产出是什么。
2. 逻辑推理
对每个问题点(如时间节点有疑惑),进⾏⼀个分析推理,也可以进⾏⼀个反向矩阵,如难以查引发事故的原因,可通过推理,在细致还原事故过程,在提供论据来验证你的推理,直到查到根本原因。
3. 结论总结
证明了推理的正确性,在对每隔根本原因做有对应的改善措施,最少有7项