其他
阿里云故障,仅是运维操作失误?
6月27日,阿里云出现大范围故障,今天凌晨,阿里云官方微博公布了故障的原因,直接原因是由于"运维操作失误",改进措施是"复盘改进自动化运维技术和发布验证流程"。
能坦诚的公布问题,而不是用系统抖动或者光纤挖断之类的词来敷衍大家,这一点值得肯定。
除了公告提到的增强发布流程验证之外,重新审视系统整体的隔离保护体系我觉得也值得一做。故障的时间偏长,暴露了对突发问题处理手段及预案的匮乏。
一个不断演进的系统,出现问题不可避免,反复的强调或者追求不出问题未必是最佳的方向,让团队具备快速解决问题的能力通常来说更加可行。出了问题后,只要有相应的手段来隔断问题的范围(类似大楼里面的防火门),减少对非故障模块的干扰,通常不会对用户整体造成干扰。
从昨天的情况来看,要么就没有防火门的设计,要么系统有类似的机制,但是处理人员不能熟练地启用。如果是前者,则需要重新审视整体架构,如果是后者,那就是团队内部需要反思的问题。
本文由 Tim (微博 @TimYang)投稿,转载本文请注明出处,技术原创及架构实践文章,欢迎通过公众号菜单「联系我们」进行投稿。
高可用架构
改变互联网的构建方式
长按二维码 关注「高可用架构」公众号