查看原文
其他

【阿里】云计算史诗级大翻车来了

冯若航 非法加冯 2023-11-12

双十一第二天,就在刚刚,我刷着淘宝聊天记录,发现图片刷不出来了,一看原来是阿里云故障了。这可真是太尴尬了,刚开完云栖大会吹完牛逼,刚办完双十一,就捅了这么大篓子,这下声望可是丢干净了。还好是双十一过完再翻车,不然这杀伤力就更大了。

于是马上去查看了一下查阅阿里云的健康状态页(https://status.aliyun.com/#/)发现服务还都是“正常的”。 Status Page 更新不及时,17:44 确认的故障,差不多到六点半才更新出来故障状态。我估计在服务全挂的状态下,想更新这个也得手忙脚乱一下。(可以想像普通用户甚至可能连故障通告都没法子发)

看 Status Page 发现不是一个可用区的故障,而是全球大故障。好像没有幸免的区域。包括金融云,政务云。也没有一个幸免的服务,清一色全挂。内部消息是 Auth 服务挂了,导致所有服务全灭。

我尝试登陆了一下 DNS 解析的控制台,404了。用户甚至连切个流量到别的地方降级的可能都没有了。毕竟阿里系自家的服务都在等死。


我感到十分震撼,因为就我从业以来,还没有亲自见到过这种规模的云计算故障。各个技术群里充满着焦虑愤怒,因为这种情况下,用户的自救可能性为零。只能等待阿里云恢复。

《云RDS:从删库到跑路


截止到文章发出,阿里云健康页上还没有恢复。这绝对是 CEO 下课级别的故障了,不过阿里云现在应该是没有 CEO 的状态,且看这事如何收场吧。

顺带一提,阿里云大部分服务的 SLA[1] 是 95, 99, 99+ 三档(比如ECS 99.975% ,RDS 99.99),想要全赔你本月的消费,一个月内需要宕机超过 7个小时。如果这次挂了一个小时多,你已经可以获赔本月此项费用的 10% 了。当然,比起用户的损失来,这只能说连安慰都算不上了。



前天刚发了一篇 《阿里云的羊毛抓紧薅,五千的云服务器三百拿》 ,帮忙推广了一下阿里云的羊毛,今天就这样了,让我也感觉很无奈啊。果然云厂商不禁夸,一夸就掉链子,还是得骂。欢迎大家回味一下《云计算泥石流》系列文章,重新认识一下公有云。(https://vonng.com/cn/blog/cloud/)


云厂商眼中的客户:又穷又闲又缺爱

是时候放弃云计算了吗?

下云奥德赛

FinOps的终点是下云

云计算为啥还没挖沙子赚钱?

云SLA是不是安慰剂?

云盘是不是杀猪盘?

云数据库是不是智商税?

范式转移:从云到本地优先

杀猪盘真的降价了吗?

腾讯云CDN:从入门到放弃

炮打 RDS,Pigsty v2.0 发布



References

[1] SLA: https://help.aliyun.com/document_detail/56773.htm


继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存