查看原文
其他

阿里云严重故障,钉钉、淘宝、闲鱼、阿里云盘都崩了,阿里系史诗级故障!!

脚本之家 2023-12-27

The following article is from Java技术栈 Author 栈长

将 脚本之家 设为“星标
第一时间收到文章更新

来源 | Java技术栈(ID:javastack)

昨天 17 点多,忙里偷闲正在看了一把 LOL S13 淘汰赛,没想到比赛还没看完朋友圈就已经炸锅了:

朋友圈有人开玩笑说,阿里 35 岁的人是不是都被优化了?还是双 11 后都松懈了?这大周末的还让加班?让不让人省心点。。

这我看完也有点懵 B ,大家还记得上次的语雀重大故障吧,弄了近 8 小时才完全恢复,这刚过去 10 来天,又来?这不是像阿里这样的大厂该有的作为啊!!

这次影响的还不只是语雀,阿里系大部分产品都受到影响,包括:淘宝、阿里云、钉钉、语雀、闲鱼、阿里云盘……

好家伙,一堆产品都上了微博热搜,热度甚至盖过了 S13 半决赛。。

其他影响倒还好,阿里云众多产品都受到了故障影响。。。

LOL 都看完了还没有完全恢复,直到晚上 21:11 分所有云产品才基本恢复正常:

阿里云确认故障原因与某个底层服务组件有关,这么大个故障,居然都没做好各种测试?我也是大写的服!这次故障后,这位运维同学、总监的年终奖怕是没有了。

阿里云服务状态查询网站:

https://status.aliyun.com

写文时阿里云服务显示已恢复正常:

说到云服务器,为了提升企业开发和运营效率,不少公司都会选择云服务器,相信这次事件会给不少使用云服务器的人敲响警钟。

我个人也用云服务器,期间也出现过服务中断的情况,也有惨痛的、折腾死我的情况,所以,为了用户体验,我做任何操作都十分谨慎。。

为了服务稳定性,我总结了以下几个要点:

1、数据备份

不要相信任何平台,数据不在你手里,就不是你的,可能随时找不回,所以,如果要使用云产品,养成定时备份数据的习惯是非常重要的。

数据备份可以是这样:

  • 使用高可用的云产品;
  • 定期对系统盘备份镜像;
  • 做任何敏感运维操作都提前对系统备份镜像;
  • 每天对数据盘进行快照;
  • 手动备份重要数据到其他安全的地方;
  • ……

2、多云策略

不要全部依赖单一云服务提供商,一个平台出现故障,即使是高可用也是无解。可以考虑分布式部署,比如将一部分服务放在阿里云,另一部分放在腾讯云或其他云,这样不至于阿里云故障导致所有服务不可用。

其他云产品也是如此,鸡蛋不要放在一个篮子里。

3、镜像环境 + 灰度发布

可以做一个镜像环境,和线上环境一模一样,系统上线时先在镜像环境上线,如测试没事再在线上环境进行灰度发布,这也不至于影响所有用户吧?

4、应急预案

不管怎么样,处理紧急意外情况的预案还要是有的,提前制定好详细的应急预案,包括数据备份、紧急切换到备用系统等,做好全方位的监控,确保在系统服务中断时,业务能迅速恢复,从而不影响到业务。

所以,要做好应急预案,随时可以回滚,能迅速恢复服务,这是非常重要的,长时间折腾故障分析故障原因对真的不可取,这对企业和用户来说都是灾难。


说说感受:

阿里这个重大故障,就这事确实挺夸张的,我个人也挺想不通,阿里是国内的龙头 IT 大厂,这么大个企业,这么多产品受到这么长时间的故障影响,还一而再再而三的出现重大事故,真的会让不少人失去信心。

云服务器还受这么长时间影响,更不应该啊,想想全中国有多少企业和开发者都在用,任何一个小故障可能都会导致大量企业业务中断,造成重大损失,甚至使公司倒闭。

大家还记得,之前有一家以数据为生存的公司因为云服务器故障导致数据全部丢失的事件吧,数据全丢了,结果公司也倒闭了,所以,记住,鸡蛋不要放在一个篮子里,记得定期对数据进行备份。

最后,鸡蛋不要放在同一个篮子里!!!

  推荐阅读:
  1. 世界上最低调的编程语言,高并发的王者,程序员翻身的秘密武器!
  2. 91年大龄程序员,一年被裁2次,简历彻底花了求职处处碰壁
  3. 为什么学编程都建议不要用拼音命名?
  4. 学了两门编程语言后才知道的一些事
  5. 程序员编程的常见原则,请牢牢记住!
继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存