又挂了，天灾还是人祸？

Hotcan 热罐小角 2022-07-03

昨夜今晨，AWS S3 US-EAST-1出现了remediating the issue，北美各大网站一片混乱，像什么Quora， Sailthru， Business insider， Giphy还有Slack啥的，都不能访问了。更搞笑的是@awscloud在twitter上也发文说，dashboard没有改变颜色，是因为S3不能访问了，那图标不能更新。

到了PST下午2点10分，AWS宣布S3 fully recovered. aws在2017年的一个大规模问题至此告一段落。

上面这张图是从Techcrunch里复制来的。这次的outage让我想到了很多年前国内有一家银行，因为IT系统的问题，导致几十个小时储户没有办法交易，也就是没法存钱或取钱。随着IT系统越来越庞大和复杂，人类接下去会越来越依赖于人工智能等专业的大型计算机系统，AWS作为全世界最大的公有云服务提供商，一旦出现问题，导致我们的日常生活出现影响。

如果IT系统不工作，我们日常用到的微信微博，Amazon最喜欢用的Alexa，各种IoT，车联网的系统都会出现问题。云计算的口号是让用户向水和电一样来使用IT资源，今天发生的问题其实就是停电了。以前停电的时候，我们还有蜡烛或者自己烧柴油发电，如果公有云服务停了，那还是都备点私有云，实在不行的时候还能撑一下。

这次的S3宕机事件，据不可靠消息的传闻，是因为有个运维的兄弟跑了个脚本关机器，结果写错了，对着所有的S3的机器，然后就没有然后了。所以出来混，迟早要还的，只要云计算需要人来维护，就一定会出问题。管理的水平高，那么问题会少一点，管理水平低，问题会更多。私有云管理的水平跟公有云一定是没法比的，因为成本和规模摆在那里。小公司搞点机房机柜什么的，找个普通IT管理一下，跟亚马逊微软这种巨头找世界上最聪明的人来管大规模的机房，水平完全不一样。所以，从运维的角度而言，一定要找专业的规模化团队来管理，这样才能尽量提高维护的水平。

这年头各种备份，硬件坏导致服务宕机的概率已经很小了，毕竟硬件的可靠性远远大于人的可靠性。所以对于公有云厂商而言，如何避免人祸，是一个绕不过去的问题。当然我们姑且相信他们的SLA是可靠的，但是无论如何从客户的角度而言，需要一个靠谱的运维团队，管理云上的所有系统，在出问题以后能够迅速恢复，这比选哪个云，要重要得多。银行么都大同小异，理财经理的水平才能体现出差别。

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“上海王”柯庆施之死的真相

毕业论文辅导| 你又不是伞，硕士论文|毕业论文|博士论文|课题论文不行就被硬撑了,靠谱的辅导机构才是晴雨伞！

又挂了，天灾还是人祸？

您可能也对以下帖子感兴趣

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“上海王”柯庆施之死的真相

毕业论文辅导| 你又不是伞，硕士论文|毕业论文|博士论文|课题论文不行就被硬撑了,靠谱的辅导机构才是晴雨伞！

生成图片，分享到微信朋友圈

又挂了，天灾还是人祸？

您可能也对以下帖子感兴趣