又挂了,天灾还是人祸?
昨夜今晨,AWS S3 US-EAST-1出现了remediating the issue,北美各大网站一片混乱,像什么Quora, Sailthru, Business insider, Giphy还有Slack啥的,都不能访问了。更搞笑的是@awscloud在twitter上也发文说,dashboard没有改变颜色,是因为S3不能访问了,那图标不能更新。
到了PST下午2点10分,AWS宣布S3 fully recovered. aws在2017年的一个大规模问题至此告一段落。
上面这张图是从Techcrunch里复制来的。这次的outage让我想到了很多年前国内有一家银行,因为IT系统的问题,导致几十个小时储户没有办法交易,也就是没法存钱或取钱。随着IT系统越来越庞大和复杂,人类接下去会越来越依赖于人工智能等专业的大型计算机系统,AWS作为全世界最大的公有云服务提供商,一旦出现问题,导致我们的日常生活出现影响。
如果IT系统不工作,我们日常用到的微信微博,Amazon最喜欢用的Alexa,各种IoT,车联网的系统都会出现问题。云计算的口号是让用户向水和电一样来使用IT资源,今天发生的问题其实就是停电了。以前停电的时候,我们还有蜡烛或者自己烧柴油发电,如果公有云服务停了,那还是都备点私有云,实在不行的时候还能撑一下。
这次的S3宕机事件,据不可靠消息的传闻,是因为有个运维的兄弟跑了个脚本关机器,结果写错了,对着所有的S3的机器,然后就没有然后了。所以出来混,迟早要还的,只要云计算需要人来维护,就一定会出问题。管理的水平高,那么问题会少一点,管理水平低,问题会更多。私有云管理的水平跟公有云一定是没法比的,因为成本和规模摆在那里。小公司搞点机房机柜什么的,找个普通IT管理一下,跟亚马逊微软这种巨头找世界上最聪明的人来管大规模的机房,水平完全不一样。所以,从运维的角度而言,一定要找专业的规模化团队来管理,这样才能尽量提高维护的水平。
这年头各种备份,硬件坏导致服务宕机的概率已经很小了,毕竟硬件的可靠性远远大于人的可靠性。所以对于公有云厂商而言,如何避免人祸,是一个绕不过去的问题。当然我们姑且相信他们的SLA是可靠的,但是无论如何从客户的角度而言,需要一个靠谱的运维团队,管理云上的所有系统,在出问题以后能够迅速恢复,这比选哪个云,要重要得多。银行么都大同小异,理财经理的水平才能体现出差别。