查看原文
其他

公有云的挂掉

hotcan 热罐小角 2022-07-03

点击蓝字关注,一起探讨更好玩的IT世界

 

今天上午华为云挂了,其实不是全都挂了,只是控制面板无法登录,虚拟机有的好有的坏,对不同的客户有着不同的影响。

 



在我10年的云经验里,几乎遇到了所有公有云的挂过,不管是AWS,Azure还是阿里云,公有云挂掉就跟所有的车都有过擦擦碰碰一样稀松平常。2017年我还因为AWS挂掉写过另外一篇文章《又挂了,天灾还是人祸?》,当时AWS因为一个脚本错误,导致所有S3停止服务。

 


 

微软也是,Azure有一年因为证书过期,导致无法访问。还有像阿里云,光纤被挖断导致无法访问,UCloud某机房网络断掉导致挂掉,实在是稀松平常。

 

关键不是公有云会不会挂,而是挂了怎么办。这里我们要考虑的其实是三件事:

 


1  公有云肯定比私有机房靠谱  


 

靠几个运维工程师管理的机房水平一定比公有云大规模的管理水平要低得多。不过宕机这事情就跟抽彩票一样,风火水电加上无脑程序员的代码,随便踩个坑都会导致系统宕机,常在河边走肯定会湿鞋。

 




2  公有云的靠谱程度的量化指标叫做服务等级协议(SLA)


 

虽然公有云会挂,但是总比自己玩靠谱。量化的指标叫做服务等级协议,Service Level Agreement, 我曾经有过一篇文章叫《关于SLA,你到底知多少》,放在阿里的云栖社区https://yq.aliyun.com/articles/2647,具体分析了各家厂商SLA的细节,以及出了问题怎么找云厂商索赔。

 

云厂商一般都对大部分产品提供月度99.95%的SLA,也就是每个月宕机时间不超过21.6分钟。也有99.9%或者99.99%的,从技术角度而言,提高SLA要么增加巨大的成本,要么就是吹牛皮,我也就看到银行系统有99.99%,或者99.999%的年度SLA,但是成本都是成倍增加的,华为这次宕机,应该是超过了20分钟,肯定这个月的SLA不能满足了,不知道他们会赔多少钱。

 

说到赔钱,各厂商也是五花八门的玩法,比如SLA有保证在线时间的,也有保证数据不丢失的,但是万一出了事情,谁说了算,损失赔多少,就需要非常专业的服务提供商了。大部分云MSP都提供这样的服务,作为一个中立的第三方,为客户提供保障,比如我们这种。

 



3  多云的选择可以进一步提高靠谱程度  


 

除非你是银行这样的超级土豪,可以玩两地三中心这种牛逼哄哄的架构。举个例子来说,也就是你买三辆车,开一辆,坐一辆,再拿一辆看着开心。不玩这种土豪架构,早晚会遇到云服务中心宕机的事情。当然就算砸了那么多钱玩两地三中心,还是有极小概率遇到宕机。


不是那么超级土豪的客户选择的策略大部分是多云。多云的策略主要有:

a  公有云和私有云结合的混合云

b  多公有云

c  单一公有云,多区域

 



以上三种,按土豪程度依次下降,当然如果特别土豪也可以同时选择两种或者三种都选,成本相应大幅增加。

 

一般我们遇到的非超级土豪客户都是在a,b,c里面选择一种,来保障应用的靠谱程度,提高SLA,毕竟宕机的损失是不可能通过公有云的厂商全赔回来的。

 

选择公私结合的a方案主要是对安全和网络速度有顾虑,当然也有自己私有云都建完了,不能晒太阳的思路,又想要用到云的弹性的。这种架构有很多成熟的解决方案,比如Azure Stack,AWS Outpost,阿里飞天等等。VMware,IBM(Redhat),Nutanix等等厂商也有相应的软件方案。

 

多公有云的b策略主要是IT能力比较强的客户,或者是聘用了我们这种云MSP的客户,从流程,技术内外各种结合,把应用放在不同的公有云上。

 

单一公有云多区域的c策略其实是所有公有云厂商推荐的策略,毕竟他们自己也不能保证自己的区域不出问题,所以推荐大家分散风险,同时也能给自己家的云增加一笔收入,何乐而不为。这对我们这种Cloud MSP来说,是比较基础的架构。

 

 

其实公有云机房宕机不算啥,我看好多评论说是什么见证历史。我看大家是觉得最近历史见证多了么,这点小事算什么见证历史,真是大惊小怪。Ray Dalio还觉得最近各种熔断是见证历史,然后他把时间跨度放到100年以后,发现这都不是事,还是我们见识太少。继续埋头踏踏实实好好工作,为祖国健康工作50年吧。

 

 



我下午又登录到华为云的管理界面上,发现已经都恢复了,世界还是一样平静。


END


曾今,伏案只识技术世界

而后,抬头遍历创业之艰

现如今

不惑之年

以创业者眼光,再探技术世界

长按二维码关注,一起窥探云上世界

🔻


关于作者

Hotcan,80后技术老炮儿

云计算和数字化技术的创业者

创业公司被收购之后,负责云和数字化转型业务





历史文章




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存