给阿里云的一封公开信
Editor's Note
会说话的波吉是阿里云香港可用区不可用的受害者, 同时也是云计算服务提供商的CEO. 这种双重角色让他有很独特的视角. 希望大家都从自己的角度参与对这次重大事故的理性讨论, 共同促进行业的良性发展.
The following article is from 会说话的波吉 Author 会说话的波吉
给阿里云的一封公开信
作为一个阿里云的用户,也是这次12.18香港故障的受害者,虽然阿里云的同学已经与我们取得了联系,并且愿意给予在SLA 保障范围内的相应的赔偿,但是我们认为这并不足够,其实今天阿里云并不是只需要给这次故障的受到影响的一个说法,而更重要的是给广大的阿里云用户,乃至于中国所有的云计算用户一个说法。
为什么写这个公开信?
作为一个阿里云的长期用户,这么多年看着阿里云的发展,以及中国公有云的发展,虽然各有艰辛,尤其今年整个疫情和经济的情况,使得大部分中国的公有云厂商日子并不好过。但是,在我的心目中,阿里云还是真正能够代表中国云计算,尤其是公有云发展的最具实力的厂商,故障难以避免,但是在这个故障过程中阿里云所展示出来的不专业才是令人最费解的,如果不能皆有这次故障真正意义上提升云计算的治理和管理水平,其他云计算厂商也不要暗自叫好,事实上你们没有遇到故障,如果没有相应的治理和管理水平,遇到故障未必表现的比阿里云更好。
公开信的目的并不是为了敲打阿里云,而是希望广大的中国云计算厂商能够真正的借由这次阿里云的故障复盘和反思整个过程,提升自己的管理水平,让客户放心,安心,愿意把自己的业务交到云计算厂商的手里,而不是让大家疑惑,甚至开始考虑下云这种倒退的事情,所以如果朋友们觉得在下说得有道理,请积极转发这封公开信。
在此,我仅仅代表个人的意见,向阿里云提出以下几点的要求:
建立可靠的服务状态信息页
这次香港整体出现故障的时候,大家都发现阿里云官网的状态页面上所有香港的可用区和服务都是正常的,并没有显示异常,以至于故障时咨询阿里云相关的同学,都表示不知情,显然整个服务可用性的页面变成了一个摆设,最终到底大家焦急的心情不断去催促阿里云的工程师处理的进度,在疫情严重的当下,估计阿里云支持工程师也不好受,最终他们成为了状态展示的窗口,这种做法极其不专业。并且故障后通过大量的短信告知进行通知,客观上也造成了骚扰。在这个事情上,我想我们有必要要求阿里云严肃的对待这个事情,确保服务状态信息页及时有效。另外其他国内云厂商还有没提供状态页的,包括大量的 SaaS 厂商,也请你们公开或建立自己的服务状态,这种透明是信任的基础。
公开故障具体原因
向全社会公开这次事件背后的技术原因以及复盘过程,PCCW 可用区C的空调故障不能成为这个问题的终点。一个可用区的故障为什么引起了整个香港 Region 的大量服务异常,云计算多 AZ 高可用的逻辑荡然无存,当然天灾人祸,各种故障难以避免,多 AZ 本来就是为了解决这种情况的,显然这次并没有起到效果。我希望阿里云能够真正从技术角度公开的分析复盘这一次故障的原因,从技术或者服务角度给出相应的解决方案。如果是技术架构问题,可以修改升级整个架构,我相信大家也会出谋划策,如果是服务管理原因,也应该提升管理水平。最可怕的是悄悄的希望这个事情慢慢让大家遗忘,最终丧失的是大家对阿里云的信任,尤其对多 AZ 可靠性的疑虑,用户群中也会谣言四起。对于阿里云来说如果不建立公开透明的机制,将无法避免下一次的重大故障,或者让大家进一步无法信任阿里云。而如果再来下一次类似的事件对阿里云来说将万劫不复,这种甚至可能影响公有云在中国的未来前途,作为市场份额第一的阿里云应该做出表率,向社会公开事故原因,透明专业才是打消客户疑虑建立信任的基础。并且能够未来长期执行对于各种大小故障建立公开透明的报告机制,这样才能真正意义上让大家放心。
不要苛责基层员工
不要因为这件事件没弄明白的情况下,处罚每一个基层员工,故障难以避免,在疫情当下,有可能出现故障的时候大家还要拖着病体来解决问题,这可能也是导致这次处理时间偏长的原因(个人猜测)。但我相信那一刻,无论在机房的,还是在面对客户的一线员工是压力最大的,谁都不想故障发生的,而且在我看来这就是一次整体的组织管理出现的问题,处罚基层员工也不会对未来带来任何的帮助。
其他云厂商不要见猎心喜
希望其他云计算厂商不要见猎心喜,很多时候故障都是赶上了是谁就是谁,其实不只是阿里云,中国其他云计算厂商真的建立了非常有效的故障处理管理机制吗?真的能够非常公开透明的公布故障原因吗?甚至很多连个服务状态页都没有(当然一个假的服务状态页更可怕),这些都是可以从阿里云这次事故上身上反思自己的地方,如果你们没有建立这样的体系,那又凭什么向客户保证自己比阿里云做得更好呢?
写在最后
云计算发展到 2022 年,已经不是 10 年前那个新生事物了,而是一种公共设施了,我们中国的云计算提供商其实在单一云产品技术上并没有落后海外同行太多了,在我看来最大的落后还是来自于整个管理思维和管理方式,很多时候在 AWS 故障的时候我们开玩笑说老外加班不容易,所以故障时间长,这个固然是中国云计算的某种优势,但是 AWS 为代表的海外云计算厂商,包括海外的 SaaS 厂商实际上他们可能比中国的云计算厂商们更明白今天云不仅仅是个软件产品,更重要的是一种服务,而服务的背后是一种信任,这种信任应该建立在体系化数字化以及专业性之上,而不是建立在传统意义上的客情关系之上。危机的背后是转机,希望经过这次事件,阿里云能真正意义上升华,中国的其他云厂商,华为云,腾讯云,天翼云等也能看到问题,有则改之无则加勉,真正提供让大家长期信任的云服务。
附录:
其他网友也有类似的感受《我们可以信任阿里云的故障处理吗?》
关于服务状态页(status page),杨攀有一篇非常深入的文章可供大家参考《中国云服务走向全球?先把 Status Page 搞定》