Azure 挂了：云被雷击垮了；已持续 22 个小时

云头条 2018-11-06

微软公司的Azure公共云近日算是被真正的云搞垮了，因为该公司将周二导致美国用户无法正常使用几项服务的一起故障归咎于“恶劣天气”。

微软表示，位于得克萨斯州的美国中南部数据中心遭到了雷电风暴，结果散热系统出现了故障，迫使该公司关闭了许多服务器和系统，以防遭到更严重的损坏。

微软在Azure状态页面上的一份声明中表示：“美国中南部的数据中心附近发生了一起恶劣的天气事件，包括雷击。这导致电源电压升高，从而影响了散热系统。确保数据和硬件完整性的自动化数据中心程序立即生效，关键硬件进入了有条不紊的断电过程。”

开始故障时Azure状态页面甚至一度无法打开：

散热系统是现代数据中心的一个重要组成部分，因为散热系统是消除在一个封闭的地方紧密堆叠在一起的成千上万台服务器产生的高温所必不可少的。简而言之，如果这个系统出了故障，所有系统都将随之停运。

因此，如果温度上升到超过安全水平，像微软这样的公司落实了自动关闭数据中心机器的程序。这是保护微软数据中心投资的重要措施，但是对云客户来说也带来了很大的不便。

微软提到的恶劣天气很可能与飓风戈登有关，这场1级风暴目前正在得克萨斯州海岸的附近兜转。

微软表示，这起故障已影响了许多Azure云服务，包括Visual Studio Team服务。停运的其他服务包括Azure Active Directory身份管理服务和基于云的生产力套件Office 365。

Visual Studio Team Services小组补充道：“由于一些内部基础设施依赖Azure云服务，美国中南部地区以外的企业组织的客户所用的持续集成/持续交付（CI/CD）工作流程和仪表板也可能受到了影响。”

专家们表示，这一事件向使用云服务的企业组织敲响了警钟：说到运行云端的关键工作负载，只有傻瓜才会依赖单单一家提供商。

Mimecast有限公司的网络弹性专家彼得•班纳姆（Pete Banham）说：“今天Azure发生的事件再一次清楚地表明，企业组织需要做好自己的冗余机制，而不是依靠单单一家提供商。”

Constellation研究公司的首席分析师兼副总裁霍尔格•米勒（Holger Mueller）表示，不过，该事件也给了希望避免将来发生此类事件的微软一个深刻的教训。

米勒说：“这次事件深刻地提醒人们，即使对于像微软这等规模的IaaS提供商来说，要保持数据中心正常运行有多难。闪电、洪水、飓风、大雪和暴雨都会影响数据中心的可用性。所以一个关键的问题是，微软从中汲取了什么教训？它如何在将来能避免类似的故障？这给了希望加强云基础设施的公司一个深刻的教训。”

在发布的最新消息中，微软表示它在努力使所有受影响的服务重新上线，不过截止本文发稿时，这项工作显然仍在进行之中。

微软表示：“工程师已成功地恢复了数据中心的电源。此外，工程师已恢复了大部分受影响的网络设备。虽然一些服务开始出现了恢复如初的迹象，但抢救工作仍在进行之中。”