查看原文
其他

因暴风引发 IDC 停电导致 AWS 瘫了,为今后 AI 运行带来预警

2018-03-03 云头条

亚马逊公司今天遭到了一次严重的云故障事件,这次事件影响了240多项在线服务,其中包括银行Capital One、Atlassian、通讯服务Twilio、Slack和开发者中心BitBucket等主要云客户。


这次故障甚至影响了亚马逊自己的Alexa AI虚拟助理,导致该公司的Echo设备暂时没了动静。


亚马逊称,美国西岸时间今天早上,其广受欢迎的US-East地区一直出现丢包现象,这归因于Direct Connect出现了未经确认的连接问题。这套系统负责将亚马逊的数据中心连接至非亚马逊服务器仓库和场地。AWS表示,其工程师正在竭力解决问题,但未表示估计何时服务可以恢复。


亚马逊在其状态页面上声称:“我们继续努力解决丢包增加的问题,丢包问题影响了AWS Direct Connect连接至US-EAST-1地区的网络。这个问题影响到了来自弗吉尼亚州阿什本的Equinix DC1 - DC6 & DC10 - DC12和来自弗吉尼亚州雷斯顿的CoreSite VA1 & VA2的Direct Connect连接。”


据一家专门监测互联网和网络性能的初创公司ThousandEyes Inc.声称,故障从今天早上开始,源头出在AWS建于弗吉尼亚州阿什本市的一个数据中心。


ThousandEyes公司的产品营销副总裁亚历克斯•亨桑恩-伊韦纳(Alex Henthorne-Iwane)表示:“结果这起事件在互联网上引发了连锁反应,甚至影响了签订服务合约、直接高速连接到AWS的公司。这本是一次大自然的行为,结果殃及到互联网。许多人没有意识到互联网的大部分系统其实离不开像AWS数据中心这样的核心枢纽。一旦它们瘫痪,互联网就随之瘫痪。”


今天的AWS停运也许可以归为“不可抗力”这一类事件,不过对于该公司的AWS Direct这种Connect客户来说,这番解释可能不足以服人。毕竟,他们当初可是为亚马逊所谓的“比基于互联网的连接更稳定更可靠的网络体验”花了高价。


亚马逊花了大半天的时间来抢修故障,该公司宣布:ThousandEyes表示首次发现问题过去了大约八个小时后,Direct Connect就“恢复正常运行”。这等规模的故障对AWS来说并不常见,但也不是未所未闻。AWS服务的上一次重大故障发生在差不多正好一年前,当时导致成百上千个网站瘫痪了大约五个小时。


去年的故障对亚马逊的股价并没有造成太大的影响,今天这次事件同样没有。实际上,亚马逊的股价在当天稳步上涨,可能证明了对亚马逊来说其实不存在负面新闻一说。该公司的股价今天收盘时比上一个收盘价高出了约半个百分点。


Digital Nebula是得克萨斯州奥斯汀一家率先为解决方案提供商创建基于AI的ELE.AI云存储系统的AI初创公司,创始人兼首席执行官约翰•肖(John Shaw)表示,Alexa停运相当于某种预警,表明了在互联网世界下AI和自然语言处理带来的危险。


肖表示,如果AWS将Alexa for Business与斥资10亿美元收购的智能门铃生产商Ring整合起来,故障会导致不法分子闯入使用这种技术的家庭。他说:“这是个巨大问题。如果犯罪分子知道Alexa和Ring宕机了,他们就能闯入你家。”


如果Alexa for Business用于自动驾驶汽车,故障导致了交通事故,问题会变成谁最终来负责。肖说:“是AWS还是保险公司?”


肖表示,可以从这起故障中汲取的教训正是AWS首席技术官沃纳•沃格尔斯(Werner Vogels)高喊的那句口号:为防范故障而构建(Build for failure)。他说:“这表明AWS并没有充分领会到自家首席技术官传达的这个根本性讯息。这次事件也许是人为错误或别的因素造成的;无论根源是什么,AWS都需要解决这个问题,并且为Alexa和Echo开设状态页面。他们需要为防范故障而构建。”


最新消息:亚马逊后来证实了网络问题,该公司把网络问题归咎于目前正横扫美国东海岸的一场强劲的东北风暴造成了数据中心停电。


相关阅读:

中高端IT圈人群,欢迎加入!


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存