崩了!怎么又崩了?
编辑:媛媛 / 数智猿
怪事年年有,今年特别多。最近,阿里云系统又崩了,一度冲上热搜。
11月27日,阿里云部分地域云数据库控制台访问出现异常。
据悉,从当日09:16起,阿里云监控发现北京、上海、杭州、深圳、青岛、香港以及美东、美西地域的数据库产品(RDS、PolarDB、Redis等)的控制台和OpenAPI访问出现异常,实例运行不受影响。经过工程师紧急处理,访问异常问题已于当日10:58恢复。
此次受影响产品广泛,尤其是云数据库是重灾区,包括云原生数据仓库AnalyticDB PostgreSQL版、图数据库、云原生内存数据库Tair、云数据库Redis版、云原生关系型数据库PolarDB、云数据库专属集群、云数据库MySQL版、云原生数据仓库AnalyticDB MySQL版、云原生分布式数据库PolarDB-X、云数据库ClickHouse、云原生多模数据库Lindorm、云数据库PostgreSQL版、云数据库SQL Server版、云数据库MongoDB版、云数据库HBase版、数据库自治服务、数据库备份。
受影响地域包括,华北2(北京)、华东2(上海)、华东1(杭州)、华南1(深圳)、华北1(青岛)、中国香港、美国(硅谷)、美国(弗吉尼亚)。
值得指出的是,本月,这已经是阿里云第二次发生类似事件。
近年来,阿里云多次发生服务异常。
2018年6月,阿里云曾遭遇了近半个小时的重大技术故障。当时,阿里云官方解释称:“我们在运维操作中犯了一个错误,导致一些客户访问阿里云官网控制台和使用部分产品功能出现问题。”
2019年3月3日凌晨,有网友在微博上称阿里云疑似宕机了。这也使得华北地区许多互联网公司收到波及,导致APP和网站全部瘫痪。对此,阿里云方面回应称,经过紧急排查处理后逐步恢复服务。对于本次故障,阿里云将按照SLA协议(服务合同)尽快处理赔偿事宜。
2022年12月18日,阿里云在次爆发了香港Region可用区C的大规模服务中断事件,导致影响了多个想搞及澳门站点收到波及。对此,阿里云官方坦言:“这对于很多客户的业务产生重大影响,也是阿里云运营十多年来持续时间最长的一次大规模故障。”
进入2023年,阿里云的崩溃问题变得愈发严重,一个月内发生两次崩溃事件更是前所未有。首先是在10月23日,语雀经历了将近8个小时的宕机,服务器故障导致在线文档和官网无法打开。语雀官方发布声明称,这是由于网络故障引起的,不会影响用户数据,也不会导致数据丢失。对于这种说辞,用户纷纷表示质疑。
随后在11月12日,阿里云底层授权模块接近3个小时的服务不可用,涉及到阿里云盘、淘宝、咸鱼、钉钉、语雀等等产品,持续时长约为3.5个小时。值得注意的是,除却C端产品,公司的B短客户也受到了不小的影响。
有媒体指出,阿里云在阿里系历史上罕见的受到了波及,受影响的区域包括中国内地、中国香港以及印度、美国、英国、韩国、日本等多个国家和地区。根据数据显示,阿里云的企业用户超过300万家,这些客户因为云服务不可用,业务运营可能面临全面瘫痪。
对此,阿里云在后续发布的公告中称,当天(11月12日)17:44起,阿里云监控发现云产品控制台访问及API调用出现异常,阿里云工程师在紧急接入排查。工程师通过分批重启组件服务,绝大部分地域控制台服务已经恢复访问。19:20分左右,经工程师紧急处理后,阿里旗下淘宝、钉钉、阿里云盘等APP全面恢复。随后21:11,受到影响的云产品均已恢复,因故障影响部分云产品的数据可能存在延迟推送情况,不影响业务的正常运行。
屋漏偏风连夜雨,就在双11崩溃事件还没过去多久之后,阿里云于27日,部分地域云数据库控制台访问出现了异常。
作为国内最大的云服务提供商之一,为何如此频繁的遭遇宕机?相信很多人对此心里都很想问一句“阿里云,你没事吧?”
通过分析阿里云近几次的故障,我们试图来找到一些共性的逻辑。
在整个云计算体系中,哪些地方是薄弱环节,哪些地方容易问题呢?
需要说明的是,系统的复杂性和规模本身就是一个核心因素。
作为国内最大的云服务提供商,阿里云拥有庞大的基础设施和复杂的服务体系,这自然增加了系统出错的可能性。
每一个组件,无论是网络、存储还是计算资源,都是潜在的故障点。当系统规模扩大时,即便是小的错误或故障也可能引发连锁反应,导致整个服务的中断。
更进一步,底层架构的稳定性也是一个关键因素。底层架构问题,如数据库和授权模块的故障,会直接影响到云服务的可用性。这类问题通常比较复杂,需要专业的技术团队来及时识别和解决。
此外,网络故障同样是一个关键问题,正如2023年10月的语雀宕机事件所展示的那样。网络是云服务的生命线,任何网络层面的问题都可能导致广泛的服务中断。这不仅关系到网络本身的稳定性和可靠性,还涉及到对网络架构的合理设计和持续的性能监控。
值得指出的是,人为因素在这些故障中也扮演了重要角色。例如,2018年的技术故障就是由于运维操作失误引起的。
即使在高度自动化的环境中,人为操作仍然是不可忽视的风险因素。这强调了在复杂系统中进行精细化管理和操作的重要性,以及培训和监督运维人员的必要性。
当然,虽然阿里云多次出现故障,但有一点还是值得肯定的,那就是在面对这些挑战时,阿里云展示了其强大的应急响应和恢复能力。快速的故障诊断和有效的恢复措施,对于保持服务稳定性至关重要。这不仅需要先进的技术支持,还需要周到的预案规划和危机管理策略。
虽然近期阿里云比较水逆,但云计算事故远不止他一家。即使是AWS、微软云、谷歌云这些全球巨头,也会经常被类似的事故所坤然。
然而,云计算给客户灌输的这样一个愿景:资源弹性扩展,容灾备份,让系统高可用,避免由于系统故障导致的业务中断。
既然云服务也经常中断,那这个故事还能继续降下去么?
需要指出的是,任何事情都不是绝对的,云计算所宣称的高可用,并不是说绝对不发生事故,而是尽量减少事故发生,且事故发生后可以快速恢复。
事实上,在企业上云之前,本地化系统就没故障么?肯定有,而且只会更多。云厂商每次事故都会上新闻热搜,往往是稀缺的事情才会上新闻,这恰好从侧面证明云服务的稳定性。
当然,我们更希望从正面来证明云服务的稳定性。类似的事故,即使不能杜绝,也要尽量减少。
因此,阿里云、腾讯云、百度云等云厂商,还需要继续修炼内功,把当初给客户描绘的愿景不打折扣的实现。
具体来看,可以在以下几个方面着手,提升云服务的稳定性,避免事故导致的业务中断:
基础设施建设应注重冗余和弹性,以确保单一故障点不会导致整个系统瘫痪。这意味着在数据中心设计、网络架构、存储系统等方面都要实施多层次的备份和故障转移机制。
在架构设计方面,采用现代化的软件架构,如微服务、容器化和服务网格,可以提高系统的灵活性和可维护性,降低因架构问题导致的故障风险。
随着新技术的发展,阿里云应不断集成先进的解决方案,如自动化运维工具、机器学习算法等,以提升系统的性能和稳定性。同时,持续优化软件和硬件基础设施,以适应不断变化的需求和挑战。
安全性和风险管理是另一个关键领域,阿里云需要通过严格的安全措施和全面的风险评估来保护其系统免受外部攻击和内部漏洞的影响。这不仅包括物理和网络安全措施,还包括数据加密和访问控制等方面。
对于运维团队而言,其能力和响应速度是确保云服务稳定运行的基石。通过加强培训、实施有效的监控系统和建立快速反应机制,可以确保团队在面对突发情况时能够迅速有效地处理问题。
此外,定期进行系统测试和灾难恢复演练对于预防和准备应对未来的故障至关重要。这不仅有助于检测和修复潜在的问题,还能确保在真正的故障发生时,系统和团队都能迅速有效地响应。
最后,建立有效的客户沟通机制同样至关重要。在服务中断时,及时与客户沟通,提供支持和指导,不仅有助于减轻故障对客户业务的影响,还能增强客户的信任和满意度。
通过持续的努力,我们相信阿里云这样的云厂商,提供的服务会更趋稳定,事故率会得到有效控制。
——END——
数智猿,新一代信息技术产业创新服务媒体。关注以大数据、人工智能、云计算、物联网、半导体、5G等为代表的新一代信息技术;重点对IPO及上市成熟企业在新技术产业应用、产品市场认可度以及企业综合服务能力方面进行研究报道。