查看原文
其他

淘宝崩,淘宝崩,淘宝崩完12306崩......

51CTO 51CTO技术栈 2019-04-05

昨天下午,阿里系多款产品短时无法正常运作,大概从下午 15 点 46 左右开始,包括淘宝、天猫、淘宝直播、闲鱼等 App 均出现了“重新加载”字样,直到 15 点 56 分左右,页面逐步恢复正常。


就在刚刚,有网友反映铁路订票系统 12306 网站出现崩溃。记者从铁路客服中心了解到,21 日确收到旅客反映手机 App 无法查询余票信息,目前已上报后台部门核查,正在逐步恢复中,建议旅客过半小时后再试。

要知道,12306 用了阿里云,于是又引起了网友的吐槽:

昨天下午#淘宝崩了#也上了热搜,要知道如今阿里系产品对多少人来说都是不可或缺的,这一崩溃,你说广大网友能不激动么!


于是有网友联想到昨日杭州上空的一声巨响,难道是这一声把阿里震崩了,对此浙江省地震局表示,这个锅咱不背!

也有不想还花呗的网友:

直至 20 日下午 16:23 分,微博@淘宝、@飞猪 发布微博表示:修好了。知情人士称,此次问题,影响阿里系 10 多个产品线,不过具体原因并没有说明!

整体来说,此次崩溃,阿里修复效率非常快,总的时间加起来不到半小时!


有网友戏 3 月为“宕机月”。联想起前段时间阿里云突发的宕机事件,毫无疑问云安全又再次被推到风口浪尖。今天,一起来谈谈宕机背后的云安全问题。


经过十余年的发展,中国的云计算市场已经初具规模,各种新技术、新应用、新场景、新架构成为公有云/私有云平台市场能够保持快速、持续增长的助推器。


目前越来越多的企业将其业务系统、数据部署在云上,云服务器一旦宕机,企业业务必然会受波及。因而安全被各企业视为头等要务。


理论上不存在“永不宕机”的云


事实上,不止是阿里云,其他云服务提供商也都出现过宕机事件。仅 2018 年一年,全球主流云计算厂商曾发生数十起宕机事故。虽然宕机的原因不尽相同,但宕机却时有发生。


据悉,云服务产生故障的原因一般分为两类:

  • 因为误操作导致的问题(其实用不用云服务都有这个问题)。

  • 云平台故障导致的问题。


中国信息通信研究院云计算与大数据研究所所长何宝宏也表示,目前发生的宕机事故约 80% 是因为技术人员操作不规范或误操作导致的,相比于“误操作”,云平台故障的技术问题仅占 20%。


云服务提供商的云平台可提供服务器快照、数据库备份和日志备份等诸多功能,这些功能为企业带来了便利,远比企业自己构建类似的服务简单好用,但是涉及到权限问题就值得思考了。


使用云平台上的账户权限管理时,严格地避免无意或者恶意的“误操作”很重要,因为如果云服务管理权限每个人都有,那么很容易出现“误操作”的问题,所以要严格控制账户管理的权限。


无论是传统的环境,还是云环境,都不能做到绝对的“持续可用”。何宝宏对此表示,理论上任何技术或者服务出现中断都是不可避免的,仅是概率大小的问题。


虽然所有的云服务都不是绝对安全的,没有办法 100% 保证正常的系统。但是大部分情况下,云环境的可用性和可靠性都比传统环境高,这主要是因为云平台的运维更加专业。可见,尽管云会发生故障,但云仍然是值得信任的。


服务可靠性、业务连续性需不断加强


未来云服务或将像水电煤一样成为基础设施。停电 1 分钟,对于一般家庭而言,也许只意味着少看一会儿电视、少吹一会儿空调,但对于企业而言,或许意味着一条生产线的瘫痪、整个生产流程的推倒重来。


同理,云服务器宕机 1 分钟,对于云服务提供商来说是一次运维故障,但对企业而言,或许意味着客户的流失甚至破产,特别是不可逆的故障不是云服务提供商赔偿就能挽回的。


对于频繁的宕机事件,作为企业我们能做的只有为自己数据做好备份,毕竟天有不测风云,有“备”才能无患。


阿里云宕机,对全民都是一个重大影响,希望阿里能保证系统稳定吧,这次 12306 崩了估计运维又要出来背锅了~

精彩文章推荐:

SLA可用性好几个9的阿里云又宕机了......

《都挺好》:你对硅谷程序员是不是有什么误解?

家里Wi-Fi卡爆了?不妨试试这些优化绝招

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存