查看原文
其他

微软宕机:财报感冒又打了个喷嚏

科技小熊猫 共识粉碎机
2024-11-30
关注共识粉碎机,获取历史讨论会纪要

文:小熊猫

继上上周微软操作系统相关服务被Crowdstrike带挂了之后,微软今天又发生了一次大规模宕机。恰逢微软昨天业绩,相当于感冒之后又打了一个喷嚏。


受到影响的产品情况是怎样的?

主要是Office 365及多个地区的Azure服务,造成的结果是服务终端和网络访问拥塞(变慢)。"We're currently investigating access issues and degraded performance with multiple Microsoft 365 services and features. More information can be found under MO842351 in the admin center..." 中断时间大概在数小时,目前部分应用已经恢复,还有少量还在恢复中。


主要原因是什么?

从微软披露的一些信息来看,是受到了DDOS攻击。(所以这次和Crowdstrike没关系了,这次是微软自己的问题)

DDOS攻击(全称为分布式拒绝服务攻击,Distributed Denial of Service),是一种非常常见的网络攻击手段。

攻击者通过控制多个计算机系统,在短时间内向目标服务器、服务或网络发送大量的请求,以超出其处理能力(即这种激增超过了 Azure Front Door 组件和 Azure CDN的处理能力,导致间歇性错误、超时和延迟峰值),导致目标系统无法正常提供服务。简单来说,就是坏人在短时间内运了巨量的垃圾堵住了家门口,导致正常想去拜访的人不能够进入访问。

现在不能确定是对于Azure某个租户的攻击所导致的平台“抖动”(就是想打击一片区域的某栋建筑,打击方式选择用核弹,把整个区域给轰掉了,导致很多无辜的建筑受到影响)。还是有针对整个平台的攻击(目的就是炸毁平台,但是有这个动机的坏人也不多)。

DDOS攻击原理介绍


解决方法?

1. 简单点,直接关闭访问端口(但是这个会对业务造成影响),除非防御的成本承担不起,很多客户会放弃进行防御,换个IP重开
2. 把垃圾访问和正常访问分流到多个流量池中,然后对这些流量进行清洗,筛选出正常的访问流量,再把正常流量导给接受访问的服务器

谁的责任?

1.  微软有保证平台服务稳定的责任,大规模服务中断和降速的责任归咎于微软是大概率的。但是在网络安全这里会有防御不住的地方。就好像大家正常觉得保障安全应该装个好的防盗门,可以防盗,但是对方偏偏放了颗核弹。云厂商一般会通过SLA违约进行赔偿,但是这个赔偿额度不会很大。(想看下微软最近的SLA,但是非常遗憾,这个服务还没有恢复)

2.  如果这个事情是由于客户引发的,微软对这个单个客户没有责任。因为大规模防御DDOS是一个单独的服务。客户一般会和云服务厂商在服务开始前商定好,如果遇到DDOS攻击时候,最高的保障在大多攻击之内,云服务厂商需要帮助进行防御(当然也要为这个防御值付费),如果想保证更高的攻击下的业务使用,需要额外付费(简单来说就是加带宽,但是加的越多需要给防御DDOS的成本越高),如果攻击流量超过上限,又不愿意付费的话,云厂商可以停止服务。


和Crowdstrike之前宕机的差异是什么(请点击:Crowdstrike事件回顾)?

1.  DDOS是个发生非常高频的网络攻击形态,来看Cloudflare数据第一大通过反向CDN实现DDOS服务厂商一个季度处理超过400万次DDos 攻击,(合计10.2 trllion 请求57P流量)很多客户,比如说游戏厂商尤其是类似棋牌游戏经常会遇到这种攻击很多来自于竞争对手雇佣的黑客,毕竟阻断了别人服务就是帮助自己已经遇到麻了

2.  这不是一个因为疏忽或者什么原因的错误。理论上说,只要坏人积攒的垃圾足够多,可以堵住世界上任何一扇门,遇到了核弹可能只能暗自神伤,对于客户来说是一件相对Crowdstrike的事件更容易理解的情况(Crowdstrike,配置下发难道没有灰度?!!!!)
3.  赔付不会很大,一般就是赔偿中断服务期间,付出的服务费的钱(Cloudflare本身的条款限定也比较类似)大规模/诉讼?(Cloudflare现在出现的苗头),这个出现在这次微软的概率非常小,毕竟遇到了被坏人放“核弹”,性质有很大的差别。
总的来讲,不会对Azure和微软有什么长期的不良影响。




【讨论会】

过往的讨论会纪要请参考:

《EP01:AI如何颠覆数据库讨论纪要》
《EP02:AI如何颠覆游戏讨论纪要》
《EP03:生成式广告讨论纪要》
《EP04:AI如何颠覆办公与CRM讨论纪要》
《EP05:AI时代产品经理的新要求讨论纪要》
《EP06:AI如何颠覆网络安全讨论纪要》
《EP07:AI如何颠覆设计流程讨论纪要》
《EP08:AI如何颠覆可观测性工具讨论纪要》
《EP09:如何突破英伟达垄断》
《EP10:AI如何改造传统工业讨论纪要》
《EP11:AI如何改造推荐系统讨论纪要》
《EP12:AI如何重塑教育讨论纪要》
《EP13:OpenAI DevDay带来大变化》
《EP14:到了颠覆AI客服的时候了吗?》
《EP15:RAG带来蓬勃应用生态》
《EP16:GPT4o对实时互动与RTC的影响》
《EP17:AI Coding以及对编程软件的影响》
《EP18:呼叫中心与Voice Agent讨论纪要》

欢迎加入共识粉碎机的活动讨论群,获取更多活动信息



大模型未来三年的十个假设


Data Infra:大模型决战前夜


继续滑动看下一个
共识粉碎机
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存