微软宕机：财报感冒又打了个喷嚏

Original 科技小熊猫共识粉碎机

2024-11-30

关注共识粉碎机，获取历史讨论会纪要

文：小熊猫

继上上周微软操作系统相关服务被Crowdstrike带挂了之后，微软今天又发生了一次大规模宕机。恰逢微软昨天业绩，相当于感冒之后又打了一个喷嚏。

受到影响的产品情况是怎样的？

主要是Office 365及多个地区的Azure服务，造成的结果是服务终端和网络访问拥塞（变慢）。"We're currently investigating access issues and degraded performance with multiple Microsoft 365 services and features. More information can be found under MO842351 in the admin center..." 中断时间大概在数小时，目前部分应用已经恢复，还有少量还在恢复中。

主要原因是什么？

从微软披露的一些信息来看，是受到了DDOS攻击。（所以这次和Crowdstrike没关系了，这次是微软自己的问题）

DDOS攻击（全称为分布式拒绝服务攻击，Distributed Denial of Service），是一种非常常见的网络攻击手段。

攻击者通过控制多个计算机系统，在短时间内向目标服务器、服务或网络发送大量的请求，以超出其处理能力（即这种激增超过了 Azure Front Door 组件和 Azure CDN的处理能力，导致间歇性错误、超时和延迟峰值），导致目标系统无法正常提供服务。简单来说，就是坏人在短时间内运了巨量的垃圾堵住了家门口，导致正常想去拜访的人不能够进入访问。

现在不能确定是对于Azure某个租户的攻击所导致的平台“抖动”（就是想打击一片区域的某栋建筑，打击方式选择用核弹，把整个区域给轰掉了，导致很多无辜的建筑受到影响）。还是有针对整个平台的攻击（目的就是炸毁平台，但是有这个动机的坏人也不多）。

DDOS攻击原理介绍

解决方法？

1. 简单点，直接关闭访问端口（但是这个会对业务造成影响），除非防御的成本承担不起，很多客户会放弃进行防御，换个IP重开

2. 把垃圾访问和正常访问分流到多个流量池中，然后对这些流量进行清洗，筛选出正常的访问流量，再把正常流量导给接受访问的服务器

谁的责任？

1. 微软有保证平台服务稳定的责任，大规模服务中断和降速的责任归咎于微软是大概率的。但是在网络安全这里会有防御不住的地方。就好像大家正常觉得保障安全应该装个好的防盗门，可以防盗，但是对方偏偏放了颗核弹。云厂商一般会通过SLA违约进行赔偿，但是这个赔偿额度不会很大。（想看下微软最近的SLA，但是非常遗憾，这个服务还没有恢复）

2. 如果这个事情是由于客户引发的，微软对这个单个客户没有责任。因为大规模防御DDOS是一个单独的服务。客户一般会和云服务厂商在服务开始前商定好，如果遇到DDOS攻击时候，最高的保障在大多攻击之内，云服务厂商需要帮助进行防御（当然也要为这个防御值付费），如果想保证更高的攻击下的业务使用，需要额外付费（简单来说就是加带宽，但是加的越多需要给防御DDOS的成本越高），如果攻击流量超过上限，又不愿意付费的话，云厂商可以停止服务。

和Crowdstrike之前宕机的差异是什么（请点击：Crowdstrike事件回顾）？

1. DDOS是个发生非常高频的网络攻击形态，来看Cloudflare的数据（第一大通过反向CDN实现抗DDOS服务的厂商），一个季度处理了超过400万次DDos 攻击，（合计10.2 trllion 请求和57P流量）；很多客户，比如说游戏厂商（尤其是类似棋牌游戏等），经常会遇到这种攻击（很多是来自于竞争对手雇佣的黑客，毕竟阻断了别人的服务就是帮助了自己），已经遇到麻了