查看原文
其他

因 BGP 配置错误,美国网络大瘫痪:全球 web 流量下降 3.5%

IT服务圈儿 2022-09-10

IT服务圈儿

有温度、有态度的IT自媒体平台

转载自公众号:云头条(ID:YunTouTiao)


CenturyLink的一个BGP路由错误已引起整个互联网出现连锁反应,导致无数与互联网连接的服务瘫痪,比如Cloudflare、AWS、Garmin、Steam、Discord和Blizzard等众多服务。



这些故障从美国东部标准时间上午6点左右开始,当时客户们开始报告美国发生了影响CenturyLink服务的大规模故障。



在Twitter上搜索一番,可以发现突然大量用户纷纷吐槽,抱怨无数联网服务不是性能低下就是完全中断,比如Blizzard、Steam、Discord、Roblox、Cloudflare、Hulu、Slink、Reddit和Amazon AWS等众多服务。




CenturyLink声称,其Level3 CA3数据中心导致了这起故障,正在调查此问题。


CenturyLink的状态页面显示:“我们的技术团队正在调查影响CA3数据中心一些服务的一个问题。确保我们服务的可靠性是我们的重中之重。随着这起事件不断进展,我们会继续提供状态更新。如果您需要进一步的支持,可以通过help@ctl.io联系我们。”


此后该故障已得到了解决,服务在缓慢恢复,一些地区恢复所花的时间比其他地区要久。


AWS 恢复消息


BGP路由问题导致故障


据受影响客户的无数报告显示,今天的问题是CenturyLink的BGP路由问题引起的,CenturyLink的路由没有正确地传输互联网的一些部分。
为了使互联网正常运行,互联网服务提供商(ISP)、数据中心和网络提供商通过BGP路由协议来通告它们路由和管理的IP地址。
由于这主要是一种基于信任的系统,大型ISP开始通告它们并不管理的IP地址范围的路由时,会导致全球性故障和性能问题。
CenturyLink似乎在BGP路由方面犯了一个错误,从而导致了当今的大范围故障。

大概10分钟前Centurylink似乎撤回了无效的BGP路由,并修复了其网络问题。作为一项防范措施,我们暂时任由我们的AS3356会话处于宕机状态,以防Centurylink又出问题。我们会继续全天密切关注事态。


2020年8月30日10点04分GMT,CenturyLink发现一个问题影响多个市场的用户。IP网络操作中心(NOC)参与其中,初步研究发现,一个存在问题的flowspec通告阻止边界网关协议(BGP)跨整个CenturyLink网络的多个网络单元建立起来。IP NOC部署了全局配置变更,以阻止存在问题的flowspec通告,这让BGP得以开始正确建立起来。变更实施到整个网络中后,IP NOC观察到引发警报的所有相关服务解除警报、服务回到稳定状态。
CenturyLink中断导致全球Web流量下降了3.5%。






*版权声明:转载文章和图片均来自公开网络,版权归作者本人所有,推送文章除非无法确认,我们都会注明作者和来源。如果出处有误或侵犯到原作者权益,请与我们联系删除或授权事宜。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存