查看原文
其他

谷歌与FB全球大宕机原因披露

h4cd 开源中国 2019-04-27

昨天开源中国报导了谷歌和 Facebook 相继出现的全球性大规模宕机事故。现在,事件有了最新的进展,两家科技巨头终于正式回应了各自宕机事故的原因。

要注意的是,虽然两家公司提供的服务都在比较相近的时间内出现了严重的宕机问题,再加上有很多捕风捉影的消息对这次事故作了一些吸人眼球的解读,但这两次宕机事故并无直接关联。实际上,完全是不同的原因导致宕机事故的发生

谷歌

谷歌发布了 12 日大面积服务中断事故的分析报告,指出系 SRE 超载系统使得 Google 云存储错误率提高导致


△服务中断时间是 03-12 18:40-03-12 22:50 (太平洋标准时间)

12日全球各地的许多用户反映使用 Gmail、YouTube、Google Drive、谷歌音乐与谷歌的其它服务时都遇到了问题,包括北美洲、南美洲、欧洲和亚洲的部分地区都受到影响,谷歌随后承认出现故障,谷歌云平台状态页面(Google Cloud Status Dashboard)显示,此次故障影响了谷歌云存储的所有区域

当地时间 14 日,谷歌发布了针对该事件的分析报告。

谷歌表示内部 blob(大型数据对象)存储服务经历了 4 小时 10 分钟的服务中断。

分析了根本原因,其指出在 3 月 11 日,Google SRE 被告警内部 blob 服务使用的元数据的存储资源显著增加;3 月 12 日,为了减少资源使用,SRE 进行了配置更改,其副作用是使系统的关键部分超载以查找 blob 数据的位置,而增加的负载最终导致级联故障

更具体的,12 日 18:40 到 22:50,谷歌内部 blob 存储服务错误率提高,平均错误率为 20%,事件发生时错误率为 31%,用户可见的 Google 服务,包括使用 blob 存储服务的 Gmail、照片和 Google 云硬盘错误率也提高了,如果没有这些服务中内置的缓存和冗余机制极大地降低了用户影响,那么后果会更加严重。

此次事故中,重大的影响包括:Google 云存储的长尾延迟较高,平均错误率为 4.8%,所有存储桶位置和存储类都受到影响,依赖于云存储的 Google 云平台服务也受到影响;Stackdriver Monitoring 在检索历史时间序列数据时出现了高达 5% 的错误率,最近的时间序列数据可用,警报没有受到影响。App Engine 的 Blobstore API 出现了较高的延迟和错误率,在获取 blob 数据时达到峰值 21%,App Engine 部署出现了高达 90% 的错误,从 App Engine 提供静态文件也会出现错误率提升。

谷歌表示非 Google 云平台服务受到的影响将会有单独的事件报告。

对于因此事件受到影响的服务与应用客户,谷歌深表歉意,并表示正在采取措施以提高可用性并防止此类中断再次发生。

Facebook

昨天,Facebook 及旗下产品 Instagram 和 WhatsApp 也遭遇了严重的宕机事故,世界各地的 Facebook 用户都反馈称他们登录 Facebook、Instagram 和 WhatsApp 遇到一些问题,并且也无法发帖。

Facebook 发布消息承认了此次服务中断,虽然表示该事故与 DDoS 无关,但具体原因并未交待。

网络安全管理公司 Netscout 首席工程师 Roland Dobbins 认为此次宕机可能是一个 BGP 路由错误引起的,他表示:“BGP 路由从一家欧洲 ISP 偶然泄露到一家知名的中转 ISP,这家中转 ISP 随后将路由向上传送到一些对待节点或这家中转 ISP 的下游提供商,结果导致访问一些知名互联网公司的服务出现了短暂的异常。”

然而云监控公司 ThousandEyes 则认为这是由内部错误导致的,“因为 Facebook 返回了‘ 500 内部服务器错误码’”。

今天 Facebook 发推文正面回应了此次事故的原因,其表示正是因为服务器配置的改动而导致了此次宕机,并称目前问题已经解决,系统正在恢复。

△Facebook 回应

值得一提的是,Facebook 此次宕机事故是知名宕机追踪网站 Downdectector 有史以来遇到的最严重的一次,Downdetector 的联合创始人 Tom Sanders 表示:“从持续时间来看,这是迄今为止我们在 Downdetector 于 2012 年推出以来所遭遇的最大一次宕机,我们的系统在此次事件中处理了来自最终用户的大约 750 万份问题报告。”

详细内容请查看「阅读原文」


开源中国征稿开始啦!


开源中国 www.oschina.net 是目前备受关注、具有强大影响力的开源技术社区,拥有超过 200 万的开源技术精英。我们传播开源的理念,推广开源项目,为 IT 开发者提供一个发现、使用、并交流开源技术的平台。


现在我们开始对外征稿啦!如果你有优秀的技术文章想要分享,热点的行业资讯需要报道等等,欢迎联系开源中国进行投稿。投稿详情及联系方式请参见:我要投稿


推荐阅读

F5 收购 NGINX

谷歌和 Facebook 相继出现全球性大规模宕机

CSS 宣布支持三角函数,下一步是什么?

Vue.js 作者尤雨溪:开源给了我无价的自由

又是求职季,这份面试宝典送给你

「在看」了吗↓↓↓

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存