查看原文
其他

Digital Ocean上周宕机5小时,都是数据库删除惹的祸!

2017-04-11 云头条

控制面板失灵,但服务器保持在线状态。

 

上周,云托管服务提供商Digital Ocean重蹈GitLab在2个月前的覆辙:因粗心大意而出乱子,删除了一个生产级数据库,结果引发了持续五个小时的故障。


不像GitLab遭遇的那次灾难,Digital Ocean“由工程师引起的配置错误”并不包括备份故障。


Digital Oecan在对“不可接受”的故障事件表示道歉时解释,这次故障导致其控制面板和API失灵,因而害得客户无法创建新的虚拟服务器(即所谓的“Droplet”)。


谢天谢地,现有的虚拟服务器保持在线状态。


事后查明,问题的根源是某人的自动测试过程是使用生产级登录信息(production credential)配置的,这家公司也认为不应该犯这种低级错误。


“在收到初始警报的三分钟内,我们发现我们的主数据库已经被删除,”道歉帖子声称,这触发了该公司从时间延迟的数据库副本恢复的过程。


除了对主数据库的访问进行新的限制外,该公司表示还对网络进行了升级,加快数据库服务器连接的速度。


这给系统管理员上了一堂宝贵的课:如果你不测试备份,就没有备份,只好靠老天保佑了。很显然,Digital Oecan确实平时在测试备份,这可帮了它大忙。


相关阅读:

中高端IT圈人群,欢迎加入!

赏金制:欢迎来爆料!长期有效!

Gitlab从删库到恢复:永久丢失6小时生产数据!

“左耳朵耗子”陈皓:从GITLAB误删除数据库想到的

GitLab想离弃云,但...

GitLab.com崩溃,rm -rf  删了300GB 数据;要命的是,备份偏偏失效

Cloudflare程序员把 >= 写成了 == 导致内存泄漏,害得互联网半壁江山风雨飘摇


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存