其他
Digital Ocean上周宕机5小时,都是数据库删除惹的祸!
控制面板失灵,但服务器保持在线状态。
上周,云托管服务提供商Digital Ocean重蹈GitLab在2个月前的覆辙:因粗心大意而出乱子,删除了一个生产级数据库,结果引发了持续五个小时的故障。
不像GitLab遭遇的那次灾难,Digital Ocean“由工程师引起的配置错误”并不包括备份故障。
Digital Oecan在对“不可接受”的故障事件表示道歉时解释,这次故障导致其控制面板和API失灵,因而害得客户无法创建新的虚拟服务器(即所谓的“Droplet”)。
谢天谢地,现有的虚拟服务器保持在线状态。
事后查明,问题的根源是某人的自动测试过程是使用生产级登录信息(production credential)配置的,这家公司也认为不应该犯这种低级错误。
“在收到初始警报的三分钟内,我们发现我们的主数据库已经被删除,”道歉帖子声称,这触发了该公司从时间延迟的数据库副本恢复的过程。
除了对主数据库的访问进行新的限制外,该公司表示还对网络进行了升级,加快数据库服务器连接的速度。
这给系统管理员上了一堂宝贵的课:如果你不测试备份,就没有备份,只好靠老天保佑了。很显然,Digital Oecan确实平时在测试备份,这可帮了它大忙。
相关阅读:
GitLab.com崩溃,rm -rf 删了300GB 数据;要命的是,备份偏偏失效
Cloudflare程序员把 >= 写成了 == 导致内存泄漏,害得互联网半壁江山风雨飘摇