数据库又双叒叕被删了！

原创 2017-06-11 杨建荣 DBAplus社群

作者介绍

杨建荣：DBAplus社群联合发起人。现就职于搜狐畅游，Oracle ACE、YEP成员，近10年数据库开发和运维经验，擅长电信数据业务、数据库迁移和性能调优。持Oracle 10G OCP，OCM，MySQL OCP认证，《Oracle DBA工作笔记》作者。

当你看到这篇文章的时候，估计整个IT圈子已经沸腾了，因为当你尝试打开Verelox的首页时，会看到这样的一封道歉信，Verelox是真摊上大事了。

可以从道歉信看出来，Verelox这家公司也确实很无奈，正如道歉信中所说，数据已经被一个工程师删除了，注意上面说的可是all customer data,所以事故非常严重，当然Verelox在最后也提了三个建议，后期的处理我们也会持续关注。

这个时候，你的第一个疑问可能是：Verelox是家什么公司？我拿出Twitter的介绍来。

真如上图所言，它是在荷兰海牙的一家云主机商。它成立于2014，以VPS、服务器出租和托管为主。它的VPS基于KVM架构，分HDD和SSD，有加拿大、荷兰、法国三处数据中心，也支持Windows系统，支持按小时和月付。它的产品和服务非常实惠，月付的1GB内存服务也仅2.99欧元（汇率换算过来22.7元左右），听起来确实非常让人心动了。

但是事故确实发生了，也就意味着墨菲定律对我们的工作来说如影随形，万万不可马虎。

根据行业规范和标准，一般公司都会根据系统的重要程度，根据RTO、RPO的要求制定相应的数据库备份和容灾规范，如金融行业保监会、银监会、证监会都下发了明确的规范规定RTO、RPO时间。关于RTO和RPO的级别可以参考如下。

RTO从低到高分为5个级别，其中1级为最高级别。

RPO从低到高分为5个级别，其中1级为最高级别。

至于Verelox的备份情况我们就不揣测了，我们就来看看备份容灾的重要性，还是拿数据说话。

据美国德克萨斯州大学的调查显示，只有6%的公司可以在数据丢失后生存下来，43%的公司会彻底关门，51%的公司会在两年之内消失。

同时多年前Gartner公司的一项调查表明，在灾难之后，如果无法在14天内恢复信息作业，有75%的公司业务会完全停顿，43%的公司再也无法重新开业，20%的企业在两年之内被迫宣告破产。

上云的态度，你到底在走还是在跑？

我们现在都在说大数据，云计算，感觉不这么做就是在走下坡路。没错，现在已经是数据时代，数据为王，但是在前进的过程中，我们对数据的处理方式已经有了很多成熟的方案，但是数据的安全和备份我们是否也有相应的投入，万丈高楼平地起，地基打不好，真的很危险。

对于云计算，很多公司都会想法设法往这个方向来努力，我记得在4月份的亚太用户组峰会中的文章后面，我们发起了一个投票，对于核心业务上云的态度，有近60%的人持观望态度，有近30%的人是支持的态度，而反对的只有10%左右。

而实际上云的效果如何呢，这就是一个更值得思考的问题了，因为它不单单是一个技术问题，有一天我看了下面一幅很有深意的图，感触很深。

对于云计算，你是持有什么态度来对待，你是否根据自身的情况来做了最适合的方案？我们不要一味模仿BAT，因为绝大多数公司还不具有BAT那样的体量，技术方案之外是否能够做到技术的自主可控。云是趋势和未来，但是云不是银弹，灾备和高可用还是需要考虑，这一点上你是在稳步的走还是在跑，需要好好考虑一下。

你的备份做好了吗？

两个辛酸的故事说给你听：

面对数据灾难，故障，似乎总是有无穷无尽的话题可说，很多人会把它一个小故事来看，其实看同行遭殃或者犯错，我总觉得拿他们的痛处来说事儿有一种伤口上撒盐的味道，所以我就以自己为反面教材，把这些年我犯过的错误也和大家聊聊，每一个事故的背后都是一段难忘的回忆，有汗水有苦累，有些错误可能会直接影响你的职业生涯。

在我的印象中，让我第一次对于数据备份非常重视，是一次在客户现场批量修改测试系统的密码，按照流程是要做一个简单的备份，当时感觉这个步骤真是多余，但是我还是这么做了，当我批量更新密码之后，我突然意识到我连接到的是竟然是客户的线上环境，当时汗就下来了，不过好在有了备份，这个问题几乎没有造成影响，但是我心里七上八下之外算是对于备份有了敬畏之心。

而另外一件事情就更加揪心了，我们很早就有了自动化平台的工具，而且考虑到安全和架构特点，对于测试环境和生产环境指定了不同的数据模板，测试环境是独立schema的数据分布策略，而生产系统是做了水平拆分，而且根据模板对应不同级别的操作权限，对应用服务打数据补丁都可以半自动化完成。

但是有一天，我们在操作生产系统的时候竟然选错了模板，然后整个生产的数据操作都受到了影响，影响有多大呢，因为我们几乎无法确定数据的边界影响，因为当时考虑了分布式的架构，所以就如同一个传染病一般，整个生产的数据都弄乱了，运维里的一个不成文的准则就是数据可以丢，但是不能乱，丢了可以补，乱了修复起来的成本和复杂度极高。最后还是救命稻草，我们通过完整的备份做了基于时间点的回退，损失了大概10多分钟的数据。

当时这个案例之后我们做了深刻的lesson learn,自动化运维虽然好，但是你如果大步快走，出了问题，肯定是很大的问题，所以这个时候还是那句老话，备份重于一切，定期的恢复演练更加重于备份。如果数据恢复不了，备份就没有任何意义了。

对于运维人员的重视，其实是个伪命题

最后我想说的就是对于运维人员的重视问题，我也是运维人，说实话其实我们很受伤。

简单来说分为以下四点：

1. 运维工作中会有着大量的琐碎事务，有一部分是重复性的任务。

2. 运维工作不能直接创造价值，简单来说就是运维部门就是只花钱不挣钱

3. 运维工作很多都需要7*24小时支持，在节假日或者大清早，大晚上他们总有一些事情需要处理，当然我敢肯定其实他们也不想这样。

4. 没有问题的时候大家其乐融融，出了问题我们就是传说中的背锅侠。

当然以上的几条也不是单纯的吐槽和吐苦水，我们也得给出一些解决方案和思路。

在DAMS峰会中你会找到答案，2017年7月7日相约上海滩，长江学者，中美双博士后领衔，腾讯云携手一众互联网大咖，浙江移动，平安科技带你看传统行业互联网化的进程。当然我们希望听到你的声音，在下面留言吧。

最后，测手气的时候到了！

DAMS峰会 普通票赠票5张，优惠码“dbaplus”

抢票通道：www.dams.org.cn

震撼！上海开放Google、Meta等国际平台，中国数字化迈出历史性一步！

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

二姐李思林早知道李玟有轻生的念头，居然没一点防备措施！

61岁上海大爷相亲：年轻貌美，婚后AA，不能吃太多