查看原文
其他

数据库又双叒叕被删了!

2017-06-11 杨建荣 DBAplus社群


作者介绍

杨建荣:DBAplus社群联合发起人。现就职于搜狐畅游,Oracle ACE、YEP成员,近10年数据库开发和运维经验,擅长电信数据业务、数据库迁移和性能调优。持Oracle 10G OCP,OCM,MySQL OCP认证,《Oracle DBA工作笔记》作者。


当你看到这篇文章的时候,估计整个IT圈子已经沸腾了,因为当你尝试打开Verelox的首页时,会看到这样的一封道歉信,Verelox是真摊上大事了。



可以从道歉信看出来,Verelox这家公司也确实很无奈,正如道歉信中所说,数据已经被一个工程师删除了,注意上面说的可是all customer data,所以事故非常严重,当然Verelox在最后也提了三个建议,后期的处理我们也会持续关注。


这个时候,你的第一个疑问可能是:Verelox是家什么公司?我拿出Twitter的介绍来。



真如上图所言,它是在荷兰海牙的一家云主机商。它成立于2014,以VPS、服务器出租和托管为主。它的VPS基于KVM架构,分HDD和SSD,有加拿大、荷兰、法国三处数据中心,也支持Windows系统,支持按小时和月付。它的产品和服务非常实惠,月付的1GB内存服务也仅2.99欧元(汇率换算过来22.7元左右),听起来确实非常让人心动了。


但是事故确实发生了,也就意味着墨菲定律对我们的工作来说如影随形,万万不可马虎。


根据行业规范和标准,一般公司都会根据系统的重要程度,根据RTO、RPO的要求制定相应的数据库备份和容灾规范,如金融行业保监会、银监会、证监会都下发了明确的规范规定RTO、RPO时间。关于RTO和RPO的级别可以参考如下。


RTO从低到高分为5个级别,其中1级为最高级别。



RPO从低到高分为5个级别,其中1级为最高级别。

 


至于Verelox的备份情况我们就不揣测了,我们就来看看备份容灾的重要性,还是拿数据说话。


据美国德克萨斯州大学的调查显示,只有6%的公司可以在数据丢失后生存下来,43%的公司会彻底关门,51%的公司会在两年之内消失。


同时多年前Gartner公司的一项调查表明,在灾难之后,如果无法在14天内恢复信息作业,有75%的公司业务会完全停顿,43%的公司再也无法重新开业,20%的企业在两年之内被迫宣告破产。


上云的态度,你到底在走还是在跑?


我们现在都在说大数据,云计算,感觉不这么做就是在走下坡路。没错,现在已经是数据时代,数据为王,但是在前进的过程中,我们对数据的处理方式已经有了很多成熟的方案,但是数据的安全和备份我们是否也有相应的投入,万丈高楼平地起,地基打不好,真的很危险。


对于云计算,很多公司都会想法设法往这个方向来努力,我记得在4月份的亚太用户组峰会中的文章后面,我们发起了一个投票,对于核心业务上云的态度,有近60%的人持观望态度,有近30%的人是支持的态度,而反对的只有10%左右。



而实际上云的效果如何呢,这就是一个更值得思考的问题了,因为它不单单是一个技术问题,有一天我看了下面一幅很有深意的图,感触很深。



对于云计算,你是持有什么态度来对待,你是否根据自身的情况来做了最适合的方案?我们不要一味模仿BAT,因为绝大多数公司还不具有BAT那样的体量,技术方案之外是否能够做到技术的自主可控。云是趋势和未来,但是云不是银弹,灾备和高可用还是需要考虑,这一点上你是在稳步的走还是在跑,需要好好考虑一下。


你的备份做好了吗?


两个辛酸的故事说给你听:


面对数据灾难,故障,似乎总是有无穷无尽的话题可说,很多人会把它一个小故事来看,其实看同行遭殃或者犯错,我总觉得拿他们的痛处来说事儿有一种伤口上撒盐的味道,所以我就以自己为反面教材,把这些年我犯过的错误也和大家聊聊,每一个事故的背后都是一段难忘的回忆,有汗水有苦累,有些错误可能会直接影响你的职业生涯。


在我的印象中,让我第一次对于数据备份非常重视,是一次在客户现场批量修改测试系统的密码,按照流程是要做一个简单的备份,当时感觉这个步骤真是多余,但是我还是这么做了,当我批量更新密码之后,我突然意识到我连接到的是竟然是客户的线上环境,当时汗就下来了,不过好在有了备份,这个问题几乎没有造成影响,但是我心里七上八下之外算是对于备份有了敬畏之心


而另外一件事情就更加揪心了,我们很早就有了自动化平台的工具,而且考虑到安全和架构特点,对于测试环境和生产环境指定了不同的数据模板,测试环境是独立schema的数据分布策略,而生产系统是做了水平拆分,而且根据模板对应不同级别的操作权限,对应用服务打数据补丁都可以半自动化完成。


但是有一天,我们在操作生产系统的时候竟然选错了模板,然后整个生产的数据操作都受到了影响,影响有多大呢,因为我们几乎无法确定数据的边界影响,因为当时考虑了分布式的架构,所以就如同一个传染病一般,整个生产的数据都弄乱了,运维里的一个不成文的准则就是数据可以丢,但是不能乱,丢了可以补,乱了修复起来的成本和复杂度极高。最后还是救命稻草,我们通过完整的备份做了基于时间点的回退,损失了大概10多分钟的数据。


当时这个案例之后我们做了深刻的lesson learn,自动化运维虽然好,但是你如果大步快走,出了问题,肯定是很大的问题,所以这个时候还是那句老话,备份重于一切,定期的恢复演练更加重于备份。如果数据恢复不了,备份就没有任何意义了。

 

对于运维人员的重视,其实是个伪命题


最后我想说的就是对于运维人员的重视问题,我也是运维人,说实话其实我们很受伤。


简单来说分为以下四点:

1.    运维工作中会有着大量的琐碎事务,有一部分是重复性的任务。

2.    运维工作不能直接创造价值,简单来说就是运维部门就是只花钱不挣钱

3.    运维工作很多都需要7*24小时支持,在节假日或者大清早,大晚上他们总有一些事情需要处理,当然我敢肯定其实他们也不想这样。

4.    没有问题的时候大家其乐融融,出了问题我们就是传说中的背锅侠。


当然以上的几条也不是单纯的吐槽和吐苦水,我们也得给出一些解决方案和思路。


在DAMS峰会中你会找到答案,2017年7月7日相约上海滩,长江学者,中美双博士后领衔,腾讯云携手一众互联网大咖,浙江移动,平安科技带你看传统行业互联网化的进程。当然我们希望听到你的声音,在下面留言吧。


最后,测手气的时候到了!

DAMS峰会 普通票赠票5张,优惠码“dbaplus”

抢票通道:www.dams.org.cn


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存