查看原文
其他

一个U盘引发的“血案”

就是会搞事情的 杭州美创科技有限公司 2022-10-18


4月26日,一个“风平浪静”的日子

奔波忙碌的4月,难得有一天“得闲”

施工和同事相约公司楼下顺旺基


17:25 ,一通电话,打乱所有节奏

来自驻场同事的“救命call”


“某卫生机构客户数据库服务器挂了!!!”


DBA的天性,神经立马紧绷起来

施工放下筷子,飞奔上楼


此时,心急如焚的客户也飚来了电话

“@@#¥!@#!#业务都停了!@!#!@#*¥¥#%#@”


17:30 施工成功上线,远程核查数据库

发现HIS生产系统rac两个节点“罢工”!

尝试启动,数据库一直报错!


核心数据库怎么会无缘无故“宕机”?

尝试多种方法,依旧找不到根源


此时,距离故障时间,已有近30分钟

HIS等业务系统,是卫生机构运转的“命脉”

业务系统长时间“瘫痪”,数据无法读取,无疑是致命的!


当务之急,先恢复业务系统的正常运行!

咋整??


有容灾系统吗?有!

有数据备份吗?有!


美创灾备系统,是时候展现真正的技术了!


施工当机立断,在征得客户的首肯后

联系灾备工程师“帅哥林”

立刻远程协助客户切换容灾


17:45 开始容灾切换

17:48 切换完毕

17:50 容灾库正式接管


由于交换机缓存没有及时释放,原生产ip飘到容灾主机后没能及时识别,容灾接管耽误了些许时间。尽管有小插曲,但美创容灾在10分钟内迅速接管业务系统,保证了HIS业务系统的正常运行,最大程度上减少客户因业务停滞时间导致无可挽回的损失。(美小创忍不住,竖起了骄傲的大拇指)。


事情并没有结束!好端端,业务系统怎么就崩了?

要知道,容灾系统接管,不是长久之计,关键还是要恢复生产系统。


rac生产系统的两个节点怎么会突然无法工作,总不可能是两台机器都坏了吧!施工登陆数据库后台日志发现,在16:02左右,数据库文件已经出现坏块。


到了16:48,数据库已经彻底不能用了!


这时候查看asm信息,发现DATA数据盘已经不正常!


多年的运维经验给予他一个判断,很有可能是存储出问题了!施工赶紧查看服务器操作系统日志,问题的根源确实在这里!


施工发现,操作系统里面有个移除多路径dm设备报错,这些dm设备是rac生产系统的共享盘。其中的dm-7正是rac数据盘DATA对应的设备,也就是存放生产数据库数据的地方。正是这个移除多路径设备的动作导致生产系统最终损坏。


在这个日志里面,还有一个明显的“信号”!

USB存储设备插入拔出日志提醒!


怎么会有USB存储设备插入到生产服务器???


重新缕下思路:

这是数据盘DATA对应的路径/dev/asm-disk8

下面找到绑定asm-disk8多路径设备的uuid

根据uuid去找相应的多路径设备名

再去看操作系统日志

可以有个较为清晰的判断了:客户将移动硬盘格式化并将其路径添加到了mpathj设备,也就是数据盘所在的位置,这样u盘一拔出也就相当于mpathj设备被移出,而且不止插拔了一次,最终导致数据库不能正常运行。


事后求证,原来客户想用移动硬盘拷贝数据库服务器文件,但是普通移动硬盘插在linux服务器上无法正常识别,于是客户将其进行格式化处理。悲剧发生了,很不巧,格式化后的硬盘与oracle数据库盘相关联,当拔出移动硬盘时,连带数据库盘一起被移除,便出现了数据库报错、失联的状态。

真相终于大白!


剥丝抽茧,一步步探究,尽显美创工程师的钻研精神和责任心。


由于mpatchj设备已经被更改过,再次确认环境的时候数据盘已经彻底掉了,且主机也无法识别被移除多路径设备,施工通宵达旦联系存储工程师重新划盘让生产系统认到多路径设备mpatchj,并修复生产系统数据库。


“帅哥林”再利用美创灾备系统及时将数据库切换回原生产环境中。直到第二日(4月27日)下午,700G生产数据成功恢复到生产系统中,保证了生产系统的安全稳定。



一个U盘引发的“血案”,就问你,还敢在生产库上随便插U盘吗?中肯建议,为了业务连续性,不要在生产库服务器上面插拔并格式化任何存储设备!!


故障处理完了,反观整个事件,试想一下,如果没有灾备系统,业务不能第一时间接管会怎样?如果没有备份数据,数据一经丢失,要付出多大代价?


美创科技容灾备份系统,围绕着数据安全连续性保护,从根本上保证数据一致性,降低灾难发生时的业务停滞时间,同时实现对文件、视频、图片、数据库等定时备份、定期转存,避免因信息系统业务中断导致经济损失、名誉受损,更甚者,重要数据丢失。



阅读推荐


围观

【巡展捷报】美创科技登陆上海、深圳、南昌三大城市,场场爆满!

热文

【巡展捷报】杭州、广州共演 新品发布“双城记”

热文

科学数据,如何科学、安全管理?我国首个科学数据管理办法出炉


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存