碰到“坏盘”,对于每个IT运维人员来说,都是险象环生的心率挑战。某公司的IT运维工程师小张,就在刚入职时,碰到了“坏盘”的心跳时刻。一起来围观小张是怎样应对的吧!(根据SmartX真实售后案例改编)疫情期间加入新公司的小张,要为需求量激增的线上业务部署更多的基础设施资源。虽为超融合新手却也想好好表现一番。小张思考着完善的部署方案,以减小对其他系统造成的影响。挑战比想象的多。小张发现公司采购这套超融合一体机快两年了,正值硬盘故障高发期。(提示:所有硬盘都是消耗品,寿命有限。影响硬盘寿命的因素多种多样,但随着对硬盘的持续读写,硬盘的性能最终都会下降,甚至出现故障,因此都需要更换。根据不完全统计的经验,一块硬盘在持续使用的情况下,其故障出现的高峰期通常在出厂后的第1.5年至第3年之间。提示完毕。)“这不就是蜡烛两头烧吗?”被业务上线需求和硬盘隐患两面夹击的小张,仿佛预见了未来的多个不眠夜。两周后的一天上午,小张在公司看到一系列报警通知。其中最新的一条是:“主机Node97的物理盘/dev/sde出现故障,现处于未挂载状态,可安全拔出。”担心的终于来了,只是严重级别不高。有些疑惑的小张立马给售后打了电话。按以往的经验,要开始做数据恢复。SmartX售后工程师在电话里告诉小张无需担心,在他看到报警通知之前,硬盘上的数据就已经自动恢复到其他硬盘上了,接下来只要换盘就行。售后工程师订购了新盘。因为疫情,人员的出入受到限制,但售后工程师协助“远程闪灯”,帮助小张在当天下午3点成功换盘。当小张看到各硬盘的数据自动重新均衡时,意识到稳定、敏捷的产品和服务,是面对疫情等挑战的强大支撑。小张有了比计划更多的时间,将工作技能与经验用在优化业务平台和其他创新上。那么,在小张收到报警之前,这块硬盘都经历了什么?凌晨4点:SMTX OS系统在后台侦测到这块硬盘存在故障,就立即将其隔离起来。这块硬盘的存储容量会因此被计入失效空间,以避免数据继续写入。同时,这块盘上的数据会被转移到其他健康的盘上。运维人员可以在前台的用户界面上看到相关的报警内容:“主机Node97的物理盘/dev/sde处于不健康状态,系统会自动隔离该盘,并将数据恢复至其他健康物理盘。请勿拔盘。”(提示:用户界面将硬盘称作“物理盘”。也可以通过邮件来收取报警通知,方法是在CloudTower的设置中配置“报警邮件通知”或在SMTX Web控制台的报警中心设置邮件通知。当触发报警或报警自动解除时,系统会发送通知邮件到指定邮件地址。软件功能可能随着版本的更新而发生变化。提示完毕。)事实上,在盘被自动隔离期间,运维人员无需介入操作。但系统仍然提供充分的透明度,帮助运维人员全面掌握系统状态。小贴士:1.什么是物理盘的“不健康状态”?不健康的物理盘,就是我们常说的“坏盘”。从底层技术的角度来说,当对盘的读写出现错误并可立即返回错误,以及对盘的读写请求超时或者不返回时,就认为物理盘处于不健康状态。这种状态的盘会以外观醒目的红色呈现。你也许注意到,红色也包括“亚健康状态”。2.什么是物理盘的“亚健康状态”?亚健康的物理盘,也就是常说的“慢盘”,在界面上也是以红色外观呈现。从底层技术的角度来说,当I/O延迟明显增高,但尚未达到超时状态时,就认为物理盘处于亚健康状态。物理盘的亚健康状态会影响底层存储系统的运行表现,进而影响上层业务系统的流畅性。因此,SmartX软件中的存储系统也会针对亚健康状态进行预警和必要的处理。(SMTX OS 4.0.10新特性)上午6点58分:数据恢复完成,系统将这块盘自动卸载,使其处于未挂载的状态。刚才的报警项也随即被自动解决。此时会显示新的报警通知:“主机Node97的物理盘/dev/sde出现故障,现处于未挂载状态,可安全拔出。”上午8点30分:小张在手机上看到报警邮件通知,立即前往公司。现在他不用再做烦琐的操作,直接换盘就能搞定。(提示:拔出硬盘有数据损坏风险!请联系售后技术支持,或者遵循相关指引来更换硬盘。提示完毕。)重新就绪!系统对于“坏盘”的自动处理能力,以及售后人员无法到现场时也能通过“远程闪灯”来辅助换盘。“敏捷性”不仅仅停留在部署阶段,更深入到了生产和运维环节,也是SmartX产品“生产就绪”的体现。稳定和敏捷,源于思虑周全。SmartX在产品研发阶段,就已经考虑到了异常物理盘类型的多样性,因此您还可以更加高效地维护不同类型与状态的异常物理盘:不健康的物理盘和亚健康的HDD、亚健康的SSD、S.M.A.R.T.检测不通过的物理盘、寿命不足的物理盘、不健康的SSD(包含系统分区)、不健康的SSD(包含主机最后一个系统分区),等等。SmartX为上述状况分别设置了关键信息(报警、物理盘状态、数据恢复情况等)与用户间的接触点(touchpoints)以及接触点间的节奏,旨在最大限度地提升存储系统的保护效率,提供发现和解决问题的良好体验,并由此帮助运维人员在工作中保持良好的状态。这是在基础架构技术背后,“以运维人员为中心”的周全考虑。SmartX相信,技术必须真正围绕使用它的用户,才能发挥出系统性的价值——而“系统性”则是SmartX产品实现“生产就绪”的秘诀。“生产就绪”,不仅是从一开始就能支撑业务系统,更是在年复一年的考验中帮助企业保护其业务,助力企业变得更强大、更敏捷,令企业能应对不可避免的未来挑战,取得长足进步。使用SmartX解决方案构建基础设施,就能令数据中心“生产就绪”,驱动数字化转型。致电了解产品和解决方案:400-116-5559。请在周一至周五上午9点至晚上6点(不含公共节假日)给我们来电,了解SmartX产品服务和解决方案。在留言区说说你最艰难(划掉)优雅的硬盘运维经历吧!