终究没有人在意一家民营企业的生死

去泰国看了一场“成人秀”,画面尴尬到让人窒息.....

【少儿禁】马建《亮出你的舌苔或空空荡荡》

网友建议:远离举报者李X夫!

网曝黑人留学生侮辱中国女生是“母狗”,网友愤慨:不欢迎洋垃圾

生成图片,分享到微信朋友圈

自由微信安卓APP发布,立即下载! | 提交文章网址
此内容因违规无法查看 此内容因言论自由合法查看
文章于 2018年9月29日 被检测为删除。
查看原文

IBM 大型机的固件 bug 导致存储阵列出现故障:美国纳税日瘫痪 11 个小时


秘密的IBM脚本原本可防止美国纳税日持续11个小时的故障!两次机会本可以避开大型机驱动器阵列的bug,可惜都错过了。



2018年4月美国纳税日故障归因于IBM磁盘阵列出现缺陷,本来有两次是可以避免的,第一次使用更新颖的微码包,第二次使用秘密的IBM脚本。


在2018纳税年的最后一个申报日4月17日,网上纳税申报系统瘫痪了11个小时,美国国税局(IRS)不得不将申报期延长了一天。


纳税申报系统基于大型机,使用几个高可用性磁盘阵列,按照企业存储服务(ESS)合同的条款规定,优利系统是主承包商,IBM是次承包商。


据美国政府本月发布的一份报告显示,其中一个磁盘阵列因缓存溢出而出现“热启动”(又叫暖开机)后出现了死锁状况,在美国东部标准时间(EST)02:24向IRS的管理人员发出警报,并在4月17日02:57 EST向IBM发出了call-home警报消息。



令人惊讶的是,它被归类为“严重级别3”警报,理应在下一个工作日结束前作出响应。


到03:30 EST,IRS的更多系统受到了影响;后来受影响的系统越来越多,让IRS苦不堪言,到07:45 EST共有59个系统中招,09:45 EST宣布“重大故障”。13:40 EST开发出了一个补救脚本,有限的纳税申报工作于15:00开始,17:00申报工作完全恢复如初。


实际上,IBM在9个月前的2017年6月就发现了问题根源的固件bug,并于2017年11月7日向公众发布了微码修复程序微码包88.24.6.0。


为什么IRS没有打补丁?


从这份报告来看,没有哪一方的工作是到位的。


IRS信息技术部门的技术人员每月都与主承包商优利系统和次承包商IBM碰头开会,讨论IRS大型机的最新微码包。但是据报告显示,优利系统建议不该在2018年纳税年申报期间安装88.24.6.0,因为该微码包还没有经过足够的测试。


这不无理由,优利系统显然有一项“非正式”政策:要求微码包在安装到IRS的设备之前已“在生产环境中运行了450个机器周(注:机器周是指代码运行的周数乘以安装代码的机器数量。)”


IRS同意使用之前的微码包88.23.20.0,该版本被认为“更稳定”。


然而,在那次会议后一个月即2018年1月,即IRS故障前四个月,另一个IBM客户遇到了同样的bug。IBM开发并部署了修复该bug的预防性脚本。但蓝色巨人没有将此事告知IRS或优利系统。


单一故障点


报告还谈到了另外几点,这几点使IRS和承包商的一些IT决策看起来不够到位。首先,被归为一级存储环境的IRS纳税申报系统居然没有自动故障切换或内置冗余机制,目前是单一故障点。这种情况现正在修复中。


其次,承包商(优利系统)在故障那天没有达到几个服务级别目标(SLO):



报告建议IRS应将每月一次的微码包会议正式确定下来(11月份那次会议没有关于所作决定的会议纪要或文件记载),向企业存储服务承包商优利系统寻求赔偿,并且对其合同进行调整。


总而言之,纳税日故障是一起令人遗憾的事故:人为错误、不够到位的程序以及被系统的单一故障点所伤害。


文章出处:云头条

你可能喜欢

谷歌云又瘫痪:因新功能 bug 被触发

Intel CPU 又曝 8 个大 BUG ....这次更危险....

B站被曝安全Bug致个人账户被黑客控制 回应已修复

    文章有问题?点此查看未经处理的缓存