查看原文
其他

2020年,给你敲响警钟的十大软件质量事故

Test Ninja 软件质量报道 2022-11-04
回顾刚刚过去的2020年,所发生的软件质量事故竟然也不少,不仅发生在金融、航空等关键领域,还紧跟时代步伐,和席卷全球的新冠疫情、世界瞩目的美国大选息息相关。
在2020年,新冠疫情的到来改变了人们工作、沟通的方式,也让互联网和软件在我们每个人的生活中占据了更加重要的位置。有时候甚至是因为成为了必需品,而给一部分人带来不便。不知你有没有遇到过独自出行的老人,因为手机没有安装微信、支付宝而不能出示健康码,因此被餐厅拒之门外、甚至不能及时登上飞机。

事故关键词:美国大选
2020年的美国大选吸引了全世界的目光,在大选计算选票期间也发生了一起软件系统的故障:在选举之夜的报道称,特朗普以3000票之差输掉了密歇根州安特里姆县[I]。安特里姆县使用多米尼(Dominion)投票系统的机器和软件。法官下令对22台Dominion投票机进行检查,证实投票机系统的程序出现问题,将6000张川普选票转给了拜登。在随后的重新手工计票后宣布特朗普获胜。选举官员后来说,这个错误是因为一名职员没有更新软件。至于到底是故意还是人为,无从得知。但事件本身表明,软件的故障可以影响大选的结果。

事故关键词:疫情
和COVID-19直接有关的软件事故是英国国家卫生服务系统(NHS)[II]该系统的新冠病毒应用程序出现软件设置错误,导致数千人在接触冠状病毒感染者后没有被告知自我隔离。这是一起由软件应用没有及时更新导致的事故,该应用的设置算法在最初的软件发布后一两个月都没有更新。而在这段时间里,风险阈值被提高了,但没有在软件中反映出来,因此没有警告人们潜在的感染危险。
同时,由于疫情,人们对于基于互联网的沟通、协作方式的需求激增,让互联网和软件服务在短时间内遭遇了巨大的挑战,2020年出现的软件质量事故也不可避免地有这方面的原因。一个非常典型的例子就是美国云视频会议企业Zoom在2020年3月份爆出的用户视频大规模泄露的信息安全事故
因为疫情的缘故,美国知名的云视频会议公司Zoom在2020年初的日均在线用户数在3个月内从1000万暴涨到超过2亿人,帮助众多企业、学校、医疗及政府等机构的业务得以正常运转。但用户数的激增给Zoom带来了很大挑战:Zoom的平台主要是为企业用户设计,这些用户通常会在使用Zoom服务前就做好充分的安全评估和审查。但由于最近新型冠状病毒疫情的影响,使用Zoom服务的用户从企业扩展到个人,应用场景也变得越来越广,除了工作场景,还包括在线学习、社交等,Zoom表示没有预料到这样的快速变化。
据一位安全研究员发现,用户视频遭大规模泄露,云存储上至少有1.5万个Zoom会议视频,可以供任何人观看。这些视频还广泛存在于YouTube等视频平台。2020年4月1日,Zoom 创始人及CEO Eric Yuan向就这一安全隐私事故向广大用户发表了一封诚恳的道歉信[III],并且说明了该公司在过去、当下和未来在提高信息安全方面做的工作。
 
事故关键词:航空
航空事故无小事,大家对于波音737MAX机型的两起坠毁事故一定还记忆犹新,这一机型在2017年投入商用,随后在18年和19年发生两起致命坠机事故,共造成346人丧生,导致这个机型飞机不得不停飞。经历了长达18个月的事故调查,终于在2020年9月份公布了最终的调查报告[IV],报告中写道:“最大的几起坠机事件……是波音工程师一系列错误的技术假设、波音管理层缺乏透明度以及联邦航空局监管严重不足的可怕结果。”在罗列的5条原因中,有两点和软件质量有关:
  • 错误的设计和性能假设。波音对737 MAX的关键技术做出了根本性错误的假设,最明显的就是MCAS软件。MCAS是一种旨在在特定条件下自动压低飞机机头的软件。波音还预计,基本上不知道MCAS存在的飞行员将能够减轻任何潜在的故障。
  • 隐匿的文化。波音拒绝向美国联邦航空局(FAA)、其客户和737 MAX飞行员提供关键信息,包括内部测试数据。该数据显示,波音测试飞行员花了超过10秒的时间来诊断和应对飞行模拟器中无人指挥的MCAS激活,该飞行员称这种情况是“灾难性的”。而美国联邦航空局的指导方针是假定飞行员在4秒内就对这种情况作出反应。
软件系统的问题还导致了波音公司的载人飞船首飞失败。19年12月20日19时36分,美国波音公司的新一代载人飞船Starliner“星际客机”自卡纳维拉尔角发射升空,执行该飞船的第一次飞行测试任务,即OFT(Orbital Flight Test,轨道飞行测试)。按照计划,飞船在这次无人试飞中将与国际空间站对接,为宇航员送上圣诞礼物。然而,在运载火箭工作结束后,飞船出现故障,最终无法与国际空间站对接,并于北京时间12月22日20时58分提前返回地面。
2020年2月28日,波音公司承认[V]该公司测试载人飞船星际客机软件系统的程序存在严重缺陷在测试阶段只是将整个飞行过程分成了几个小单元分别进行测试,但没有对飞船进行完整的、端到端的集成测试 (覆盖从发射、国际空间站对接、着陆的全流程)。
上面两起事故都发生在2020年之前,但事故的调查报告是在2020年公布的,因此本文也对此做了盘点。真正发生在2020年的航空业的软件事故需要提一下伦敦希思罗国际机场(Healthrow International airport)发生的软件故障[VI]。希思罗国际机场是欧洲最繁忙的机场,在2019年的旅客吞吐量超过8000万人次。2月17日,该机场的IT系统出现了故障,影响了登机牌和值机系统,超过120个航班被取消,并造成许多其它航班2-3小时的延误,滞留在机场的乘客无法获得航班信息。

事故关键词:金融
软件系统不及时进行维护和更新的风险是巨大的,首当其冲是由于缺乏安全更新增加了黑客发现并利用安全漏洞的可能性。其次是与其它系统的兼容性问题。软件系统不进行维护升级,和新的操作系统、新的设备,以及新的第三方软件应用的集成或兼容就会有问题。
2020年8月,花旗集团由于使用一个过时的软件系统造成了近I10亿美元的损失。彭博新闻(Bloomberg News)报道称[VII],引发故障的贷款支付系统还是在20世纪90年代安装的产品。
同样也是金融市场,2020年4月20日,A股开盘后市场中多个指数出现异常[VIII],其中:沪深300指数低开逾2%,中证1000指数高开逾6%,中证200指数大跌逾4%,300医药指数大跌逾16……据业内IT人士猜测称,这种情况一定是系统出现了问题,想起周六配合etf申赎测试,很有可能是测试环境没有切回来导致的bug。该故障一直持续到中午,到下午开盘时才恢复正常。估计是利用中午休市的时间窗口从测试环境切换回生产环境。

 事故关键词:互联网服务
2020年在互联网服务行业中也发生了几起软件质量事故。
2月23日微盟恶性删库事件,微盟研发中心运维部核心运维人员通过VPN登入服务器,并对线上生产环境进行了恶意破坏,包括数据库备份服务器。生产环境和数据直到2月28日才完全恢复,暴露了该公司在公司管理和技术方面的诸多问题[IX]
9月28日,Microsoft Azure Active Directory(Azure AD)发生全局中断[X],导致许多用户无法验证Azure AD并连接到受服务保护的任何内容。这意味着客户无法访问Azure门户、Microsoft团队、Microsoft 365和其他受Azure AD保护的服务。这是一次影响广泛的服务中断事件,影响到全球所有地区的Microsoft和Azure客户。不止是这次,微软云服务在3月和10月也发生了服务中断的事故。
11月26日,Amazon Web Services(AWS)发生了一次重大的宕机事故[XI],影响了包括Adobe,Roku,Twilio和Flickr在内的多家依赖AWS云服务的公司。此次云服务中断事故所幸仅影响到北美地区使用者。纽约市的MTA也受到影响,导致其地铁网站和应用程序出现问题。亚马逊回应称,此次中断核心是由于AWS Kinesis,这是AWS旗下一款产品,可用于实时聚合和分析大量数据。尽管许多受影响的服务并未使用AWS Kinesis,但亚马逊指,Kinesis问题实际上在企业内部造成问题,其他27种AWS产品也出现接连出现错误和中断。
12月14日当天凌晨,Google服务器突然遭遇全球大面积故障[XII],在宕机的45分钟内,谷歌旗下的多项服务无法访问,包括Gmail邮箱,谷歌日历、视频网站YouTube等热门应用均受到严重影响。故障发生一个小时左右之后,绝大部分用户已经基本恢复服务。该公司透露,这次宕机并没有遭到外部攻击,而是因为内部存储配额问题,导致用于登录用户账户的身份验证系统发生故障。

总结
近年来最严重的软件故障包括勒索软件攻击、IT系统中断和用户数据泄露,影响了全球一些最大的公司和数百万用户。万物互联的时代正在到来,一个软件故障可能导致整个城市的交通瘫痪和恶性交通事故,也可能导致用户数据的大批泄露。真心希望在新的一年里,各行各业能够更加重视软件质量保障,重视信息安全,减少软件造成的重大事故。

考资料:
  1. https://edition.cnn.com/2020/12/16/politics/antrim-county-michigan-error-trump-tweets-fact-check/index.html
  2. https://www.designnews.com/design-software/2020-software-failures-linked-covid-19
  3.  致Zoom用户的一封信
  4. https://transportation.house.gov/news/press-releases/after-18-month-investigation-chairs-defazio-and-larsen-release-final-committee-report-on-boeing-737-max 
  5. https://www.engadget.com/2020-02-29-boeing-starliner-failed-first-flight-report.html
  6. https://www.ifn.news/posts/it-failure-at-london-heathrow-airport-causes-major-disruption/
  7. https://www.bloomberg.com/news/articles/2020-08-25/citi-s-900-million-misfire-happened-in-midst-of-software-switch
  8.  A股市场中多个指数出现异常

  9.  “微盟系统遭恶性删库事件” 深度报告

  10. https://build5nines.com/azure-ad-is-down-blocking-access-to-azure-teams-and-more-september-28-2020-microsoft-azure-outage/ 

  11. https://www.sohu.com/a/434446534_100161396

  12. https://new.qq.com/rain/a/20201215A0CJ4300

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存