由于网络安全公司CrowdStrike技术更新中的“bug”,导致“微软蓝屏”并引发了全球宕机事故,多地基础设施、服务业遭到严重影响——数千航班被取消、部分金融交易被中断、多个城市医疗服务延迟、特斯拉等大型企业生产线停工……或许是因为万物互联时代“牵一发而动全身”,抑或是微软拥有庞大的客户群体,业界将此事形容为“史上最大规模IT宕机”,甚至堪称“千年虫事件”的加强版。为什么CrowdStrike能凭“一己之力”造成如此大规模影响?此事暴露了哪些安全风险隐患?给互联网行业发展带来哪些启示?从北京时间2024年7月19日(周五)下午2点多开始,全球大量Windows用户出现电脑崩溃、蓝屏死机、无法重启等情况。事发后,网络安全公司CrowdStrike称,收到大量关于Windows电脑出现蓝屏报告,公司工程部已确定该问题与“内容部署”有关。7月21日凌晨,CrowdStrike就全球IT故障发布最新声明称,已了解问题是如何发生的,正在进行彻底的根源分析,以确定逻辑缺陷是如何出现的。CrowdStrike的首席执行官乔治·库尔茨也在社交媒体上表示,此事并非安全事件或网络攻击。据央视新闻报道,该事件已致美国超2000架次航班停飞。美国联合包裹运送服务公司和联邦快递也表示,尽管其航空公司在正常运营,但由于电脑系统故障,快递仍有可能会出现延误。此外,伦敦等地几家主要石油、天然气交易部门因网络故障难以执行交易;澳大利亚的国民银行、电信公司Telstra等都出现了无法登录或交易情况;特斯拉、星巴克、埃克森美孚等企业均表示受到影响。据了解,CrowdStrike公司成立于2011年,是全球知名的下一代终端安全厂商。在世界500强企业中,有271家是CrowdStrike的客户,包括微软、亚马逊等,以及美国不少政府机构都使用其软件。此事也给CrowdStrike的股价带来了重创,当地时间7月19日,其美股收跌11%,市值一夜蒸发近百亿美元,创下2022年以来最差单日表现。“此事发生时,亚太地区是白天,欧美地区是夜晚,最初社交媒体上的反馈主要是日本、澳大利亚等地,但后面大批欧美用户也出现了服务中断反馈,很多受影响的企业不得不‘提前放假’。”奇安信安全专家汪列军说。“从给全球带来的影响看,这次可以‘直追’2017年的‘WannaCry’勒索蠕虫事件,也暴露出了全球安全领域存在因软件更新机制不规范,导致业务停滞等系统性风险。”安恒信息研究院院长王欣这样说。汪列军也认为,本次IT系统中断事件的影响,一定会被记入“史册”,可以与“WannaCry”勒索蠕虫事件“相提并论”。
“技术越进步,社会越发展,可能衍生的风险越大。‘一行代码’导致的重大损失事件历史上时有发生。”数世咨询创始人、中国网络空间安全协会专家李少鹏表示,在数字化转型过程中,互联网普及率越来越高,伴生安全相关事件的几率也会随之增长。事实上,蓝屏事件在微软曾多次出现:在1998年发布Windows 98测试版时,就发生过蓝屏事件;后续随着Windows XP系统发布,蓝屏情况更加频繁;2015年Windows 10发布之初,部分用户也有报告过蓝屏情况。相比之下,以往情况更加“局部”“小范围”,且产生的影响也不能和本次同日而语。虽然这两天“蓝屏”登上国内社交媒体热搜榜,并成为全网热议的话题。但从目前情况来看,中国所受的影响并不大。汪列军透露,从奇安信的应急响应情况及数据来看,中国CrowdStrike软件装机量在十万级到百万级之间,用户主要集中在北京、上海、广州、深圳等一线城市。受影响的主要是外企或外企在中国的分支机构,对于中国的政府部门、央国企以及大部分的大型民企影响不大。“CrowdStrike的EDR/XDR工具能力很不错,但其在中国没有可以给客户交付服务的能力,因此很难在中国发展客户。”亚信安全首席研发官吴湘宁解释说,中国国内的软件环境与国外大不相同,操作系统方面有很多是国产化系统。此外,在应用软件层面,类似WPS、企业微信、钉钉等企业推出的软件也与国外不同,CrowdStrike等海外安全产品对中国企业应用没有很深入理解,很难给中国客户提供有效解决方案。7月19日,在墨西哥首都墨西哥城的贝尼托·华雷斯国际机场,许多航班被延误或取消,大量旅客在机场等待。新华社发(弗朗西斯科·卡涅多摄)事发后的第二天,汪列军所在研究团队很快推出了一份详实的《CrowdStrike导致全球性IT基础设施中断事件分析报告》。文中指出,导致本次事故的“祸首”是CrowdStrike公司的核心产品——Falcon平台核心组件驱动程序部分功能。Falcon平台是完全基于云端部署的SaaS模型。平台通过一个轻量级的代理架构,实现快速且可扩展的部署,并提供高级别的保护和性能。此外,Falcon平台还集成了多种功能,比如,文件完整性监控、云安全、身份保护等。“从Falcon软件的安装量初步估计,已导致难以计数的Windows系统不可用,电脑只要启动就会蓝屏,且没有自动化措施可以执行批量集中修复,只能一台台的手工操作解决问题。所以,恢复过程会很消耗时间,预计完全恢复需要以周来计。”汪列军说。吴湘宁也提到,“蓝屏”恢复过程中,面临着不少挑战——受攻击设备需要逐一手动修复,不但效率低下,而且有些场景恢复需要特殊密钥,这个过程更加复杂;此外,一些受影响的设备直接关联了关键性行业和基础设施,比如,政府部门、银行、医疗机构等,后续衍生、连带了不少问题。以上汪列军、吴湘宁的分析,一定程度上也解释了这个“忙碌周末”的缘故。在突如其来的危机中,CrowdStrike内核驱动问题暴露了在安全解决方案选择上的潜在风险。“在网络安全领域,内核驱动方案一旦出现问题,后果可能是灾难性的!我们必须选择经过严格测试、拥有高可靠性的安全解决方案。” 全国信息安全标准化技术委员会专家、青藤云安全COO程度介绍,此次事件主要是CrowdStrike的驱动程序和Windows操作系统出现了冲突导致的问题,背后原因可能是因为不兼容、驱动程序之间有冲突、驱动程序可能触发内核“bug”等。除了关注驱动的“bug”,汪列军认为,还要重视产品的测试发布流程。此事件在发布测试流程上也存在很大问题,其一次性全部更新到用户设备上,就直接导致了“蓝屏”。7月19日,在加拿大多伦多比利·毕晓普机场,一名波特航空公司的工作人员用手机显示因技术故障取消航班的网络通知。新华社发(邹峥摄)
看似是因为技术故障引发的一场“全球混乱”,实际却突显了现代社会对于信息技术的依赖性及其相应的脆弱性。“因此,在操作系统层面,应该设计得更加健壮,以便可以更好应对此类问题。”王欣说。“一定要明确,安全是重中之重!网络安全是每个组织不可或缺的一部分,尤其数字时代,安全不仅仅是一个技术问题,更是一个业务问题。” 程度认为,选择正确的技术解决方案,是确保安全的第一步。比如,在安全产品技术路线选择上,通常软件开发包括内核态和用户态,前者拥有更高的系统权限,可以直接访问硬件,但劣势在于错误的驱动可能危及整个系统的稳定性、安全性。从目前情况来看,CrowdStrike应该是在内核态下导致的问题,如果采用非内核态的形式,出现这类问题的概率会低很多。“即使是非常成熟的技术平台,也可能遭遇意外故障。由此可见,业务稳定和网络安全既是技术问题,更是管理、战略问题,需全面综合考虑各种因素。”汪列军提到了行业里那句老话——“能力越大,责任也越大”。对于安全厂商而言,涉及系统稳定性的软件厂商需要对产品有更严格的质量管理;还要做好升级策略,在升级过程中要控制影响范围,俗称“爆炸半径”,掌控好升级策略,确保“灰度升级”,控制放量节奏。对于安全产品使用者而言,要选择有实力、有信用的安全厂商;在部署终端安全软件过程中,要对资产做好分类、分级,对于关键资产设置单独的管理单元,并设置“灰度”或延迟更新的策略。李少鹏表示,我们要一起做好一件事——“风险认知前移”。也就是说,不能等到事情发生后再亡羊补牢,应该对数字风险有一定的认知,做到未雨绸缪,从而当风险变成现实威胁时,才能更好地响应。在这个周末里,有人忙着修复电脑,有人在推进追责,有人在分析反思。随着这次技术问题得到逐步解决,蓝屏等情况也在慢慢缓解。一个小小“bug”,竟能让这么多全球业务停摆,深刻说明了数字时代的脆弱与风险,也再次提醒了我们安全的重要性。
来源|光明网
记者|李政葳 李飞 曾震宇
点击文末“阅读原文”
进入世界互联网大会官网