查看原文
其他

开个脑洞:如果让复联来响应安全事故

陈峻 51CTO技术栈 2019-05-10

《复仇者联盟 4》的战斗已经打响了,费了比抢春运火车票更大劲儿才抢到电影票的 Tony 同学,此刻心里一直祈祷着......


这次观影时不要再出现上次那样:在灭霸打了响指后,公司的网站服务系统就鬼使神差地遭到拒绝访问的攻击,应急电话打到手机上,催他迅速归队的窘境。


当他跑出影院的那一刻,心里居然对“紫薯怪”的那句“Today,I lost more than you know.”产生了强烈共鸣。

的确,正所谓“事故无假期”。天真烂漫的您是否想过:如果在每次出现安全事故的时候,都有硬核的复仇者联盟赶过来救场,让您和您的团队能够继续放飞自我、欢乐地玩耍,该有多好啊。


好吧,如您所愿,让我们来一起设想一下,这些超级英雄们将如何进行事故响应与处置。下面,我们将从人员、流程、演练,这三个维度展开畅想与讨论。

人员架构


如今,随着安全意识的增强,很多企业都在他们的内部组建了专门的处理团队。


这些团队或被称为计算机事故响应团队(CIRTs)、也可以被叫做计算机安全事故响应团队(CSIRT)。


那么对标到复联里,我们来具体看看响应团队的成员架构、以及职能:

作为神盾局的大 Boss,他当仁不让地扮演了团队乃至企业里高级管理层的角色。虽然没有什么超能力,但是他能够未雨绸缪,排定处置对象的优先级,派发任务卡片,并能够在关键时候调用和提供悬停式战斗机等道具资源。

独眼英雄(尼克•弗瑞)

美国队长:响应团队执行经理

活了快一个世纪了,虽然学历不高,但是经验丰富,对这个业务系统比较熟悉。各种大的“战斗场面”,对于美队来说都是“活久见”的。当然,他也容易犯经验主义错误,以及在团队中“拉帮结派”,因此这些需要避免。


凭借着混沌魔法,她拥有快速处理多个信息源与评估威胁的能力。能够通过模拟场景和变换战术,来制定不同的事故分类,BC/DR 计划。

猩红女巫:计划设计师

鹰眼侠:值守监控员

由于在高中就辍学了,因此纵然有着“鹰的眼睛”,也只能担负着日常监控、以及发现问题等任务。


只比美国队长小 8 岁的寡姐,同样身经百战。她不但精通各种间谍技术,而且熟练掌握着不同武器的使用方法。鉴于这些刑讯才能,她正好可以在调查取证和电子发现等方面一展拳脚。

黑寡妇:安全调查专家

蚁人:定损与跟踪专家

由于能够“变大、变小、变神奇”,因此他善于从细致入微之处寻找蛛丝马迹。除了能对事故的程度进行定损之外,他还能够寻根溯源地实施各种逆向工程。


这位天生聪慧且精通多种技术的富二代,不但外表光鲜、且帅气十足。因此,爱穿西装的他正好可以利用话术,去当 PR。当然,在必要的时候,他应当能将各种复杂的技术术语,转述成为受众能够理解的平实语言,以及准备好进一步的 QA。

钢铁侠:公共关系与沟通代表

洛基:法律代表

此处与角色无关,纯粹是因为该演员有着伊顿公学和剑桥大学的华丽背景。


作为国王,他能够凭借着其超人智慧和领袖气质,了解与民生相关的基本需求、以及基础设施对于恢复整个系统的重要性。

黑豹:基础设施的保障与恢复

绿巨人:系统与主机的恢复

绿胖子可是拥有着七个博士头衔的物理学家。正常的时候,班纳博士可以认真地安装系统、配置服务器;不正常的时候,浩克先生正好可以去搬砖、或负责重型设备的更换与上架。


这位同学自从变异以后就迷上了搞“网络”连接。所以,不用多解释他的职能了,你懂的。

蜘蛛侠:网络的搭建与恢复

幻视:软件应用的恢复

源自人工智能管家的他,谙熟软件应用与代码逻辑,因此他适合于各种程序的安装、调试与测试。


神秘的外星人、且有着暴脾气。不过在大家一筹莫展的时候,作为外援的他,也许能用一些匪夷所思的简单粗暴方法,来解决各种棘手的技术问题。

雷神托尔:外部技术专家

惊奇队长:事后整改牵头人

由于鲁莽、冲动,甚至不太听命令等性格原因,她不太适合在应急响应的处置环节中,冷静地发挥自己的技术特长。不过正如整个复联对她赋予了击溃灭霸的厚望那样,在整个事故处理的最终阶段,我们需要该角色来回顾响应的执行情况,提出建设性整改意见,并防止事故的复发。


处置流程


没事的时候,复联的超级英雄们可以将史塔克大厦里当作应急响应指挥部(war room)。


他们不但可以一起吃比萨、开轰趴,也可以聚在一起讨论和制定应急响应的处置流程。


就像灭霸梦寐以求的那六颗无限宝石一样,他们讨论得出的如下六个步骤,同样对于安全事故的管控来说也是弥足珍贵的。


①力量宝石:前期准备

这个阶段主要是由计划设计师--猩红女巫来发挥作用。她需要参考本企业和系统的以往事故报告,根据最大允许中断时间 MTD(应保证RTO+WRT<MTD)开展业务影响分析(BIA)。


参照业界常规的处置标准与方法,来定义事故的级别(从一般性的事件到严重的灾难),分类不同的故障中断种类,并根据现有的资源,制定相应的应急响应计划。


作为输出,此阶段交付成果包括:紧急联系人列表、业务单元优先级列表、事故界定与分类参考表、严重性矩阵参考表、以及具体的应急响应计划与 BCP 等。


这些结果应及时得到高级管理层--尼克·弗瑞,以及其他神盾局的大神,如菲尔·寇森等的批准,并下发到其他业务部门听取反馈意见。


②空间宝石:检测与识别

这个阶段主要是由值守监控员--鹰眼侠来发挥作用。他可以通过如下两个渠道来获悉安全事故:

  • 企业面向内部的服务帮助台(Service desk),以及面向外部的热线电话(Hot line),都可以接报从内、外部用户处上报而来的系统故障、或是服务中断事故信息。他们通过详细问答的方式,了解并收集到关于事故的第一手资料,然后以手工录入的方式导入统一的管理平台,以备下一步跟踪处理。

  • 自动化工具平台对系统中的各个服务模块、及部件的日志进行读取,然后通过安全信息与事件管理系统(SIEM)中的用户及实体行为分析(UEBA)服务,进行综合性的数据分析。


面对用户告知的带有主观色彩的报告、以及扑面而来的海量平台信息,鹰眼哥需要进一步根据自己的经验、以及猩红女巫在上一步制定好的事故分类标准,进行剔除误报和初步分拣定级等操作。


其中,他可以参考的分类依据包括:网络与云端服务的中断,系统漏洞的攻击,主机与网站的恶意代码注入,程序的缺陷与终止,信息的篡改、泄漏与删除,硬件设备的故障,以及大面积的灾害等。


作为输出,此阶段交付的成果包括:安全事故的原始记录,和事故性质与严重性报告等。


这些结果应及时流转到响应团队执行经理--美国队长处。当然,如果情况严重的话,他还应迅速通知到高级管理层--尼克·弗瑞那里。


③现实宝石:调查与取证

这个阶段主要是由安全调查专家--黑寡妇来发挥作用。她可以从主机系统、网络数据、软件应用、存储介质四个逻辑层面,以及现场物品等物理层面上,开展调查与取证工作。


为了保证各种电子证据与实物证据的“三性”原则,寡姐应通过设置只读和产生消息摘要等手段,娴熟地捕获和保护好证据链,使之满足电子发现等合规的要求。


当然,在进一步分析的过程中,如果碰到比较棘手或者是涉及到法规层面的问题,她可以去寻求法律代表--洛基的帮助。


话说回来,我们不能保证洛基是否还对当年与寡姐的相互审问耿耿于怀(请参见《复联1》)。


在取证的同时,定损与跟踪专家--蚁人开始深入调查原因,并界定系统的受损程度。


具体说来,他主要是从数量与程度两个维度,分析那些丢失、破坏或暴露了的数据与物理资产。当然,他的工作也会涉及到对一些滞后、间接影响的评估。


作为输出,此阶段交付的成果包括:寡姐诚邀蚁人共同向管理层和美队提交取证、调查和评估的结果。


④灵魂宝石:报告与公关

再不让钢铁侠出场的话,估计他要气爆了。作为公共关系与沟通角色,他虽然不涉及到使用具体的技术,来处理安全事故所带来的危害,但是他是整个处置环节中不可缺少的润滑剂。


为了实现有效的危机管理,他需要做到如下几个方面:

  • 参考猩红女巫整理的联系人列表,以邮件、电话、微信、甚至是广播的形式,通知该安全事故所波及到的内部相关人员。

  • 按照“快报事实、慎报原因”的原则,向客户、合作方以及外部调查部门提供事故情况说明、以及必要的技术问题解答。

  • 在披露的时间与频率、以及可能带有当事人隐私等方面,他应诚邀洛基协助审阅。当然,心眼小的洛基也可能为了当年钢铁侠的那句“小鹿斑比”,而直接目送他“入坑”(请参见《复联 1》)。

  • 还需要和洛基“牵手”一次的是,他们应共同整理核对相关合同与约定,特别是那些其中涉及到的责任赔付条款。


⑤时间宝石:补救与恢复

真正的系统补救战斗,在这个阶段才正式打响。此时出场的是“黑绿红蓝组合”,他们是:

  • 负责基础设施的保障与恢复工作的黑豹

  • 负责系统与主机恢复工作的绿巨人

  • 负责网络搭建与恢复工作的蜘蛛侠

  • 以及负责软件应用恢复与调试工作的幻视


不言而喻,在此环节中,他们会根据寡姐和蚁人的阶段性成果,各司其职展开抑制、恢复、及根除等工作。


其中,值得他们注意方面包括如下四点:

  • 针对猩红女巫给定的业务单元优先级列表,制定带有时间节点的抑制与补救策略。

  • 在恢复的过程中,各路英雄要注意沟通与交流,应避免在自顾不暇时,忙中出错、产生衍生破坏、甚至是“坑害”队友的情况。

  • 在取得阶段性成果(milestone)后,要请业务单位负责人、以及美队予以确认。

  • 碰到技术难题,Hold 不住的时候,可以请出外部技术专家--锤哥。让他调用自己的神族资源,另辟蹊径地解决问题。


不过,该过程最怕的是:人人都以为自己是大牛,都能掌控全局,因此需要美队从中协调。


特别是对于那些耗时耗力的恢复任务,大家要做到既有条不紊、又协作推进。


不然,正如《复联 3》最后那样,灭霸还被没咋地,联盟就已经自损过半、CP 东南飞。


⑥心灵宝石:总结与整改

正如电影剧情安排的那样,消失了将近 30 年的事后整改牵头人--惊奇队长虽然出场较晚,但是她的实力能够起到一定的“兜底”作用(请参见《复联 3》)。


在安全事故处理已毕,大家正准备“领盒饭”时,她却“开挂”了。下面我们来看看这位女战士是如何展现她的超强执行力:

  • 回顾并文档化整个事故的处置过程。

  • 对前面各个阶段的响应速度和处理效果进行评审,重点分析在实战中偏离了猩红女巫既定的应急响应计划的部分。

  • 向尼克·弗瑞等管理层提交问题根除的整改方案。

  • 定期对当前系统进行风险评估(RA),引导相关团队进行有针对性的自查,防止类似事故的复发。

  • 与猩红女巫合作,通过变更流程来按需更新应急响应中的步骤要点。

  • 向“地球民众”发放满意度调查问卷,或接受管理层对于响应绩效的考评(请参见《美队 3:内战》)。


测试演练


众所周知,上面教科书式的处置流程,最怕出现计划与现实相脱节的情况。


因此,为了保证复联英雄们在关键时候能够招之即来、来之能战、战之能胜,他们需要定期、以及按需地开展测试演练。

测试演练的好处与内容包括如下方面:

  • 让团队的每个成员都能够明确、熟悉并掌握,自己在应急处理中的角色与职能,进而弥补或改进手头上的技能短板。

  • 通过模拟战斗,发现猩红女巫在计划设计中的不足之处,以及找到需要互动协调的地方。

  • 以 PDCA 的方式,对现有的行动方案进行推陈出新,让每个成员都能树立成功处置安全事故的信心。

  • 在应对事故时,考察各一项人力物力资源的调配情况。如果出现上述主要岗位的超级英雄没灭掉(请参见《复联 3》)的情况,则需要按照接班人计划(Line of succession)及时补上新的英雄。

  • 当然,就是全部被消灭了的话,我们地球人不是还有 DC 的正义者联盟吗?(漫威迷们不要喷我…)

结语


英雄和我们凡人一样,也会有各种小脾气,他们之间甚至会为了好基友而产生内部摩擦,甚至会打起“内战”。


但是在面对共同的敌人--灭霸所造成的系统安全事故时,大家应当能够摒弃前嫌,生死看淡,不服就干才是。

知否?知否?现实工作中,复联并不会真的飞来为我们企业的安全事故“接盘”。


为了不再出现 Tony 观影时被紧急电话叫走的尴尬,也为了避免匆忙地将事故处理成“比悲伤更悲伤的故事”,我们需要从上述人员架构、处置流程、以及测试演练,这三个维度贯彻到事故响应的整个生命周期之中。


作者:陈峻

编辑:陶家龙、孙淑娟

征稿:有投稿、寻求报道意向技术人请联络 editor@51cto.com


陈峻(Julian Chen) ,有着十多年的 IT 项目、企业运维和风险管控的从业经验,日常工作深入系统安全各个环节。作为 CISSP 证书持有者,他在各专业杂志上发表了《IT运维的“六脉神剑”》、《律师事务所IT服务管理》 和《股票交易网络系统中的安全设计》等论文。他还持续分享并更新《廉环话》系列博文和各种外文技术翻译,曾被(ISC)2 评为第九届亚太区信息安全领袖成就表彰计划的“信息安全践行者”和 Future-S 中国 IT 治理和管理的 2015 年度践行人物。

精彩文章推荐:

一份十分完整的CPU 100%排查优化指南

在阿里做了5年技术Leader,我总结出这些套路!

没想到,看《复联4》也能理解Spring Cloud

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存