查看原文
其他

安全大数据“汇”上加“慧”:面向安全大数据的知识图谱构建

高昕 360天枢智库 2022-07-03

编者按

网络安全数据和知识对安全业务的开展至关重要,已成为业界的共识,国外主流厂商核心解决方案大部分建立在对安全数据充分采集、知识挖掘及利用的基础之上,并积累了规模可观的安全大数据,用于支撑复杂系统性安全问题的解决。那么首要的问题就是如何利用好这些类型多样、规模巨大、语义丰富的安全大数据,进而采用什么样的方式支持整体安全能力提升?然而,受限于当前以产品为核心的安全业务模式和数据共享方面的约束,相比其他行业,我国网络安全领域普遍缺乏诸如知识图谱级别的领域知识描述和体系性应用,既限制了网络安全体系中设备、系统和人员对安全大数据的理解和精准分析,也极大地降低了安全大数据的潜在价值,导致在具体实践中将面临诸多挑战,主要包括:

如何避免数据碎片化导致的“信息孤岛”?

如何实现大规模“有效数据”的关联?

如何从“数据中心”向“知识中心”过渡?

如何构建深度且有效的数据智能化应用模式?

本文将为您揭晓答案

↓  ↓  ↓


作者


高昕   360未来安全研究院网络安全资深专家 



当前,在我国网络安全行业蓬勃发展的新时代,亟需构建与整体安全方案相匹配的知识描述和组织方式,形成统一的、广泛互联的、深度的安全知识体系,构建安全知识体系应用的基础设施,支撑安全领域各类数据、信息和知识的理解和关联,提升安全解决方案的智能化水平和服务效能。


一、安全大数据“利用难”的现状

网络安全是一个快速发展的行业,攻防对抗手段、技术和场景快速变化。同时,网络安全也是一个非常注重积淀的行业,重视对各类网络安全知识库的持续建设和应用。不论是PC时代的病毒库和检测规则库,互联网时代的威胁情报库、漏洞库和社工库,还是当前热度非常高的ATT&CK攻击知识库,都凝练和奠基了同一时期网络安全产品的核心能力。在数字时代,网络安全面对以APT为代表的高级网络威胁所呈现的攻击链长、数据稀疏、隐蔽性强等新特点,普遍采用了长周期、全方位的安全大数据采集和分析的方式,注重攻防知识的发现和抽取,快速指导和调整检测、防御和响应等安全机制,为APT应对提供了一条有效的数字化途径。随着网络空间对抗日趋大范围、高烈度、高难度的今天,如何高效地利用网络安全相关数据和知识实现敏捷的应对,成为目前网络安全核心能力构建的关键,也是网络安全攻防对抗不变的基础。
然而,由于受限于碎片化的安全防护体系、不成熟的安全生态和数据共享方面的约束,我国网络安全领域在安全大数据的开发和应用等方面还存在以下问题
(一) 缺乏体系化的安全防护方案,难以充分发挥安全大数据的聚集效用
安全数据来自不同的工具、传感器、系统和外部威胁情报源,采用了不同的格式和标准,标识了不同实体的时空状态,导致安全数据的底层数据实体之间缺乏交叉参考。安全团队如何整合这些多源、异构、多维的安全数据,如何挖掘这些数据背后的安全性关联所体现的威胁信息,如何分析数据体现的安全态势并进行威胁应对和处置,以及威胁变化后相关大数据分析如何调整等,既是安全能力构建的关键,也是突出的技术难题。
(二) 缺乏深入的安全业务分析机制,难以充分发挥安全大数据的业务决策支撑作用
安全大数据可支持入侵检测、安全事件分析、APT追踪、风险评估等方面专项安全业务的开展,而这些专业性极强的分析结果如何让客户看懂,如何为客户可视化地实时呈现网络安全态势,以及如何帮助客户进行安全决策,是客户“看见”威胁的基础。尽管数据可视化技术取得了很大的进步,但由于网络安全事件数据量大、类型丰富、变化快等特点,安全大数据的可视化在实际应用中还存在许多困难。
(三) 缺乏面向安全业务的人机结合机制,难以将安全专家的业务经验映射到安全系统
随着攻击工具、方法的逐渐升级和复杂化,安全数据的大规模融合,攻防对抗愈加激烈。安全团队如何在浩瀚数据中有效发现高级威胁的蛛丝马迹,如何把网络安全专家的经验、知识有效转化为机器可理解、可扩展的数据分析能力,如何将对抗高级威胁的“炼金术”逐步升级为科学淘金指南,如何将安全从业者从繁重的体力劳动中解放出来,愈发成为安全能力亟需突破的难点和重点。
(四) 缺乏面向安全生态的协同联防机制,难以基于安全大数据实现安全赋能
安全生态中分布在行业/部门的各类安全系统之间相互配合和信息共享,构成了在高级网络威胁应对方面的体系优势。这些安全系统相互之间理解和有效利用所传递的数据、模型、指令、算法等知识,是安全生态能力汇聚、赋能、发挥体系优势的关键。而由于各厂商对这些专业性知识的理解、描述和应用方式的不同,导致一方面出现知识无法解析或解析错误的问题,另一方面未能充分发挥这些知识在检测、防御和响应等方面业务效果的问题。

二、安全大数据分析及应用的技术挑战

 针对以上安全大数据“利用难”的问题,需要体系化建构以安全大数据平台为依托的安全基础设施,形成一张纵深检测、纵深防御、纵深分析、纵深响应的网络安全防护网,为发挥安全大数据价值提供基础。即使如此,要想利用好收集到的类型多样、规模巨大、语义丰富的安全大数据,在具体应用实践中仍将面临如下技术挑战:
(一) 需要实现大规模、多维度数据的上下文关联,构建数据流动的逻辑基础
针对安全大数据,需要加强不同类型、不同维度数据的上下文关联,掌握数据的“萃取”技术,提炼和推导新的知识。未来可获得的安全数据资源会越来越多,知识“深加工”和“应用”能力的重要性有可能超越数据本身,并成为核心竞争力。而安全大数据之“大”并非只强调上数据量之大,也指数据在汇聚、关联和使用之宽广,都需要具备有效的对安全数据理解、分析和利用的手段。实现安全体系从“数据中心”向“知识中心”的过渡,构建完善的知识体系及相关描述、管理和应用机制。
(二) 需要深度的安全数据分析方法,避免“汇而不慧”
当前大数据应用中普遍出现的“拥而难用、汇而不慧” 的现象,对数据的应用多是简单的检索与分析,缺乏基于深度推理的智能化应用,对海量数据之间存在的隐式关系挖掘不足,限制了大数据价值的挖掘分析。
(三) 需要能够持续融合不同维度安全数据源的机制,避免知识体系僵化
由于安全体系内部结构非常复杂,各模块实施的业务内容和产生安全数据不同,业务能力也将采取逐步整合、演化和扩展的方式。因此,亟需构建知识体系规范和数据共享交换标准,及时吸收新维度的安全数据,持续丰富自身知识体系,拓展新知识生成的基础。
因此,需要研究与安全体系相匹配的知识描述和组织方式,并在此之上构建统一的、广泛互联的、深度的、可扩展的安全知识体系,支撑安全生态运行中的领域共识和深度数据应用。

三、将知识图谱引入网络安全领域

知识图谱作为一项数据深度应用的基础性技术,为网络安全行业提供了一条实施数字化转型的途径,一定程度上将人类对安全数据的处理逻辑、事物理解和分析方法具化为更高质量、可计算、计算机可理解的安全大数据语义网络,将提高网络安全领域对数据、信息和情报的关联和理解,支撑威胁检测、安全防御、应急响应等网络安全业务的效能和智能水平。
(一) 知识图谱的价值
知识图谱的价值主要体现在四个方面:
1. 共识
构建知识图谱的过程,是对行业和领域整体核心业务逻辑的梳理,加深对业务的理解,重新定义业务问题,梳理关键实体、关系和业务应用方式,为行业/领域的数字化转型提供知识共识基础。
2. 连接
知识图谱将打破原有信息体系中的数据栅栏,通过知识表示、知识融合将不同种类数据连接在一起形成巨大的关系网,围绕数字化核心逻辑和竞争力构建新的知识体系,推理出数据间的隐含知识,实现具有可解释性的关联分析,为大数据价值挖掘提供了可靠的先验知识。
3. 流动
知识图谱为数据自动流动提供了业务逻辑支撑,进而通过数据流动将正确的数据在正确的时间以正确的方式传递给正确的人和机器,把数据转化为信息,把信息转化为知识,把知识转化为决策和行动,以应对和解决未来业务中的复杂性和不确定性等问题。
4. 智能
知识图谱是构建知识体系的核心,支撑了业务的智能化,体现在:汇聚、融合和可视化呈现业务状态;通过知识推导和启发,推动系统开展智能研判;知识驱动系统的行为和系统间的协同,促进人机结合。
(二) 网络安全领域的知识图谱
本文中对网络安全领域“知识”的界定采取比较宽泛的定义,诸如病毒信息、漏洞信息、攻击手段信息、威胁情报、专家经验、安全事件信息等,由于具备特定语义和业务关系,都属于网络安全知识。网络安全知识图谱(Cyber Security Knowledge Graph)是知识图谱在网络安全领域的实践应用,主要围绕攻防对抗过程的不同角度和内容展开。相关工作包括基于本体论构建的安全知识本体架构设计,以及通过威胁建模等方式对多源异构的网络安全领域信息进行加工、处理和整合,转化成为结构化的网络安全领域知识库。根据应用场景,网络安全知识图谱的构建主要存在两个方向:一个是从全局描述网络安全知识体系,例如威胁情报、态势感知等;另一个是从局部描述特定安全业务的知识结构,例如入侵检测、安全防御、应急响应等。
1. 全局性网络安全知识图谱
安全事件数据(例如入侵检测系统警报)是网络安全分析的起点,但分析的效率和效果往往会受限于严重不足的上下文信息。为了提供上下文信息,安全人员必须手动从企业内部和外部的多种来源收集并整合相关数据,包括搜索系统日志、网络流量、防火墙数据、IP黑名单和信誉列表、软件漏洞信息、恶意软件、威胁数据、操作系统和应用程序供应商博客以及新闻站点等众多知识库/数据集,查找与事件相关的数据。由于缺乏全局性知识关联,安全人员必须将相关结果汇总在一起并综合处理,以将事件置于上下文中,并根据事件的重要性和影响做出最终决策。
可见,安全分析是一个手动的且繁琐的过程,但只有经过该过程才能对安全事件做出有效研判和响应。因此,业界非常重视网络安全数据自动关联分析的研究和实现。而全局性网络安全知识图谱是实现该目标的一种重要基础设施,通过提取领域概念、实体和关系,联接各类数据集和知识库,构建领域性共识和背景,加快安全事件的分析和决策效率,代表性应用包括CyGraph和STIX。
2. 主题性网络安全知识图谱
除了全局性网络安全知识图谱,在入侵检测、应急响应等专项安业务方面,还需要构建更加专业性的知识图谱,帮助安全人员提高解决特定安全问题的效率。本文将这类知识图谱称为主题性网络安全知识图谱。由于网络安全业务方向众多,主题性网络安全知识图谱的应用主要包括应急响应、安全防御和APT分析等方面,代表性应用包括STUCOO、MITRE的ATT&CK、绿盟的APT组织知识图谱和腾讯的安全知识图谱等。
(三) 网络安全领域中知识图谱发挥的作用
在网络安全领域引入知识图谱技术,主要用途包括:
1、全景知识的整合、共识和背景:将网络安全信息实时整合到知识图谱中,可以克服知识和数据在语义和应用方面的局限性,为分布在各点的离散式知识和数据提供了丰富的上下文信息和知识体系,促进知识和数据的共享和理解,支撑威胁的全面检测分析和响应。 
2、准确识别:基于机器学习算法和安全知识图谱,可以将安全专家的经验和能力赋能给一线检测和防御系统,提升潜在的威胁识别的精准性,准确评估威胁的影响。
3、安全可视化:基于安全知识图谱统筹展示各类安全数据和信息,通过丰富的上下文信息和可视化界面,为用户更加充分的展示安全威胁状态、攻击路径和危害影响等关键信息。
4、智能决策:知识图谱不仅能感知系统检测到的异常,还可用于辅助威胁预测和积极防御,支撑威胁应对方案的制定,并促进安全防御机制的自动化响应。
5、机器理解:机器理解数据的本质是建立起从数据到各类知识要素(包括实体、概念和关系)的一个映射过程。而知识图谱可以帮助机器理解网络安全领域的业务内容、状态和行为,为各类安全系统/工具间的安全业务协同提供基础。

四、基于知识图谱挖掘安全大数据的价值

结合当前网络安全核心业务,建议从四个方面分析知识图谱的应用价值及具体措施。
(一) 构建全面的安全知识体系,汇聚和融合多维度安全数据 
汇聚攻防知识、漏洞、情报、安全设备/系统等不同维度的安全数据,从不同角度对威胁进行了刻画,为检测高级网络威胁和制定相应的威胁应对策略提供了有效数据支撑。然而,由于这些安全数据往往存在格式规范不统一、语义不统一、缺乏上下文信息、数据离散孤立且访问状态不确定等问题,导致安全人员和安全系统对安全数据的访问、理解和关联等应用存在局限性,极大限制了发现威胁、识别威胁过程和应急响应等方面的能力。

构建以统一共识为目标的全局性网络安全知识图谱,作为安全知识体系的基础,促进网络安全知识共识与共享。通过构建全局性网络安全知识图谱,梳理知识体系所涵盖的各类知识库、数据集和经验库,为各类安全数据提供丰富的上下文信息,促进安全方案之间、安全模块之间、以及安全团队之间的知识和数据共享与理解,帮助安全体系获得全景的知识共识和背景,支撑各类安全方案模块在威胁检测和响应方面开展深度和广度的数据关联及分析。在全局性知识图谱基础上,可以进一步构建不同的主题性知识图谱,逐渐筛选和汇聚高内聚的数据,支撑相关数字化安全能力的构建并取得实际应用效果。具体研发中建议参考CyGraph。
(二) 深度整合海量、多维、多源的威胁情报信息,赋能安全防护
在网络安全体系运行过程中,一个关键基础能力是持续收集内外部威胁情报,并基于威胁情报的深度分析结果通过多种应用渠道快速驱动威胁评估、应急响应、安全防护等安全能力的运行,提升安全体系应对各类威胁的效能。然而,一方面,外部威胁情报标准众多,包括STIX和OpenIOC等,与内部威胁情报业务体系存在兼容性问题;另一方面,内部威胁情报来源渠道众多,将面对不同安全系统/工具的异构数据格式和不一致语义规范等问题。由于上述原因,安全体系将无法有效挖掘丰富的威胁情报资源的价值,也无法通过威胁情报驱动各项安全能力对威胁开展敏捷的应对。

构建专业的威胁情报主题的知识图谱,支撑威胁情报深度解析和应用。通过构建威胁情报主题的知识图谱,将海量的、碎片化的、多源异构威胁情报数据进行细粒度的深度语义关联,指导内外部威胁情报数据的清洗和集成。同时,配备面向安全业务的威胁情报分析算法,针对分析结果建立威胁情报订阅体系,从而实现威胁情报驱动各级安全模块实时调整威胁检测和安全防御的能力。具体研发建议参考STIX规范。
(三) 全面整合客户侧安全数据,支撑全视感知和灵敏应对
传统安全机制的一个重要问题是提供了海量的安全报警信息,但不能帮助客户清晰的确认威胁和评估危害及影响。而通过集成类型更丰富、覆盖面更广、规模更大的安全数据,可帮助安全体系具备全景解析攻击过程的数据基础,进而支撑高级网络威胁的“看见”。然而,各类网络攻击的模式和手段不同,攻击效果和影响也不同,导致从海量安全信息中筛选有效数据的复杂性非常高,难以确认安全数据之间的关联性,将极大的限制了威胁分析的效果。

构建安全防御主题的知识图谱,支撑安全体系对客户侧威胁状态的实时感知,开展协同联防。此类知识图谱的作用主要体现在:1)赋能各级安全模块的威胁检测能力,提高网络攻击识别的准确性和完整性;2)全面解析和追溯攻击链,支持安全体系持续收集各类攻击知识;3)帮助安全体系是细粒度的、全面的了解客户威胁状态,以精准制定应对措施,并针对性加载、赋能和提升客户侧相关安全能力,从而实现客户对网络威胁有效的灵活应对。
(四) 沉淀APT分析方面的专家经验,提升对威胁的“看见”能力
APT威胁是目前网络安全的重大挑战,业界安全专家具备发现和追踪APT的能力,需要沉淀这些安全专家的经验并形成相应的算法,全面分析和追踪安全体系所面对的APT威胁。然而,安全专家的经验非常主观化和动态化,每位专家对APT的理解也不相同,在实际分析过程中也是根据具体APT线索不断的尝试,导致APT分析能力很难具化为系统功能。

构建APT主题的知识图谱,支撑安全体系在全景安全大数据的基础上持续追踪APT组织。目前,ATT&CK知识库提供了结构化刻画APT的思路和方法,可借鉴ATT&CK构建APT知识图谱,持续积累APT画像,将安全专家经验逐步填补到APT知识图谱,并构建一系列APT分析算法,逐步形成自动化的高级威胁分析和追踪能力,进而提升安全体系应对高级网络威胁的缓解、处置和恢复能力。

五、总结

目前,知识图谱作为一种领域知识体系的描述、构建和应用方法,已成为数字时代各行业数字化转型的一项关键性基础技术。知识图谱通过连接的力量组织行业/领域的知识力量,为行业/领域提供认知的共识基础,并通过构建智能的数字化服务内核,实现可理解的数据流动。在网络安全领域,知识图谱的应用为安全人员和安全系统提供了全景知识的整合、共识和背景,为安全专家的经验和能力向安全系统赋能提供了途径,为安全可视化和智能决策水平提升提供了基础设施,为安全系统间协同提供了交互手段。
同时,我们也应清醒地认识到,没有包治百病的“银弹”技术,知识图谱虽然是学术界公认的未来实现认知智能的重要手段,但是与网络安全体系化解决方案体系和业务的匹配程度和应用效果,还需要深入的调研和实践验证。未来还需要行业中相关研究团队共同关注和探讨安全大数据的有效利用,并对在网络安全体系化解决方案中构建特有的数字化能力不断进行探索。


本文为天枢智库原创,未经允许禁止转载

如需转载或与作者沟通更多研究细节,

请联系dipperresearch@360.cn


往期精彩

揭秘全球网络安全防护最高水准:美国国防部信息网DODIN

声音 | 360首席安全官在全球数字治理研讨会上分享全球数据安全治理建议

360魏小强:安全大脑赋能云安全建设,构建云时代整体安全防御体系
360闫斐:数字孪生时代下的网络攻防实战演习主题分享
ISC 2020丨360新一代网络安全能力框架震撼发布:十大安全基础设施成作战体系



好巧,你也“在看”

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存