下一代SIEM@AI：从UEBA到SOAR

安在 2019-04-17

在互联网普及的20多个年头中，企业安全经历了几次变革，从最开始的设置简单的防火墙、虚拟局域网到安全运营中心建设；2005年，随着数据过载，安全信息及事件管理(SIEM)正式诞生，并成为SOC不可或缺的帮手，被广泛应用；而2015年后，随着SIEM的管理越来越复杂，处理数量越来越大，用户及实体行为分析(UEBA)与安全编排自动化响应（SOAR）应运而生。

传统安全主要基于威胁情报、流量特征、设备指纹等方式识别，但对于机器合法接口、真人恶意行为等容易产生错判、漏判，UEBA强调用户行为分析，以用户为视角基于行为进行六元组建模，建完模型后主要利用无监督学习和半监督学习进行自我演化进而不断贴合业务。SOAR则是在识别后，强调对于威胁事件的处理，重点解决复杂逻辑编排、安全设备联动的问题。

2016年，用户实体行为分析(UEBA)入选Gartner十大信息安全技术，并在2018年入选Gartner为安全团队建议的十大新项目；2017年Gartner提出SOAR概念，预计到2019年，将有30%的大中型企业会进行SOAR平台建设。

一、UEBA（User Entity Behavior Analysis）

UBA（用户行为分析）最早应用在网站访问和精准营销等方面，后来被移植到网络安全领域，Gartner在UBA的基础上融入实体行为，并认为关注实体行为分析可以更准确地识别威胁。UEBA不只是SIEM的补充，更是理解网络安全的全新方式。

1.前提：以用户为视角

长期以来，SIEM都主要依赖于规则，以流量和请求为视角，需要人工配置已知规则、专家经验、人为设定的阈值，一直存在误报率高、准确率低、未知威胁无法发现等问题。而UEBA的前提条件是转换思维，以用户为视角，从基于规则分析到关联分析、行为建模、异常分析，弥补传统SIEM的不足，通过用户实体行为异常分析来检测各种业务与安全风险。

以用户为视角

上图是某客户用户注册、登录、获取积分的日志，以流量为视角分析时，上述访问行为是合法请求（UI、特征、请求地址、请求构造、参数等均合法）。而我们对其进行实频率转换时，通过傅立叶变换转变成频率行为，我们可以看到其访问行为具有周期性，不同于以往高频词的爬虫行为，其周期往往以数分钟、甚至数小时为单位，通过用户视角，我们可以初步判断这次访问存在异常。

2.核心：行为建模

白山ATD团队经过实践，发现基于六元组模型，即：时间、地点、人/ID、作用域、动作和结果，可以定义行为概念，基于此我们能够进行行为建模。

目前主流的行为分析主要包括有监督学习、半监督学习两种方式，但很多企业都在实际操作过程中遇到一定的瓶颈。

▪️有监督学习：标注样本的难题。

大部分传统SIEM系统多采用有监督学习算法。利用机器学习插件，导入已经标注好的样本、选择合适的模型，系统就可以自行开始训练。但其最大的问题在于过于依赖标注样本，而安全场景中样本标注需要安全专家投入较高的人力成本和时间成本，大部分企业没有安全标注样本。

▪️半监督学习：场景多样化的难题。

因为各企业业务、数据不同，安全标注样本并不能通用性的在各家企业中适用，缺乏场景多样化。

而UEBA主要应用无监督学习算法，利用个群对比、聚类分析、规律学习，无需大量样本标注就能准确识别异常行为。

▪️个群对比：我们在ATD中内置大量数学函数，包括平均值、方差、公值、相似度、重复比等，与特征数据结合形成特征空间，然后再进行空间特征泛化，最后进行个群对比分析，识别出行为异于正常用户的攻击者。

在上述案例中，我们不仅利用UEBA分析得到规律性行为，同时根据个群对比，发现大部分访问数据不具有规律的周期，结合以上两点，我们才判断为异常行为。

▪️聚类分析：通过聚类特征放大，对多源低频团伙行为进行识别判断。深度引擎还进行长时间轴线分析，对比自身行为规律变化情况，进行威胁检测。

以某电商客户为例，其比较头疼的问题之一是多源低频攻击。据统计每天约有300万个真实IP地址爬取商品价格、详情及评价，但爬取频率极低，平均每天仅有5-6次访问。在多源低频的爬虫下，基于规则和阈值的传统安全产品基本失效，无法准确识别攻击行为。而通过无监督学习，我们将所有访问聚类，从而区分正常用户访问和机器爬虫程序。

▪️规律学习：通过学习数据的历史行为内在规律计算概率模型，然后基于这些概率模型构建集成学习分类算法，进而对未知异常行为进行识别分析。

ATD学习的内部规律主要包括：文本规律、路径规律。一般客户的日志收集很难保证时间戳的持续性，但用户访问的路径都具有很强的关联性。在某电商客户的实际应用中，通过规律学习，正常用户的访问路径为：验证码、登录、商品信息，但通过用户行为分析，我们发现存在大量访问的路径异常，其路径为：登录、验证码、商品信息，通过分析我们发现客户端验证码的校验存在被盗库的逻辑。

在实际使用过程中，无监督学习识别出的未知威胁还可以结合人工标注，安全专家定期针对少量异常行为进行标记，通过有监督学习，利用Active Learning算法，允许用户进行有限标注，通过CNN（卷积神经元网络）训练少量样本模型，进而通过模型串接，修正原有算法分析结果，最终算法可以更贴合企业业务场景、提升算法准确率。

二、SOAR（Security Orchestration and Automation Response）

SOAR是Gartner 2018年在安全领域定义的最新前沿技术，与UEBA、EDR等侧重于威胁识别发现的技术不同，SOAR集中在识别后的威胁处理，强调用户可以通过事件编排中心通过编码实现任意的威胁处理逻辑。

传统SIEM除了无法识别未知威胁外，还存在报警过多、无法实时处理等问题。大多数的安全团队只关注识别忽略了处理或只能支持阻断/通知/放行等简单的处理。但对于安全事件的处理是包含一定逻辑的，还需要与已有安全产品联动，形成威胁处理的闭环。这种背景下，应用SOAR等自动化工具就成为安全团队的必然选择。

目前国内的一部分安全团队也开始在SOAR领域进行尝试。白山在ATD内集成了SOAR平台，安全人员可以在平台内定义安全事件，当故障发生时，系统会被立即触发。在事件处理中心，会自动分析故障原因，并采用防火墙或邮件通知；在事件编排中心，安全人员事先通过JS代码编排所有主流安全产品的接口调用流程，事件触发时可以按照预定逻辑进行多业务系统、多设备、多层级的联动，实现安全编排的自动化响应。

ATD编排平台

从UEBA到SOAR，基于AI的SIEM正在重新定义下一代安全产品。

「推荐阅读」

狼来了

▼加入诸子云

▲加入粉丝群

人物热点互动传播

NEWS

你怎么这么好看

反向激励，在加速这个社会的黑化

平安信托深陷“爆雷”旋涡：终于尝到“偏爱”房地产的苦果

刀片电池存设计缺陷，或将导致几十万比亚迪车主自费更换or召回？

专家一会说要过“紧日子”，一会说“认为没坏就能用”是不对的

芒果TV十年：源自如日中天时的“诺亚方舟”计划