查看原文
其他

大数据安全治理与防范——网址反欺诈实战

牛亚峰 DataFunSummit
2024-09-11

导读 反欺诈对于从事安全的工作人员来说是一场没有硝烟的战争。现在黑产日益猖獗,为了保护用户上网安全不被诈骗,需要对恶意网站进行治理。在进行治理前,必须要熟悉对手,只有了解对手,才可以做到百战不殆。如何做到了解对手,做好网址反欺诈,本文将从以下几个方面来进行介绍:

1. 了解恶意网站

2. 发现恶意网站

3. 打击恶意网站

4. 运营与情报体系

5. 问答环节

分享嘉宾|牛亚峰 腾讯 高级工程师 

编辑整理|邱慧茹

内容校对|李瑶

出品社区|DataFun


01

了解恶意网站

1. 恶意网站分类

恶意网站通常可以分为三大类,分别是:诈骗类,比如仿冒公检法、投资理财、刷单返利等;第二类是网络赌博;网络上传播量最大的则是第三类,低俗色情。除此之外,还有一些其他的恶意网站,例如一些包含钓鱼木马、盗版侵权类的恶意网站等。

2. 恶意网站开发

很多恶意网站域名不一样,但是极为相似,就是因为目前的黑产网站开发已经形成了比较完整的产业链。既可以通过购买域或者购买源码来进行开发,也可以去做一些定制性的开发。黑产人员通过购买一些服务器和域名来部署自己的恶意网站,就会导致虽然很多域名不一样,但是极为相似。

3. 恶意网站运营

诈骗过程中需要吸引用户参与到其中,才能完成诈骗。黑产吸引用户参与的手段也非常多,比较常见的有短信群发、广告推广,还有设置多级代理完成用户引流。

黑产完成引流之后面临的另外一个问题就是躲避风控打击。通常坏人有几个比较常用的对抗手段,例如可以利用短链跳转来躲避打击,或者通过内嵌显示躲避打击,又或者通过添加防红代码来躲避打击。

即便恶意网站被封控也有两种处理手段。一就是在被封控前,网站的用户量已经相当大,除非在运营商的流量侧进行屏蔽,否则是不惧怕被封控的。二就是在被封控前,用户量比较有限,这时候黑产只需要更换一个域名,重新部署一下就可以。

4. 恶意网站收益篇

黑产热衷于去建设恶意网站本质上脱离不了利益两个字。简单归结就是六个字,低成本,高收益。其收益主要来源于广告。因此,收益公式可以通过广告位乘以访问量乘以单价来计算。通常情况下,恶意网站的前期投入不会超过 1000 元。通过中期的引流之后,一天的访问量可以达到一万左右,这时候一天的收益就有四点五万元,利润非常可观。这也是黑产打不尽杀不绝的原因。

02

发现恶意网站

1. 异常检测

通过异常检测体系可以帮助从海量网址中筛选出一些存在异常行为的网站。通常情况下有以下四个角度:流量角度、渠道角度、内容角度和关系角度。

(1)流量角度

通常情况下认为一个正常网站和恶意网站在流量上是有非常明显的差异的。例如,从图中可以看出来,一个正常网站的流量分布相对来说是比较平稳的,波动范围比较小。但是恶意网站就会存在着流量突变,即突增或者突降的情况。

(2)渠道角度

在渠道角度也可以进行异常检测。通常认为一个网站在各个渠道的流量分布是相对稳定的。如果有一个网站的渠道分布明显区分于其他网站,那么该网站也是非常可疑的,可以加强后续的检测。

(3)内容角度

第三就是内容角度。通过对抗中积累的经验可以发现,如果不同协议打开的网站内容差别很大的话,其实也是一种比较可疑的行为。另外,网站在访问过程中发生了多次跳转,多次重新定向,也是一个非常可疑的行为。还有在社交软件中打开一些网站的时候,会提示需要使用本地浏览器打开访问。最后一种是某些恶意网站只对国内开放,禁止使用境外服务器去访问。这些都是比较常见的基于内容检测的异常行为。

(4)关系角度

最后,从关系角度,可以通过对恶意网站的引用和跳转关系来找出高可疑的恶意网站。同时还可以将关联关系比较复杂的网站纳入到异常检测范围。经过多年的对抗经验发现有些恶意网站会设定特定的 URL。当不是利用指定的 URL 访问时会跳转到一些知名的网站,例如百度、QQ、京东。因此可以反其向而行之,对主动跳转的恶意网站也加强检测。

03

打击恶意网站

打击恶意网站,主要用到结构(指纹)检测模型、文本模型、图像模型、复杂网络模型和多模态模型等。

1. 结构(指纹)检测模型

(1)原理分析

结构检测模型的原理,是基于恶意网站的相似性去构建指纹,基于指纹的匹配来打击同类的恶意网站。通常情况下,指纹可以通过 DOM 结构资源列表和目录结构来计算得到。

(2)异常指纹库

在利用指纹的时候会遇到一个问题,如果指纹库非常大,计算复杂性是非常高的,因为需要跟每个指纹进行匹配。因此,为了让计算量不会一直增大,就需要对指纹进行动态更新。假如某个指纹在一段时间内没有用到的话,就会从指纹库里面剔除掉。

2. 文本模型

(1)敏感词规则

敏感词也可以称为关键词,其优点是打击效率高、速度快。缺点是容易被对抗,也会带来一些误判。除了人工审核发现敏感词之外,还可以通过一些统计方法和算法模型进行添加。

(2)文本聚类

除此之外还可以将文本进行向量化,向量化之后就可以进行一些聚类和分类模型。当样本量不是很多的时候,可以把文本向量化之后进行聚类,这样具有相似的文本都会聚类到一起,形成一个个簇,对这些簇进行人工审核达标,就可以得到一个异常文本集合。然后通过对异常文本库进行匹配,就可以打标同类的恶意文本,进而打击同类的恶意网站。同样异常文本库也需要设置动态更新的模式,就是为了防止异常文本库的集合过大,导致计算量过于复杂。

(3)文本分类

欺诈文本分类模型构建前还需要做一些数据增强的相关工作。因为在实际的应用中也会出现一些赌博色情和欺诈混在一起的情况。因此,在应用前也需要用一些赌博和色情模型对这些文本做一些过滤,过滤之后,再利用欺诈文本分类模型进行最后的输出。

3. 图像模型

图像模型就是在网址检测中检测图像数据。

(1)图像数据

首先,图像数据来源广泛,页面、资源、截屏、视频。对于视频,会多抽取几帧来构成一个图像。然后还需要做一些基本的图像预处理来构建样本进行存储,便于检测任务进行。

(2)图像分类

同理,当有标签的样本比较多的时候,就可以来训练分类模型。常见的图像分类模型就是卷积神经网络和自注意力机制的神经网络。

(3)图像解释

在有些检测任务中对可解释要求比较高的时候,可以利用 grad-cam 来对结果进行解释。

(4)图像相似度

当检测样本不是很多的时候,可以考虑利用相似度的方法,也就是聚类的方法进行解释。首先对图像进行向量化。向量化有两种方法,第一种是通用的相似度,例如像素、特征算子。另一种是一些定制性的相似度,比如自编码器、对抗神经网络等等。在这之后就可以利用聚类的思想,将相同向量聚集到一起,再通过一些人工打标或一些种子来进行扩散打击。还可以通过相似度匹配构建一个矩阵,通过矩阵进行样本扩散。这样就可以对不同的、没有标签的样本进行打标,并进行后续的应用。

4. 复杂网络模型

第四个就是关系链模型,也称之为复杂网络模型。

(1)网址复杂网络

首先是网址复杂网络的构成,包含了很多节点以及这些节点之间构成的边,例如有网址节点、站点节点、域名节点、备案节点、注册邮箱节点、IP 节点、物理主机节点以及之间构造的复杂的边。看上去模型非常复杂,但是其实目标都是一致的,就是需要对网址进行恶意判定并且给出合理的拦截范围。

(2)节点预测

在进行节点预测的时候,其实可以利用的模态还有很多,比如文本、图像以及一些指纹都可以来预测。同时还建议组合到一起形成一个多模态的模型来进行预测。这样就可以得到每个节点的类别及对应的向量信息。

(3)归属与包含关系应用

之后是复杂网络上的关系应用。首先,第一个关系就是归属包含关系。通常出现在网址节点、站点节点和域名节点几者之间。一个应用可以进行特征聚合,通过特征聚合,可以得到上一节点的特征。例如,通过 URL 的特征聚合,可以得到站点的特征,通过站点的特征聚合,可以得到域名节点的特征。这样就可以进行拦截范围的判定。除此之外,还有一个比较常见的恶意判定方法,就是根据节点下的恶意比例来进行判定,例如当一个站点下面的恶意比例比较多的时候,那同理就可以进行网址恶意判定和域名恶意级别的判定。

(4)聚集关系应用

另外一个关系是聚集关系。通常发生在网址和 IP 节点、备案节点以及注册邮箱节点之间。因为坏人会呈现很强的聚集性,例如他购买一个服务器,服务器上会挂载很多相似的恶意网站。他还会进行虚假备案,虚假备案下面也会挂载很多恶意网站。同理,他注册的时候会用同一个注册邮箱来注册很多不同的恶意域名,并且把这些恶意域名都用于诈骗。这样就可以通过一个 IP 备案或注册邮箱扩展出更多的恶意网站。

(5)引用及跳转关系应用

接下来是引用及跳转关系。通过引用关系可以找出很多不同的色情赌博信息。还可以解决短域下面短链恶意判定这种难题。因为短链其实没有很多实质性的内容,判断起来会比较难,因此可以利用跳转的目的网站的恶意情况来进行判定。

(6)图神经网络

图神经网络,比较出名的包Graph Convolution Networks、Graph Sample and Aggregate、Graph Attention Networks 等。主要流程如下:首先是复杂网络的构建,接着是节点向量生成,再后面是节点采样,通过节点采样可以获取每个节点及邻居节点的拓扑图,再通过节点嵌入可以获取节点本身和节点聚合而来的邻居特征信息,使得特征更加全面,最后是节点预测。

(7)社区发现

另外一个复杂网络模型的整体应用就是社区发现。通过前面的预测可以得到,每个域名和网址或者站点是不是恶意的。如图中所示,这些网址、域名和站点都预测为赌博型赌博网站,而且都是属于同一个赌博集团的,就是某某太阳城。通过社区划分,可以获取到这些赌博集团所掌握的资源信息,比如 IP、ICP 或者注册邮箱、物理主机等。通过持续对这些黑产资源节点的监测,就可以获取更多的恶意网站以及新增的一些资源节点。比如备案信息、注册邮箱以及 IP 等等。除此之外,还可以通过一些社区传播来找出他所掌握的一些账号信息。

5. 多态模型

最后一个方针就是多模态模型。讲到多模态模型,其实通常有三种方式,一种是做特征融合,就是通过获取不同的模态特征,将这些特征融合到一起来参与训练和预测;另外一种是通过决策融合,基于不同的模型训练并进行预测,基于这些预测结果来进行一个决策融合;第三种是协同训练,不同模态的模型在训练过程中,可以参考一些其他模态的训练信息,从而达到协同训练的目的。

04

运营与情报体系

1. 运营体系

运营体系方面,主要分为三部分,首先是稳定性运营,主要是监控一些在线服务,保证的这些服务运行稳定;接下来就是防爆运营,防止重大的一些网站被误杀;最后就是用户反馈运营,即包含一些用户的申诉举报、故障反馈等等。

2. 情报体系

情报体系中,首先是黑灰产团伙所掌握的资源情报,比如网址类资源、账号类资源,这些都属于比较有用的情报信息,还有另外一种就是被黑产入侵的网址情报,因为在跟黑产对抗的过程中,也发现了很多企业网站被黑产入侵。

第二是情报挖掘,有两个比较可靠的方法,第一个方法是 HTML 文件分析法,因为黑产入侵的时候会在一些头部写入很多介绍这些恶意网站的信息。另一个是关系链分析法,比如通过分析发现恶意的网站,或者是正常网站跳到赌博网站,那么该网站肯定是被入侵了。

第三是恶意网站服务商挖掘,因为已经形成了比较完整的产业链,上下游一定包含一些服务商。例如在赌博网站中会包含一些内容服务商给这些大平台的赌博网站提供的内容。提供各种各样的赌博游戏,另外赌博网站为了吸引用户参与会为用户接入很多支付服务商,只要完整掌握这些服务商的信息,对后续的监控和打击是非常有帮助的。

05

问答环节

Q1:图神经网络在网址图谱上能跑动吗?

A1:首先在训练一个网址图谱的时候,图谱肯定是不会特别大的,起码能够跑得起来。另外,比如 GraphSAGE、GAT,有一个采样的操作,因此在具体应用的时候可以根据每个网址进行采样。对这些子图提前把特征准备好,其实给到图网络模型去预测的时候使用子图就可以了,因为它只需要知道它自己本身和周围一些邻居节点的信息即可。

Q2:网吧场景怎么识别?

A2:网民在网吧访问涉黑网站应该不属于我们的工作范畴。因为网吧场景不属于产品的范畴。当然如果在网吧里面使用腾讯的服务,比如说用腾讯的浏览器、腾讯的QQ、微信去访问这些涉黑网站的时候,如果刚好命中网址黑库的话是会被拦截的。另外,绝大部分会议室信息都是匿名的,大部分没办法使用,但是也有少部分还是可以看到这些信息的。因此多少都会起点作用。

Q3:大模型如何应用?

A3:大模型目前在图像这块用的比较多一些,比如说网站截图,还有一些素材刚好就是图像,就可以去询问一下大模型这些图像是否涉黄涉赌。

Q4:黑帽 SEO 站群检测有什么办法吗?

A4:我认为黑 SEO 有点类似于被黑产入侵的网站。因为是为了让搜索引擎来更多地检索到网站,所以会在头部加很多关键词,其实也属于文本信息。如果刚好是命中了一些色情或者赌博的时候,其实是可以检测到的。

Q5:图里面节点是变化的,那图模型预测节点类型会遇到什么问题吗?

A5:在真正应用的时候,其实考虑的肯定是在某一个时间点内的拓扑结果。因此在某一个时间段内,拓扑是相对稳定的,如果发生了变化,后续也可以继续再进行检测,检测也是持续进行的。

Q6:在防红处置时,坏人有一个常见的对抗手段是内嵌网站,可以详细介绍一下吗?

A6:坏人会搭建一个网站 a,网站 a 可能是正常的,挑不出一点毛病。但是在网站 a 之上,又嵌入了另外一个网站 b,另外一个网站 b 会把网站 a 显示的内容覆盖掉。这样用户在访问网站 a 的时候,实际上看到的是网站 b,这就是称之为内嵌显示的一个对抗技巧。

Q7:对于新兴诈骗类型,如何快速感知和响应?

A7:文中提到的异常检测,因为无论如何诈骗网站最终都是有别于正常网站的,他在流量上或者在一些行为上肯定是有所不同的。因此会被纳入到异常网址范畴。但是在真正打击的时候,例如后续有些模型分析的时候发现跟现有的这些恶意网站模式非常不一样,就会单独对其进行人工审核,从而发现新的诈骗类型,随后去增强打击模型。
以上就是本次分享的内容,谢谢大家。


分享嘉宾

INTRODUCTION


牛亚峰

腾讯

高级工程师

本科就读于新疆大学软件学院,在校期间曾获得校级十佳大学生、“高教社”杯数学建模大赛全国一等奖等。硕士就读于重庆大学计算机学院,在校期间曾获得优秀研究生、优秀毕业典范等荣誉称号。2018 年毕业后就职于腾讯,在职期间一直从事黑灰产对抗方面的工作,参与过反洗钱、支付反欺诈、电信反诈、网址反欺诈等项目,并且多次被评为腾讯优秀员工。


往期推荐


一文看懂什么是强化学习?(基本概念+应用场景+主流算法+案例)

字节跳动基于 DataLeap 的 DataOps 实践

大模型分布式训练的第四种境界

OPPO大数据AI湖仓一体实践

哪里人才紧缺,哪里就有大模型

阿里云 DataWorks 湖仓融合数据治理与大模型应用探索

阿里通用多模态大模型 OFA 研究实践

国内卷废了?生成式AI+出海了解下!

袋鼠云在实时数据湖上的探索实践

58用户画像数据仓库建设实践


点个在看你最好看

SPRING HAS ARRIVED

继续滑动看下一个
DataFunSummit
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存