亿展宏图 第二篇|图算法在eBay支付风控领域的应用
作者|闵薇&董文彧
编辑|林颖
供稿|eBay支付风控团队
本文共7117字,预计阅读时间15分钟
更多干货请关注“eBay技术荟”公众号
导 读
“亿展宏图”是eBay 支付风控团队推出的系列文章,分享了eBay风控团队工作在图算法方面的一些理解和研究。在上期的亿展宏图 第一篇|两张图入门图算法里,我们介绍了什么是图、图算法的应用和演化过程三个方面,从中可以看到图算法的一些优越性。本期亿展宏图,我们将从图上的机器学习算法入手,介绍图神经网络的基础,并把图放到eBay支付风控领域中,谈谈它的实际应用。
背景
由于移动电子设备和互联网技术的发展,现代风险管理中,有组织、有专业技术的团伙欺诈所占比例越来越高。根据某咨询公司的调研[1],在支付场景中,10%~30%的欺诈属于团伙作案;在信贷场景中,40%~50%的欺诈属于团伙作案;在账户盗用场景中,团伙作案的欺诈占比竟然高到50%~80%。常规的规则模型和有监督的机器学习模型对团伙作案的识别都存在着局限性。首先,现代化欺诈作案中涉及的设备类非结构化数据(如设备ID、Wifi等)很难加工成特征,而被监督模型所使用的;其次,有监督的机器学习模型主要评估的是个体风险,而个体之间的相关关系是很难有效地进行捕捉;再次,有监督的预测模型是根据历史已经发生的样本进行学习,即仅仅学习了历史欺诈模式,很难快速识别未知的新型风险模式。基于图的机器学习方法,通过构建交易或者账户之间的关联关系,可以帮助我们解决这些问题,有效捕捉团伙风险和挖掘未知风险模式。其中,图神经网络作为工业圈和学术圈的“网红”算法,在风险预测的过程中,由于既考虑了个体风险,又考虑了其所在群体的拓扑结构及其风险特征,且通过端对端的学习,可以非常高效地预测风险。一、
图神经网络基础介绍
1、图上的机器学习算法
图上的机器学习算法就是将机器学习应用于图数据。图(graph)近来正逐渐变成机器学习的一大核心领域,比如你可以通过预测潜在的连接来理解社交网络的结构、检测欺诈、理解消费者行为或进行实时推荐。在图上做机器学习算法,目前主流的有以下三种范式:
1)图拓扑结构特征:图上提取各类反应图结构的手工特征,比如中心度、三角形个数、局部聚类系数等,然后与风险特征拼接,用于下游任务的学习。
图拓扑结构特征
(点击可查看大图)
2)图嵌入(Graph Embedding):在图上利用随机游走的方式进行嵌入(Embedding),将嵌入与风险特征拼接用于下游任务的学习。
图嵌入
(点击可查看大图)
3)图神经网络(Graph Neural Networks,GNN):在图上利用图神经网络,通过端对端的方式,在一个学习过程中进行任务学习。
图神经网络端对端学习
(点击可查看大图)
对比上面三张图的机器学习算法三种范式,可见前两张图都是先进行图的结构学习,再与属性特征融合进行下游任务学习,这两个学习任务是割裂的;而第三张图中,图神经网络的结构学习和下游任务是端对端的一个学习过程,比起割裂的学习更加高效,性能也更好。
图神经网络(GNN)的某一层
第一阶段:信息传递(Message),对邻居节点的Embedding进行消息传递;第二阶段:聚合(Aggregation),对邻居节点的Embedding进行聚合处理, 不同的GNN对应的聚合方式会有不同, 譬如取均值,加权求和,做基于长短期记忆(LSTM)变换处理等。
为了更好地明晰GNN这个过程,我们可以从数学视角来理解一下节点Embedding的更新过程。以一个最基础的GNN版本为例,如下图所示公式,首先初始层的Embedding为节点本身的原始特征,第k-1层Embedding的邻近信息的均值与它自己前一层的Embedding加权求和后,进行非线性变换(比如ReLU等),经过K层(K为整数)这样的邻居信息聚合之后就为该节点在叠加K个GNN层之后的Embedding。
神经网络数学表达[2]
(点击可查看大图)
可训练的权重参数
归纳式学习[2]
直推式学习
根据消息的聚合方式不同,目前有图卷积网络(Graph Convolutional Network,GCN)、GraphSage、图注意力机制(Graph Attention Networks,GAT)等最常见的消息聚合方式。
GCN(2017)
(点击可查看大图)
GraphSage(2017)
(点击可查看大图)
GAT(2018)
(点击可查看大图)
二、
风险管理领域中图神经网络算法
当我们团队把GNN这个“网红”算法应用在风控领域的时候,我们先在大规模图算法的可拓展性进行研究,使得算法在我们包含十亿级别的点和百亿级别边的交易图上是可以“跑”的动,“跑”的快的;其次,研究更有效地构图来适应风险场景,譬如异构图和动态图。在真实场景中的图,包括风控场景里的图,都是异构性的。所谓异构性就是指,图中不是只有一种节点类型,而是有丰富的节点类型,用来反映各种关联关系。而且,欺诈是动态演变的,时间因素在图的构建中也是非常重要的。另外,在风险场景中黑盒模型的可解释性也是我们特别关注、研究的话题。图神经网络作为一种黑盒模型,我们探索了GNN解释器,使得我们可以知道哪些子图结构和节点属性对GNN的预测起着作用。这样就可以依赖和信任我们的模型来帮助我们在风控方面做出决策。最后,我们在传统图构建的“硬”连接基础上,利用行为属性相似性等特质构建图上的“软”连接,如此就能借力图算法更全面地捕捉风险。
eBay支付风控团队的图算法研究
(点击可查看大图)
1、可拓展的大规模图算法工业级别的数据量,由于其量级过大,而对图模型训练提出了巨大的挑战。目前主要有如下两种方法解决大规模图训练的问题。1)对图进行“瘦身”:在很多风险场景的使用过程中,我们只是对图上有风险的节点更为关心,因此我们需要对图进行“瘦身”,对其他信息进行剔除。如下图所示,我们在构建初始的大图时,以每个风险节点作为种子(Seed),计算每个种子的局部社区,然后再把所用种子的局部社区合并在一起。这样构建起来的风险社区图(Risk-community)就是我们最为关心的图,也就是精炼后的图,它是识别欺诈的关键信息。但它远小于全图,所以在风险社区图上跑各种图神经网络算法就毫无压力啦!
海量交易数据定位欺诈团伙分析图
(点击可查看大图)
图神经网络mini-batch 训练的采样范式
(点击可查看大图)
自动图分解技术的GraphCNN
(点击可查看大图)
3.1 异构图神经网络
常见的图算法基本是作用在同质图中,图中的节点类型和关系类型都仅有一种。然而,在真实世界中,图几乎都是异构的,比如在风险中我们的交易图。在交易发生过程中会使用到很多实体(图上表现为节点),除了交易本身,比如IP邮箱、邮寄地址、设备ID等都是图上的节点。异构图相比同构图可以提供更多的信息,减少了冗余边,并且能展示更好的连接关系。针对异构图的特征和优势,我们也在现有的异构图神经网络算法上做了优化。我们把节点类型也作为Embedding,和节点交易风险的Embedding合并,通过多头注意力机制进行端对端的学习。我们提出的异构图神经网络算法与SOTA的HGT效果持平,且学习效率提升了8倍。同质图和异构图
(点击可查看大图)
在风险领域中欺诈具有非常明显的时间动态性,因此动态图经常被用在风险管理中,以此来提升模型的风险捕捉能力。现有的动态图神经网络处理中,每个时间切片为一张静态图,然后构建多个包含时间序列的静态图反映图随着时间的动态效果。在这种构图方法中,每张静态图都需要加载,然后通过注意力机制学习每个时间切片之间的关系。可以看到这种方法处理大规模图是非常受限的,而且会产生一定程度的信息损失。我们的优化方式非常“机智”地把时间看成某种意义上的时间边,从而把动态图拓展为异构图,就可以使用我们常规的异构图神经网络框架啦。
动态图设计示意图
(点击可查看大图)
在风险场景中,我们希望模型具有可解释性,知道模型是如何做出预测的。这样我们的业务人员才能信任该模型,并且从中学习到新的风险模式和相关领域知识。图卷积神经网络是复杂的黑盒模型,GNNExplainer(如下图所示)的目标就是在全局计算图中找到一个子图和一组重要特征,使得使用这个子图以及重要特征预测的结果与使用全图和全特征预测结果的差距尽可能小。与此同时,子图和重要特征也要尽可能小,也就需要对结构性进行正则。
图神经网络解释器优化原理[7]
(点击可查看大图)
5、基于相似性的软连接
在以上的介绍中我们主要使用“硬”连接进行构图,比如交易之间使用相应的IP、邮箱邮寄地址等。但是,欺诈集团的作案技能在不断演进,他们也通过技术手段不断在绕开这些所谓“硬”关系引起的连接。然而,这些关联账号或其交易背后的行为模式却很难伪造。因此,我们也利用行为模式的相似性构建图上的软连接。在具体实现过程中,我们利用基于BI_LSTM无监督技术,学习行为序列的Embedding。然后利用自研的GPU版本的HDBSCAN对千万级别的交易流水进行相似性聚类,如下图所示。若有属于同一个类且满足给定密度条件的交易,我们即可认为这是图上的软连接。通过丰富图上的关系,进一步提升风险的捕捉能力。
交易行为序列聚类图
(点击可查看大图)
三、
eBay风控场景中的应用案例
我们支付风控团队基于图神经网络有各种有意思的研究。我们将这些研究有效地应用在支付风控领域,下述为图算法在eBay支付风控场景的两个应用案例。反洗钱是合规(compliance)领域最重要且最复杂的场景之一,这是由于以下三个方面:
① 待甄别的异常交易数据量巨大。
② 中间节点多,尤其是涉及跨平台资金链路,路线复杂噪声极大,容易歧路亡羊。
③ 隐蔽性强,一般的洗钱账户从表面看都是“乖宝宝”,退单(chargeback)和索赔率(claim rate)都相对很低。
针对如此复杂的反洗钱场景,eBay风控团队采用人机结合互补的思路,通过交互式可视化(Interactive Visualization)的方案,将图算法和人工研判相结合,以此来使洗钱风险的识别更有效。下面我们来看一个识别可疑交易的真实案例。此案例是通过我们自研的GraphLab平台上实现的。GraphLab平台是我们自研的一款基于图算法的图可视化平台,通过图算法和有经验的风控人员实现人机互补,共同完成案件的挖掘和调研,其中有一个重要的功能——动态网络图(如下图所示),以实现社区发现和形态识别算法。图片的上半部还原了一个局部交易网络的发展历程(historical replay),同时下方的时间轴相应地展示了在各个时刻该网络的交易量(Gross Merchandise Volume,GMV)。
动态网络图
(点击可查看大图)
这是我们捕捉的第一个疑点,通过图算法我们可以高效、高精度地提取此类模式网络,为下一步人工研判提供了准确的线索,并节省了大量时间。通过数据仓库的交易数据直接计算得到进出资金流图(如下图所示),通过该静态的统计图可以明显看到每次的进(蓝色)出(橙色)资金几乎完全镜像对等。这和我们日常的交易模式不符,很可能是在进行有目的的资金转移。这是我们捕捉的第二个疑点。
进出资金流
(点击可查看大图)
网络全景图
(点击可查看大图)
2、支付风险
“三角欺诈”(Triangulation Fraud)是一种经典的信用卡欺诈模式,涉及到三方参与——盗卡方、贪小便宜方和受害方。首先盗卡方窃取了受害方的信用卡,然后通过“代买低价折扣商品”的方式吸引贪小便宜的买家,进行套现。当贪小便宜的买家下单后,盗卡方就使用受害方的信用卡在正规渠道购买正价商品并发货至买家,而将买家支付的钱占为己有。在这种欺诈模式下,往往受害人是不擅长科技的老年人,因此不容易第一时间发现受害的事实,同时由于信用卡产生的交易都是正规交易,无论从商品信息、交易行为等各个侧面都没有明显的可疑特征,导致此类案件具有较高的隐蔽性。另外,每次信用卡的窃取都是“即盗即用”的。当事后发现信用卡进行了大量可疑交易并办理冻结时,往往已经于事无补了,而盗卡者已经”大功告成“,甚至已经开始新一轮的欺诈了。
一个购买低价日用品的连环三方欺诈案例
(点击可查看大图)
三角欺诈模式通过“贪小便宜”方建立起传播链路
(点击可查看大图)
我们通过图算法发现:贪小便宜的买家往往会连续“参团”购买低价商品。通过他们的连接就可以让我们第一时间发现新产生的欺诈案例。
四、
总结
在支付风控领域,我们基于图神经网络有各种有意思的研究,并分享了在eBay风控领域的实际应用案例。通过这些研究,我们发现了之前所忽视的风险类型和欺诈模式。在随后的亿展宏图系列文章中,我们会从算法和业务应用上详细展开,让大家对图神经网络在各自的应用场景中落地有所启发。下一期文章将分享各种提升图神经网络训练的方法。下期内容也精彩,千万不要错过呦!
参考资料:[1]DataSource: https://www.slideshare.net/DataVisor[2]Stanford CS224W: Machine Learning with Graphs, http: // web.stanford.edu/ class/ cs224w/[3]Semi-Supervised Classification with Graph Convolutional Networks. ICLR 2017[4]Inductive Representation Learning on Large Graphs. NIPS 2017[5]Graph Attention Networks. ICLR 2018[6]Sampling methods for efficient training of graph convolutional networks: A survey[7]GNNExplainer: Generating Explanations for Graph Neural Networks. NeurIPS 2019)
往期推荐
亿展宏图 第一篇|两张图入门图算法
点击阅读原文,一键投递