导读 本文将介绍人工智能在跨境风控中的应用,偏重于实际落地。主要围绕下面三点展开:
1. 我们是谁
2. 智能化的风险防控体系
3. 跨境风险防控实践
分享嘉宾|郑毅 同盾科技 算法专家
编辑整理|孔祥毅
出品社区|DataFun
01
我们是谁
我们叫小盾科技,是同盾下面的子品牌公司。我们做的事情主要聚焦于跨境相关的内容。
随着国内的流量见顶,国内的商家或者平台都开始去做各种各样的出海业务。在出海的过程中,会产生很多风险。这些风险有些是我们在国内碰到过的,有些则是海外特有的。我们现在做的事情就是聚焦于海外的风险。我们现在的服务器主要在北美、欧洲、新加坡和印尼。我们的客户繁多。公司的出发点是希望能够提供SaaS服务,所以我们接入的商家和平台也会比较多。上面有一个比较标准的地址,假如我们单纯从策略的逻辑去防控这个地址的话,其实难度是非常大的。因为通过这个标准地址,我们可以衍生出很多变异地址。然后通过变异地址,还可以衍生出很多进阶版变异地址,变异不可枚举,所以从规则逻辑上很难防控。我们做的事情,就是把变异地址做成相应的特征向量,在特征空间里去求各个特征向量之间的相似度,从而实现地址的相关防控。因此,我们与传统风控是有一些差异的。传统的风控一般是以名单和规则为主,其主要目的就是快速止血,快速上线,能够比较有效地防控一些已知或简单的风控场景。这种方式适用于大部分的通用的场景,但是对于一些复杂场景,或者是一些特征不可表述的,比如文本、图片相关内容,是很难做到有效防控的。我们现在做的事情就是希望借助更多的数据,以更多的方式,基于我们底层的工程能力,去做基于我们算法的风险防控。但是,基于算法的风控防控,对于我们来讲,也是有一些问题的:因为我们是一家三方公司,除了我们自己的埋点和SDK的采集,设备指纹相关的数据,其实我们是不生产和加工业务数据的,我们的业务数据来源完全依赖于客户。所以我们这边模型或者算法,做的好不好,效果落地怎样,高度依赖于客户自己的数据治理能力,以及他给我们的数据质量和数据维度。因此衍生出另外一个问题,如何能够在数据比较贫瘠,或者说数据密度比较低,上游数据不统一的情况下,做好算法服务。第一部分是最核心的决策场景,最外围的是通用场景。决策场景我们希望尽可能的贴紧业务,拿到更多的业务指标,然后在这个场景下做效果。在通用场景下,我们更追求的是接入商家的数量,因为最终还是要做一家SaaS服务公司。所以我们现在的形式就是,通过把上游的指标拆分,我们会要求客户给一些必传的指标,也就是我们定义的通用指标。有一些是行业的通用指标,比如电商行业,一般都会有支付信息、邮箱、收货信息、物流信息等。还有一些是业务特有的指标。以及客户特有的定制指标,比如我们的一些大客户的指标可能是别的行业没有的,他的行业也是一个很细分的行业。我们现有的模型能力,是通过在指标上做拆分,然后在模型层面上考虑如何将指标糅合到一起,而不是通用的一套统一的大模型去做。也就是在底层把模型拆分,在上面的应用层再把模型进行打包。上图是我们现在比较统一的数据流转和防控的一套体系。底层依赖于我们各种各样的平台以及相应的采集,基础的决策引擎能力。中间,在底层的基础上,会做一些数据的加工开发,还有偏向于指标特征的标准化,以及指标的分类入库。再往上就是我们的算法能力的开发,我们的算法能力强依赖于中间的数据加工层的内容,因为数据加工返回的特征会决定上游算法入参的数据,我们的算法也会根据上游的数据加工产生的指标,进行特有模型的开发。最后就是应用层,我们会通过一套决策引擎,把我们的算法能力引入到最后的实时或者离线的决策中去,与我们现有的规则能力做绑定。先来介绍一下现在的行业背景。因为现在出海的商家越来越多,我们接触到的比较多的是电商、直播、泛娱乐类的出海项目。在出海过程中,大家的玩法也会不断产生一些新的变化,有些风险在国内的环境下是没有的,是基于出海场景下新增的风险。基于上述背景,我们的业务安全分为3大部分:身份、交易和营销。身份,是一般的准入,风险就是垃圾账号、盗号养号,这些风险在国内其实是比较通用的。交易风险和国内的风险差异比较大,因为出海对合规的要求,信用卡支付的要求,和国内的大环境完全不一样。营销的风险跟国内现有的差异不是特别大,包括薅羊毛、裂变拉新、虚假秒杀等等。第一类是拒付。与国内的环境不同,海外大部分消费都是信用卡支付的,这就会产生拒付的问题。海外对信用卡的管控相对没有国内那么严,在能拿到卡号和后面的卡bin的情况下,很多线上场景都是可以做支付的。如果一个用户不管是正常消费,还是被盗刷以后,他向银行提起拒付申请,这时银行有很大概率会把这笔钱退还给消费者,然后再去找相应的平台去索赔这笔金额。所以对于商家来讲,这种情况下,他损失了这笔订单交易的金额,同时货也发出去了,就会出现人货两空的情况。同时各个渠道也会对商家的拒付率进行考核,严重的情况下,如果商家的拒付率高的话,渠道会把商家的支付通道关闭掉。内购,相对上面的拒付来讲,风险可能会更高,因为拒付还是要依赖一些真实的物流,有线下的交易场景。内购的风险则更加多种多样,比如我们经常看到电视上未成年人在游戏里面消费金币钻石之类的场景,事后家长发现,对游戏公司提起申诉,提起拒付,但这个时候未成年人买的金币或者是钻石已经消耗掉了,游戏公司基于法律法规的要求,还是会把钱退回给家长,在这种场景下,游戏公司或者是这种泛娱乐公司,对于钱款的流动能力,是缺少一定的约束力的。在这种场景下,它的金币会损失,钱也会被追讨。另外,内购场景下的追讨,也和拒付场景有一定的差异,因为内购场景下,一般都是虚拟物品,没有银行卡卡号,没有收货地址,同时这个场景下我们一般是要做偏向于实时拦截的动作,因为事后的拦截对于这个场景的增益基本是没有的。但是在拦截的时候,会阻断商家的正常交易,这时需要给商家的相应订单做一些解释,才能让商家觉得我们的拦截是有效的。我们这边对于内购和拒付的场景做的更多的是基于我们采集的序列数据,因为很通用的想法是,一个正常的用户,和一个恶意要拒付的用户,他整个购买产生的时间链路,包括埋点的链路,其实是完全不一样的。比如上面的举例,一个正常的用户,买一双鞋,他做的事情,可能是先浏览一些相关的类似的鞋,最后才会去下单和支付。而黑产或是恶意拒付的用户,他可能看到这个内容以后,就直接加购和支付。从这个逻辑上讲,他中间产生的埋点数据,和最后的结果数据,应该是一个强关联的数据。所以我们现在所有的,基于内购或者拒付的交易场景,很多都是围绕商家的用户行为以及埋点来做的。这种做法还是有一个问题,我们现在能拿到的数据是非常有限的,我们的商家遍布海外,每个地区的作案手段、形式都不太一样。比如,我们已知的,南美的拒付率,恶意欺诈率会非常高;北美的就相对低一些。欧洲,意大利的拒付和欺诈率会非常高。中东,又是另一套模式,他们的快递很多都是放在门口,快递被偷盗的事情非常多。如果快递被盗了,他们很有可能去申诉理赔,这时对商家来讲又产生了拒付。所以我们希望在这么多场景下,能够尽可能地细化我们的模型,尽可能拿到更多的样本,但事实上,商家能给到我们的样本是非常有限的,我们能拿到的黑样本的量也是比较少的。所以我们在已有数据的情况下,对数据序列做相应的mask,然后把中间的一些节点遮盖住,基于遮盖住的节点,做前期的自监督和预训练的模型,希望通过预训练加上后期新增黑样本的微调,让模型达到一个相对比较好的效果。我们的序列是比较通用的序列形式:最下层是事件序列,事件序列就是用户的点击、浏览、加购,浏览的网址之类的一些东西。我们会把事件序列加上我们在这个场景下可以拿到的一些上下文特征信息,比如用户的一些信息,购买的独立站的商户的一些信息,以及时间的一些信息等等。这里面的信息涉及的内容比较多,因为每个商家给过来的东西会不一样,给过来的原始数据也不一样,我们这边拿到的行业数据也不一样,我们有时也会去参考一些三方数据,拿到的其实也不一样,所以这里面的上下文的特征会比较庞杂,但是比较通用的就是我们前面所说的事件序列。在这一层我们会做比较通用的Embedding,然后加上上面的分类算法,包括CNN、LSTM、Transformer等算法。这套逻辑在我们的交易场景中是比较通用的,因为我们希望能有一个相对通用的方式,应对尽可能多的客户。如上图所示,我们会把客户从头到尾的数据全部进行串联,加上客户特有的数据,以及我们能拿到的行业数据,再加上我们积累的已有数据,将数据全部放到Embedding层之前,BN Layer这一层,然后做合并。通过这种方式,整体效果,相对于传统的机器学习方式,能有2-3倍的召回提升。因为这个是完全依赖于用户的行为产生的,不是特别依赖于客户的业务数据,通过这种方式,我们对接各个客户成本是最低的,不用为每个客户单独设计一套复杂的特征工程的能力,用传统的机器学习方法去做召回,那样对于我们成本也会非常高。接下来介绍营销方面。海外的营销和国内的营销玩法差不多,营销的初衷就是希望通过活动吸引更多的用户。但是有一些海外市场和国内市场一样,存在一些个体的薅羊毛的行为,也存在一些集体的黑产行为。比如我们最近做的巴西、科威特市场,他的营销相关的公司,营销做的很多,但是很大量的资金被黑产或者是薅羊毛的用户给薅走了,对公司来讲是很大的损失。营销的逻辑类似于国内拼多多的”砍一刀“,他们最后的情况就是拿现金。我们的算法就是基于我们自己的图谱能力,去构建了营销的一张大图,我们是在大图的逻辑上去做算法和数据能力的一些挖掘。因为营销这个场景下有一个比较天然的从属关系,不像传统的设备账号这样的硬介质,这种介质形式的关系偏软。所以我们基于传统的大图的形式,在这个基础上做特征和数据的抽取,然后做有向图的构造。我们做的更多的就是上面这两种形式,一个是直播打赏,一个是营销拉新。基于这两种形式做图的关联和挖掘等能力。这里列举了一个方法,因为图最重要的就是定义节点,然后构造整个网络,再在这个基础上去做图数据的挖掘。我们用的最多的就是GNN的网络结构,会先根据随机节点的邻居的采样节点,再做聚合节点的信息聚合。因为我们每个节点上的信息都是不一样的,每个节点代表的主属性也是不一致的,有的节点是账号节点,有的节点可能是设备或者IP的节点,我们会基于每个不一样的节点属性去构建一张节点的特征,然后在此基础上,用数据的特征加上节点所在的位置关系,给每一个节点赋予一个分值,最后根据节点的分值以及节点所在社区的分值,来推测出风险的可能性。 通过这套方案,相对于传统的有监督的学习,或者规则的形式,我们可以多识别出30%的欺诈风险。这种形式存在一个比较大的问题,我们现在图的能力基本是属于事后的能力,但是在出海的场景下,我们很多是需要一些先验知识或者先验的能力的。比如,我们这边出海的物流的时间周期一般在2周到3周,等到用户产生拒付的时候,可能已经是1-2个月之后了,这个时候我们才能拿到他相应的拒付信息,对于我们来讲,整个信息的链路会非常滞后,所以我们希望通过一些别的方式拿到更多的黑样本,能够获得更多的先验知识,把这些先验知识更早地输入到我们的模型规则里面去。我们现在的形式和刚才的行为序列的形式是一样的,我们会把整个序列的能力,加上我们所有的业务信息,堆到一起去,然后去做深度学习的序列模型,加上我们自己别的团队的一些专家,特征的工程经验,生产出我们现有的规则的频繁项的挖掘,比如特有特征的挖掘,未知风险的挖掘。基于这套挖掘的能力,我们会将其输入到下游的落地的应用里面去,包括我们现在的线上的实时的模型服务,规则的服务,以及我们的模型样本的累加和添加,还有黑名单、灰名单的观察池等等。希望通过这套模式的跑通,能够对未知风险的发掘走在更前面,而不是被动地事后接收现有风险。我们这套逻辑对于整个效果是有一定的增益的,预估可以降低10%-15%的风险。而这部分风险主要就是对于我们缺少先验知识的一些补充,因为海外的环境和海外的作案方式,还有海外的黑产的形式内容,变化是非常频繁的。通过这套方式,希望能够尽可能早地发现未知风险。第一,我们的价值在哪里。很多场景下,通用的规则或者人肉加入的规则可能有比较好的效果。增益主要就是在非规则的约束,以及软边界的探查上。而且我们的泛化能力,相对于传统的规则来讲也有更好的效果。第二,样本的问题。样本在我们这里是一个比较大的问题,因为我们的客户多种多样,每个客户的能力水平,他自己基础的数据建设能力,都是参差不齐的。客户的标准也是不一致的,很有可能他们换了一个对接人之后,对于黑样本的评估,评价也会不一样。另外,也与客户的发展阶段有关,有的客户处于冲量期,对于黑样本的容忍度比较高,但是过了半年一年之后,历史上不是黑样本的样本,在这段时间又变成了黑样本,因为客户的评价标准不一样了。所以这部分对于我们来讲,是比较大的问题,我们需要有一套灵活的模型和规则,能够支持黑样本的边界的调整。第三,可解释性的问题。因为风控是一个负向业务,它不会主动产生价值。比如我们阻断了客户的交易,对于客户来讲可能是不认可的,他可能认为这是一个正常的交易,我们需要通过一个比较好的方式,把我们的逻辑告诉给客户,让业务方能理解阻断的原因。所以基于可解释性,我们也做了比较多的工作。我们现在的模型,大部分是基于机器学习来做的,这就要求我们在做特征和事后的可解释性挖掘的时候,去做更多的解释工作。第四,是一个老生常谈的问题,就是定制还是通用。我们希望有一个更通用的形式去支撑不同商家的不同场景,而商家对于风控的要求,是要做业务效果,如果我们为每个商家都去做定制化,成本会非常高。我们希望通过一套底层能力,能够对模型进行拆分,在拆分的基础上,既能够满足商家相对比较通用的需求,又能够给商家做一些定制化的能力,这也是我们一直在探索的点。04
Q1:您觉得整个跨境和做国内支付在风控上最大的差异或者难点是在哪?一方面是,市场监管的合规的风险,因为合规的话,每个国家的差异性会非常大,国内的话就是有一个大的政策,大家跟着政策走就好了,但是海外的政策他可能三天两头一变,今天可以传,明天就不能传,今天可以搜集,明天就不能搜集。所以对于我们底层数据来讲,我们的变动会非常大,我们怎样能够支撑频繁变动的政策,导致的数据差异性,是一个和国内的区别。还有一个是,跨境大部分的支付都是信用卡支付,国内大部分都是走支付宝或者微信支付,但是信用卡支付的话,很大一个问题就是信用卡厂商,包括visa,master,对于客户的照料是比较全面的,如果客户发生盗付以后,他们会优先把钱赔付给客户,然后他们再来找平台做扣费,然后计算平台的拒付率。平台其实对这部分损失来讲,就会比较大,因为他既要保证通过率,又要考虑到上游比如说visa,master对他的欺诈率相关的一些内容。Q2:您刚才提到的地址的能力,比如说我们的地址抽成向量以后,做成聚类是找什么可疑团伙?还是说我们做地址匹配时候,要用到向量数据库这样的能力?A:两种能力都会有,第一种更偏向于离线,我们会做一些离线的聚类挖掘,聚类的分析;第二种能力更偏向于我们做实时拦截,比如说我们在做黑样本,或者黑名单里面,添加了一条地址信息,然后我们会把他抽象成一个向量,当我们再来一个类似的请求之后,我们也会把类似的地址抽象成向量,我们来看他相应的距离,然后根据我们上游匹配的一些规则,规则引擎来拦截,来定义这个到底是合法还是非法的。Q3:海外洗钱的手法您了解有哪些,在数据或者防控上有什么建议吗?A:海外洗钱是我们另外一个团队在做,据我所知海外洗钱和国内整个的逻辑差异不是太大,很多场景下是利用一些平台的方式,利用一些海外特有的渠道去做的。
分享嘉宾
INTRODUCTION
郑毅
同盾科技
算法专家
郑毅,多年风控算法实践落地经验,涉及o2o,电商,泛娱乐等多个行业,现任同盾算法专家。