查看原文
其他

为什么图计算能正面硬刚黑色产业薅羊毛?

亲爱的数据 亲爱的数据 2023-03-26

原创:谭婧

全文审核专家:朱小坤


场景一:电商给新用户的补贴,黑产账户薅走了。


场景二:每当竞争店铺花钱打广告,就立刻雇佣黑产账户一顿疯狂恶意点击,竞争店铺在线广告费一会就花没了。


场景三:一个不咋地的商品,好评一千条,虚假评论误导消费,我浏览完商品评价,都差点信了,好在兜里没钱,买不了。


数字时代,黑色产业团伙就在身边,伺机而动,假账户,薅羊毛,刷流量。


要像破案一样,掌握黑产行动规律,得用图计算技术。


头部电商APP的注册账号可以高达四亿以上,不免混入不明身份之辈,比如黑产操控的账户。


从几亿账户中找到“异常”账户谈何容易,而一个很好用的破案线索叫作“关系”。


“找关系”的本质是在图这种数据结构上挖掘信息,也可以称呼为“图挖掘”。


(还可以看这篇文章:《原来,知识图谱是“找关系”的摇钱树?》)



黑产账户常常团伙作案,且早学会了伪装。除了作假,黑产账户会有正常的浏览和购买,专门迷惑人。


可以说,这些黑产账户有智商,但不高。


它们的“智商”足以让常规系统无法辨别。


如何用图挖掘技术“找到”它们呢?


用一个想法巧妙的图挖掘算法。


这一算法原理好比浓缩咖啡。把一大杯咖啡,浓缩成一小杯。记住“浓缩”这个动词,很关键。


浓缩的过程,是把不可疑的用户从图里不断移出来。


把一张全局大图浓缩出最可疑的小图,黑产控制的账户就藏匿在里面。



电商场景的图里可以有很多类别的顶点,商店,商品,账号,品牌,设备等等。


我们只选两种顶点,一种是商品,一种是购买商品的所用的设备(手机,笔记本电脑都行)。


最开始,建一个“下单手机”和“商品”的二部图(只含有两类顶点的图)。


在某个电商APP里面下过单的所有手机都以编号的形式 “画”在图里。


下单手机和商品之间的关系包括购买,浏览,收藏,加购。


第二步,引入“可疑度”来量化每个下单手机作弊的可能性。


下单手机的可疑度怎么计算呢?一台手机下单的次数(也称顶点入度),计算每个顶点的可疑度。


算法设计可疑度的巧妙之处,就是能分辨得出作弊和非作弊的边界,从而找到作弊团体。




最开始的时候,图里既有作弊的账户,也有正常消费者的账户。毕竟,作弊的人是少数。


一个用户关心的商品占平台商品总量的很少很少一部分,所以呈现出一张稀疏的二部图。





电商的二部图的全局规模很大,顶点数量可达到几十亿,边数量可达几百亿。当之无愧工业级图数据。


我们的目的,就是找到那张“边”最密集的局部图。

我要用一个与顶点数量无关的量来刻画最后的结果。就好比,液体浓度和盛液体的容器没有关系。


不断删除可疑度最低的顶点。相当于,在不断地浓缩可疑度的浓度。


第三步,再用贪心算法的思路,动态删除最小可疑度顶点。


于是,可疑度小的顶点被一一删除,留下那些可疑度大的顶点。


这个图挖掘算法叫啥名字?


这是Fraudar算法,来源于2016年的KDD会议,是美国卡耐基梅隆大学克里斯托·法拉特(Christos Faloutsos)教授团队论文,并获得了当年的最佳论文奖。


图计算正面硬刚黑产薅羊毛的行动还在继续,随之而来的是图深度学习技术的灿然一新。


作弊手法绝不会一成不变,Fraudar算法不能抓到所有的黑产账户。


Fraudar算法只用到了图结构的信息,还有更多信息没有用起来。


有的账户频繁切换IP,频繁切换手机的操作系统等等,这些都是逃避”抓捕“的异常行为。


加入特征,用图深度神经网(比如GraphSAGE)做分类任务,区分“好人”“坏人”,这样就能找到更多黑产账号。


最后,多轮分析和验证,证明抓出来的账户是黑产账户,以免误伤好账号。


图深度学习一种强有力的工具,用于反黑产时,像一面照妖镜。


能把图深度学习用得好的企业,那都是高手。根据亲爱的数据可靠消息,你手机里的那些知名的APP,淘宝,支付宝,京东商城,小红书等等都在使用这一技术。


(完)



全文审核专家:



更多阅读


漫画系列

1. 万字大稿深度解读硅谷风投A16Z“50强”数据公司榜单

2. AI算法是兄弟,AI运维不是兄弟吗?

3. 大数据的社交牛逼症是怎么得的?

4. AI for Science这事,到底“科学不科学”?

5. 想帮数学家,人工智能算老几? 

6. 给王心凌打Call的,原来是神奇的智能湖仓

7. 原来,知识图谱是“找关系”的摇钱树?



AI框架系列:

1.搞深度学习框架的那帮人,不是疯子,就是骗子(一)

2.搞AI框架那帮人丨贾扬清独家专访(二)


DPU系列:

1.造DPU芯片,如梦幻泡影?丨虚构短篇小说

2. 永远不要投资DPU?

3. DPU加持下的阿里云如何做加密计算?

4.哎呦CPU,您可别累着,兄弟CIPU在云上帮把手


其他:

1. 我怀疑京东神秘部门Y,悟出智能供应链真相了

2. 超级计算机与人工智能:大国超算,无人领航

3. 隐私计算:消失的人工智能 “法外之地”

4. 售前,航空母舰,交付,皮划艇:银行的AI模型上线有多难?

5. 两大榜单揭晓啦,2021年中国高性能计算机性能TOP100+国际人工智能性能排行榜AIPerf500



最后,再介绍一下主编自己吧,

我是谭婧,科技和科普题材作者。

为了在时代中发现故事,

我围追科技大神,堵截科技公司。

偶尔写小说,画漫画。

生命短暂,不走捷径。

个人微信:18611208992

还想看我的文章,就关注“亲爱的数据”。  



分享、在看、点赞、打赏 ,都是爱

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存