为什么图计算能正面硬刚黑色产业薅羊毛?
原创:谭婧
全文审核专家:朱小坤
场景一:电商给新用户的补贴,黑产账户薅走了。
场景二:每当竞争店铺花钱打广告,就立刻雇佣黑产账户一顿疯狂恶意点击,竞争店铺在线广告费一会就花没了。
场景三:一个不咋地的商品,好评一千条,虚假评论误导消费,我浏览完商品评价,都差点信了,好在兜里没钱,买不了。
数字时代,黑色产业团伙就在身边,伺机而动,假账户,薅羊毛,刷流量。
要像破案一样,掌握黑产行动规律,得用图计算技术。
头部电商APP的注册账号可以高达四亿以上,不免混入不明身份之辈,比如黑产操控的账户。
从几亿账户中找到“异常”账户谈何容易,而一个很好用的破案线索叫作“关系”。
“找关系”的本质是在图这种数据结构上挖掘信息,也可以称呼为“图挖掘”。
(还可以看这篇文章:《原来,知识图谱是“找关系”的摇钱树?》)
黑产账户常常团伙作案,且早学会了伪装。除了作假,黑产账户会有正常的浏览和购买,专门迷惑人。
可以说,这些黑产账户有智商,但不高。
它们的“智商”足以让常规系统无法辨别。
如何用图挖掘技术“找到”它们呢?
用一个想法巧妙的图挖掘算法。
这一算法原理好比浓缩咖啡。把一大杯咖啡,浓缩成一小杯。记住“浓缩”这个动词,很关键。
浓缩的过程,是把不可疑的用户从图里不断移出来。
把一张全局大图浓缩出最可疑的小图,黑产控制的账户就藏匿在里面。
电商场景的图里可以有很多类别的顶点,商店,商品,账号,品牌,设备等等。
我们只选两种顶点,一种是商品,一种是购买商品的所用的设备(手机,笔记本电脑都行)。
最开始,建一个“下单手机”和“商品”的二部图(只含有两类顶点的图)。
在某个电商APP里面下过单的所有手机都以编号的形式 “画”在图里。
下单手机和商品之间的关系包括购买,浏览,收藏,加购。
第二步,引入“可疑度”来量化每个下单手机作弊的可能性。
下单手机的可疑度怎么计算呢?一台手机下单的次数(也称顶点入度),计算每个顶点的可疑度。
算法设计可疑度的巧妙之处,就是能分辨得出作弊和非作弊的边界,从而找到作弊团体。
最开始的时候,图里既有作弊的账户,也有正常消费者的账户。毕竟,作弊的人是少数。
一个用户关心的商品占平台商品总量的很少很少一部分,所以呈现出一张稀疏的二部图。
电商的二部图的全局规模很大,顶点数量可达到几十亿,边数量可达几百亿。当之无愧工业级图数据。
我们的目的,就是找到那张“边”最密集的局部图。
我要用一个与顶点数量无关的量来刻画最后的结果。就好比,液体浓度和盛液体的容器没有关系。
不断删除可疑度最低的顶点。相当于,在不断地浓缩可疑度的浓度。
第三步,再用贪心算法的思路,动态删除最小可疑度顶点。
于是,可疑度小的顶点被一一删除,留下那些可疑度大的顶点。
这个图挖掘算法叫啥名字?
这是Fraudar算法,来源于2016年的KDD会议,是美国卡耐基梅隆大学克里斯托·法拉特(Christos Faloutsos)教授团队论文,并获得了当年的最佳论文奖。
图计算正面硬刚黑产薅羊毛的行动还在继续,随之而来的是图深度学习技术的灿然一新。
作弊手法绝不会一成不变,Fraudar算法不能抓到所有的黑产账户。
Fraudar算法只用到了图结构的信息,还有更多信息没有用起来。
有的账户频繁切换IP,频繁切换手机的操作系统等等,这些都是逃避”抓捕“的异常行为。
加入特征,用图深度神经网(比如GraphSAGE)做分类任务,区分“好人”“坏人”,这样就能找到更多黑产账号。
最后,多轮分析和验证,证明抓出来的账户是黑产账户,以免误伤好账号。
图深度学习一种强有力的工具,用于反黑产时,像一面照妖镜。
能把图深度学习用得好的企业,那都是高手。根据亲爱的数据可靠消息,你手机里的那些知名的APP,淘宝,支付宝,京东商城,小红书等等都在使用这一技术。
(完)
全文审核专家:
更多阅读
漫画系列
1. 万字大稿深度解读硅谷风投A16Z“50强”数据公司榜单
4. AI for Science这事,到底“科学不科学”?
AI框架系列:
DPU系列:
2. 永远不要投资DPU?
其他:
3. 隐私计算:消失的人工智能 “法外之地”
4. 售前,航空母舰,交付,皮划艇:银行的AI模型上线有多难?
5. 两大榜单揭晓啦,2021年中国高性能计算机性能TOP100+国际人工智能性能排行榜AIPerf500
最后,再介绍一下主编自己吧,
我是谭婧,科技和科普题材作者。
为了在时代中发现故事,
我围追科技大神,堵截科技公司。
偶尔写小说,画漫画。
生命短暂,不走捷径。
个人微信:18611208992
还想看我的文章,就关注“亲爱的数据”。
分享、在看、点赞、打赏 ,都是爱