查看原文
其他

【产业实践】博士毕业后,他在淘宝“扫垃圾”?


相信在座各位网上冲浪时,总会遇到一些“葬爱家族”式的文字:

“胃”、“叩—裙”、“9え”、“发嘌”……




这些词语的出现,不单单是追求个性这么简单,更多的是为了规避系统排查,以便发送成千上万条“垃圾信息”。


这样的情况在淘宝、旺旺等平台上泛滥成灾,堪称互联网时代的“牛皮癣”。


而有这么一位叫刘翔宇的博士,他和团队在阿里巴巴每天的工作,便是扫除诸如此类的垃圾。


2016 年,《网络安全法》和《国家网络空间安全战略》正式通过,社会对于网络环境治理和网络安全的关注度迅速飙升。随着这股浪潮,香港中文大学博士毕业的刘翔宇在阿里找到了一份做基础安全研究的工作。


后来,由于工作需要,他的研究慢慢聚焦到了淘宝交互内容、旺旺、直播弹幕等的内容安全治理。他和他的同事也在这个过程中,变成了为阿里巴巴 " 扫垃圾 " 的人。


这里的垃圾不是我们现实生活中的垃圾,而是网上的不法灰黑产从业者为了勒索淘宝商户,向商户群发的高达上百万条的垃圾信息。


对于清扫垃圾内容的 " 刘翔宇们 " 而言,阿里这座城太大,人力不可能覆盖每一个角落。除了加强算法,好像没有更好的方式来对抗黑灰产的 " 垃圾 " 攻击。


如何用更高级的算法,对这些 " 变异 " 的垃圾信息做到秒级精确处理?刘翔宇和一众算法专家开始了与变异黑灰产的斗智斗勇。


工作中的刘翔宇


01疯狂的 " 推销者 " 日发百万条骚扰信息


如果你曾厌恶电线杆上的牛皮藓,那么也会厌恶一个 24 小时不停按门铃推销的人。


黑灰产通常掌控上千个账号,并编写程序,利用机器海量给商家群发信息。他们有的会发一些刷单、欺诈信息等违法内容,但更多的是营销、店铺代运营等各种招揽生意的广告,像极了那些上门捣乱的人。


黑灰产团伙通常会在很短的时间内把大量的垃圾消息海量群发给商家。他们嗡嗡不停,少则一天群发几万条信息,多则一天上百万条,最疯狂时,一分钟就能群发上万条信息。


旺旺上线 " 戳一戳 " 的新功能后,有的黑灰产试图编写程序,同时 " 戳一戳 " 上万人。被 " 乱戳 " 的主要是新商家,这样的骚扰可能会让初入淘宝大门的商家不胜其扰。


最难的是,对于这些 " 乱戳 " 功能,刘翔宇们还不能一刀切。因为旺旺上也有一些采购量非常大的买家,这些买家一般会多方比价,最多时会一次性发给上千商家询价,这是平台允许的正常经营行为。


这些难点都要求阿里安全的算法在识别垃圾信息上必须又快又准,还不能误伤商家。


后来,刘翔宇和同事们用算法分层识别等策略,不仅减少了误识别风险,同时也实现了对大量垃圾信息的 " 秒级撤回 " ——发现黑灰产群发的垃圾信息后,系统在一秒内可撤回信息,尽可能减轻对商家的影响。


作为组合措施,阿里安全内容安全管理团队每天也会对一些违规账号采取进行扣分、禁言、封号等等处罚,每天处罚的账号数量会达到上万个。但大多数情况下," 垃圾清理人 " 面对的不是散兵游勇,而是黑灰产有组织有策略的团伙作战。


仅靠封禁一个账号,解决不了所有问题。


02不断变异的进攻


" 他们应该是专业团伙,按照攻击时间,可以看出他们每天也有固定的上下班时间,不少人应该是学计算机相关专业出身的,甚至是像我们一样做过安全防控的人,这些人对安全防控非常了解,会用智能化手段对抗,比如他们会发测试信息,对我们的拦截做试探再做调整。" 刘翔宇说。


敌暗我明,刘翔宇不知道对方什么时候忽然发动攻击,而且黑灰产团伙针对防守者的攻击,每周少则几次,多则十几次,往往最猛烈的攻击发生在凌晨。" 明显是故意的,就是让你很难受。"


尤其是 " 双 11" 大促期间,黑灰产非常疯狂,发出的垃圾信息量比平时多几十倍。刘翔宇说:" 临近大促节日的晚上,垃圾信息像消费者去抢‘秒杀’一样呼地一下就上去了。他们很聪明,知道‘双 11 ’期间用户最活跃,这就需要我们提前做好预案防控,把他们赶出去。"


狡猾的黑灰产还会想尽办法通过 " 变异 " 试图突破安全防线。原本,阿里系统内有一套规避这些垃圾信息的排查系统,但黑灰产了解到一些基础算法规则之后,会故意把一些关键词用音、形、义相近的字词代替,比如 " 胃 "、" 叩 -- 裙 "、"9え"、" 发嘌 " ……以规避排查。


最初," 垃圾清扫人 " 几乎晚上睡觉都不踏实,总觉得黑灰产进攻后,系统的提示声随时会响。为了对抗 " 变异 "," 垃圾清理人 " 必须持续收集变异情况,升级模型。


" 垃圾清扫人 " ——算法专家在商量对抗策略


在这些算法专家的努力下,淘宝利用神经机器翻译和多模态词嵌入技术,增强了垃圾文本内容风险识别系统的性能。


刘翔宇介绍,基于主动生成的对抗平行语料,利用神经机器翻译技术,构建对抗纠错模型,可消除黑灰产发出的内容对抗扰动。同时,利用多模态词嵌入技术提取垃圾文本的语义、语音、字形特征,并通过多模态融合机制有效地增强系统针对基于义近、音近、形近等文本变异的鲁棒性,可进一步提供系统识别准确率。


现在,刘翔宇和他的团队打造的算法已能够自行理解某个字和与它音形义近似的字的关联,识别准确率高于 98%,可有效新增识别变异违规文本内容 50% 以上。


此外,算法专家还开发了 " 变异垃圾语言 " 翻译功能,系统可以将 " 变异信息 " 翻译回正常语句。由于对抗垃圾信息的相关前沿技术在实际应用场景应用效果显著,刘翔宇和团队成员的技术成果获得了国际顶尖 AI 会议的承认,被 USENIX Security、ACL、WWW、SIGIR、IJCAI 等收录。


" 垃圾清扫人 " 用他们的 AI 算法在淘宝与发送垃圾信息的黑灰产打仗,日均铲除垃圾信息条数已达百万级。" 对抗是安全守卫永远的主题,夜晚也许有危机和喧嚣,但‘垃圾清扫人’永远在线。" 刘翔宇说。


点击下方关注我们,记得“星标”哦!

👇

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存