查看原文
其他

双11的B面

周然 豹变 2021-01-16


「核心提示」


每年双11,阿里安全团队最大的任务就是确保系统不被黄牛和DDoS等恶意攻击流量打垮,同时保障进来的人都是好人,让所有正常用户能顺利、安全下单。2020天猫双11狂欢季当天,阿里安全用霸下和MTEE组成的智能风控体系,为经济体拦截超过59亿次恶意流量请求,同时击退了1887万次黄牛行为。



    作者 | 周然
编辑嘉辛


凛冬将至,为抵御长城以北的入侵者,守夜人军团在北境建立起了延绵数百里的长城和19座城堡,用于守护栖息地的安全。乔治·马丁在奇幻小说《冰与火之歌》中,颂扬着这群被称为“黑骑士”的影子军团。  


“把坏人拦在外,把好人放进来。”天猫双11安全总指挥典扬,乐意将自己和今年一起参与这场战事的同学,都比作“守夜人”——成千上万的商品已经躺在购物车里,备货和购物的资金也已准备就绪,这是最后的防线,他们要为上千万的商家和数以亿计的消费者防御黑客,拦截黄牛,对抗DDoS攻击,狙击各式各样的网络黑灰产行为。

典扬


12岁的双11已成为全球最大的购物节,典扬和他的战队面对的是这场狂欢中最不为人知的部分。事实上,他们也不想为人所知,“除了被击退的黑灰产,消费者和商家无感,才是这场战役最好的答卷。”


11月11日24时0分0秒,双11成交额定格在4982亿那一刻,典扬如释重负。


生死一刻钟:要么扛住要么瘫痪


“5、4、3、2、1!”11月11日凌晨0点0分,伴随着齐声大喊的倒计时,58.3万笔订单犹如洪峰,瞬间倾泄而下,在杭州市文一西路969号阿里安全作战室,这些流量的呈现是大屏上被智能风控体系层层过滤的字符。   

这是天猫双11创下的又一个历史记录,比2009年双11发端时的流量洪峰多了1457倍。    

“扛住了,流量平稳。”十几秒后,凝固的空气被欢呼声打破,有人开始起身鼓掌,典扬看到,右侧大屏上霸下处置的订单流量保持在58万笔/秒上下浮动,意味着第一波流量洪峰平稳过渡。    

每年双11,阿里安全团队最大的任务就是确保系统不被黄牛和DDoS等恶意攻击流量打垮,同时保障进来的人都是好人,让所有正常用户能顺利、安全下单。    

为做到这一点,他们前后花了多年时间,垒坝筑堤层层过滤,所有流量都会进入阿里智能风控体系。    

所有关于流量的风险种类和数值,都在大屏上呈现得一目了然。红色代表违规事件,蓝色代表正常请求,橙黄色代表恶意请求。智能风控体系要做的就是把蓝色用户请求放进来,过滤拦截掉代表恶意和违规事件的橙黄色与红色请求。   

“交易值在0点开始后的一段时间会冲到最高,这段时间必须拦住黄牛等恶意机器流量,如果防不住,就有可能引发系统大范围宕机瘫痪。”有10年双11安全作战经验的钱磊,是阿里安全的首席架构师,他这样介绍。


钱磊

对于安全来说,今年最大的不同是双11大促从原来的1天又增加了3天,这给安全风险防控带来了更大的挑战,以往只需要防住双11当天一个流量高峰,现在需要应对多个流量高峰防控,且是在没有增加资源和成本的情况下。


 “哪里有利益,黑灰产就会出现在哪里,他们不会考虑谁是谁,就像小偷偷你钱,不是因为你是你,而是因为你有钱。”钱磊称,从防控策略上,阿里安全为此做了全面升级,除依托技术产品霸下和MTEE,分别对流量风险和业务风险进行18层过滤清洗,同时也会通过扩大线上线下防线,做更多维度的压测和更多版本的应急预案等举措,来保障双11安全。


清洗过的纯净流量,才会流入交易支付环节。骑象有8年双11参战经验,他顺手点开大屏标注拦截“黄牛”的按键,画面立马显示,茅台和苹果12Pro等商品,正是黄牛竞相争抢的热销产品。 


这些黄牛抢购行为,都被一一拦下。


惊魂48小时:攻击与反攻击


钱磊对异常黄牛风险的担忧,并不多余。2019年双11大促就因黄牛而引发了一场有惊无险的危机,这让所有亲历者都感到后背发凉。


安全专家入侵是去年双11前夕黄牛侵袭事件的处置参与者。他回忆,事情发生在2019年双11前夕,当晚有一大波异常流量洪峰出现,触发了系统问题,严重干扰了服务器的稳定性。


经过安全专家的连夜分析,这是一起因黄牛流量侵扰引发的流量波动事件,需尽快将黄牛党服务器关停,否则大促稳定性难以保障,后果不堪设想。当时,入侵团队接到案件溯源需求,需要马上调查攻击者情况,入侵和团队全身投入聚集在一个临时项目室,开始梳理分析幕后的黄牛软件作者线索。“吃喝全在里面,我们连一分钟都不敢耽误。”入侵说。


此时距离双11大促启幕,只有不到4个小时,入侵倍感压力,“如果找不到黄牛软件的作者,会有很多服务器受到干扰,消费者下单也会受到影响。


在距离双11零点零分只有不到2个小时,入侵团队溯源到了嫌疑人,并将其掌握的黄牛账号封停,危机随即解除。


入侵长舒了一口气,走出项目室时,已是深夜。在双11霓虹彩灯的照映下,他和团队成员发现,所有人都已累得精疲力竭。


这种人机对抗的时代,如今一去不复返。“以往黄牛都是集中在某个中控平台使用同一款软件,我只需要防住中控平台,就能拦住所有使用者,但现在他们全都采取分布式客户端,在各自系统部署软件,防控变得难上加难。”入侵称,黑灰产也在不断升级技术和策略,试图在“城墙上”挤出一条缝隙。


曾专注于黄牛治理的营销反作弊“老炮”、阿里高级安全专家俊星,见证过黄牛以往的所有变异阶段。每年双11零点开启第一秒,他都会紧盯霸下洪峰流量的波动态势。“这是一个此消彼长的对抗过程。”


有一年,一款满1588元减588元的“回血红包”流向突然出现异常,大量红包被用于购买某款纪念币。“如果不拦,黑灰产会把所有红包抢过去变现,如果拦截,也可能会误伤部分真正的消费者。”俊星说,下每一个拦截指令前,他们会充分评估即将发出的决策是否会影响用户的体验,这也是必须坚守的底线。


最终,在屏幕前他们完成了一连串求证与识别,果断将这批异常订单做了拦截,并从中识别出一批黑灰产账号,也做了实时冻结处置。


59亿次拦截保护8亿人


数以亿计的用户流量从各个入口涌进来时,霸下的网络洪峰防护层应对流量洪峰,会进行智能排序。“就像早晚高峰巨大的人流量涌进地铁一样,在达到一定流量高峰时也会开启限流机制,大家才能都坐上地铁,业务系统不至于被一拥而入的流量挤垮。”国栋是是负责“霸下”系统的业务专家,他每年都会被抽调去负责双11系统安全工作。

国栋

国栋的花名源于金庸小说《书剑恩仇录》中,一个京城名捕“吴国栋”。   

在“捕快”国栋印象中,10年前,中国互联网还没有如此大流量的商品交易活动,安全风险也不会特别复杂,当时安全专家更担心的是,系统能否扛得住突然涌入的流量。“就像过独木桥,原本一次只能过一个人,非要一次过100个人,后果可以想象,要么有人被挤下去,要么桥断了所有人都掉下去,谁也别想通过这个关口。”


蜂拥而入的流量,还是给阿里的风险防控上了一课,甚至一度成了标志性的历史拐点,这个拐点就发生在2016年的春天。


那一年四月的某个早上,国栋收到了交易系统负责人发来的弹窗消息,约他面谈处置一起紧急事件。那时,淘宝刚开始推广“秒杀”玩法。每天上午10点,都会有几批优惠力度极大的商品在淘宝上架。几轮秒杀活动过后,交易系统检测到有几起数量庞大的异常流量进入。


通过参数,国栋判断出,都是黑灰产人员通过软件模拟的大规模用户流量,严重影响了正常真实用户的下单,这也是淘宝系统经历的第一次大规模机器流量侵袭事件。


那会,临近“双11”只剩6个月,当时,国栋和同事只能用手头现成的工具,配合人工调度进行补位,通过人机结合的方式,将连续出现的恶意流量攻击做了拦截。


危机过后,国栋和同事都意识到,系统会在很长一段时间内与黑灰产缠斗。因此,研发一款智能安全产品来抵御庞大的机器流量攻击,势在必行。2017年2月,集合了流量清洗、数据保护等功能的“霸下”系统,应运而生。


时隔多年至今,霸下的功能仍在完善升级,不仅会对进入流量的大小做防控,还会对流量的纯净度做精细化清洗。“就像是一座城,如果进来的都是坏人,就会影响城里的治安。”国栋介绍。


双11战役安全战队PM、阿里安全高级安全专家砚墨,曾遭遇过一次这样的情况,99.97%的请求都是黑灰产制造的攻击流量,也就是说,10000个人里只有3个是真实的正常用户。 

砚墨

作为双11流量清洗的第一道防线,霸下系统一夫当关。机器洪峰流量被霸下清洗过后,黑灰产组织的人肉黄牛、刷单、欺诈以及不法商家售卖假劣、禁限售商品等行为,会触发阿里安全的第二道防线——专注业务风险防控的MTEE防御系统。


“这座富饶的城里头,有贩夫走卒也有奸诈小人,我们要做的就守住门管好城,保护好好人,管制住坏人。”国栋形象地将霸下比作城门口的守将,而将MTEE比作城里维持秩序的护卫。


朴松是双11安全战队里负责业务风控的专家。他介绍,MTEE这套系统搭建了12道风险净化层,可实时判断用户和商家是否守规矩,并在手机和PC端直接识别进入的人是否是真实的好消费者,同时还能拦截40多种细分风险,覆盖内容、交易、行为、商品等。  

朴松

今年,由霸下和MTEE组成的阿里安全智能风控体系也用数据说明了它的威力。阿里安全统计数据显示,仅2020双11一天,就帮助经济体所有平台拦截了超过59亿次的恶意请求,是2019年同期的2.26倍。另外,还包括击退了1887万次黄牛行为,保护了8亿用户的购物下单需求。


未知风险与策略智能化


新的玩法会引发新的业务风险,每年钱磊和团队都会提前几个月与双11业务方对焦,游戏规则究竟是什么?这直接决定了后续风控的整体部署。 


“我们并不害怕已知的风险,但对业务制定新玩法时可能产生的未知风险,我们时刻保持高度警惕。”对于黄牛、DDoS攻击、病毒等黑灰产已知风险,钱磊和典扬都不会有大的担忧,但对未知风险,他和他的同事们都心怀敬畏,不敢懈怠。


2019年的“黄牛惊魂事件”,就是一起典型的由未知风险引发的危机。


为了防止类似风险再次发生,今年8月开始,典扬就带队做了更多维度的流量压力测试,包括使用大量的变异数据来攻击自己的系统,测试系统的抗风险能力。经过多次演练,系统没有丝毫震动。


但典扬不知道,未知风险何时会再次爆发。不过他和他的同事,都已意识到了要注重对未知风险的防控,并决心走策略智能化路线,去最大程度的降低未知风险。


智能化已然让典扬和他的团队在这场战役中尝到了甜头,他说,今后无论多难他们都会坚定地走下去,并在更多新领域试水,给更多业务提效赋能。


直播购物就是近年用户热衷的一种新消费方式。但因直播间有大量折扣优惠活动,竞争态势也比较激烈,所以很快成为黑灰产觊觎的目标。


安全情报专家述安两年前就发现,一批专攻不同业务的黑灰产网站,开始不约而同地进军各大平台的直播领域“搞事”,“他们藏得很深,演得也很真”。


“每天的直播量都很大,单靠人工审核很难扛住,所以我们会把风险识别能力落到算法层,让机器来把关。”负责淘宝直播内容安全治理的明瑂介绍,一场直播信号,不仅融合商品的图片和文字,还汇聚了实时视频流、声音和其他元素,进而使得鉴别直播间的风险,成了一项复杂的工作。


明瑂


有几次,裕宏等算法专家为直播安全打造的识别算法就发挥了意想不到的作用。不久前,明瑂就遇到过一个极端案例。当时,一位服装女主播下播去吃晚饭,临走前忘记关播。再回来时,她没有意识到直播镜头还开着,正准备开始换衣服,直播画面瞬间被后台算法精准识别,几秒后,女主播的直播间被掐断。


“这是人工监播永远都无法达到的效率。”明瑂骄傲地说,双11期间,淘宝还专门上线了一个名为“霸屏提醒”的功能,当主播走光而不自知、不小心露出纹身或说出不恰当语言时,霸屏提醒都会弹出信息提示,警示无用后再做下一步处置。


道高一尺,魔高一丈,在典扬看来,安全的本质,实际是人与人之间的博弈,有时候这种博弈是对抗,有时候也会是一种引导。“我们在用技术解决各类问题,黑灰产也在用技术做对抗,我们唯有埋头向前,比他们更努力更肯拼,才能最终赢得赛点,才会有更多的可能。”


典扬说,在刚刚结束的双11,阿里安全智能风控体系不仅做了提速,还在节省60%成本和数百台服务的情况下,进一步提高了风控模型的准确率和召回率,使得最终送达交易系统的真实用户请求,占比高达99.99%以上。




更多精彩


好看的人才能点【赞】和【在看】  

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存