查看原文
其他

拜关公,期末考,支付宝有群人“疯起来连自己都打”

朱婷 卖家 2019-06-02



江湖上盛传:那些穿着格子衫做技术的人,有时会陷入“别人笑我太疯癫,我笑他人看不穿”。但没想到,这世界上竟然有技术团队,“疯起来连自己都打”。


比如,支付宝。



01结婚当天发起攻击



又是一年12月。每到这个月月中,祢衡都要参加一场“恐怖性”十足的内部期末考。


作为工程师,他和队友以技术之名,噼里啪啦敲下一行行代码,并将其布置成最为坚固的闸门。这一道道防线在末考时会接受各种疯狂的攻击,并且这样的突袭可能发生在任何时候,在回家的地铁里,在睡不着的晚上,甚至在结婚当天的仪式上。


统计显示,人们平均每天要在手机屏幕上滑动2617次,人们一次次的点击、滑动,催生了技术一次又一次的变革。


“故障的发生是必然的,因此要想尽办法提早触发、解决,才能不断提高金融行业日常应对风险的能力。”蚂蚁金服技术风险部资深总监俊义说。


支付宝的这群工程师,要在这场比赛中挑战技术极限,抢回故障前发生的几秒。


大考沿用了古代作战的模式,分为红、蓝两方专门进行内部攻守。


蓝军为攻方,专职“找茬”,哪里薄弱朝哪打,没有薄弱点创造薄弱点也要打。“一次性丢出上千个故障”,没有什么是他们做不出来的。


红军为守方,日常工作在日常的运营中,提起十二分的精神应付实时、无差别的捣乱和找茬。努力在5分钟内解决,以保证真实系统也能够有效应对各类风险和挑战。


大考的最后一名要当众收下一个在淘宝上买到的、生了锈还缺珠子的,真“烂算盘”。这几乎是赌上了技术人的荣誉感在作战了。


对技术的敬畏和比赛的焦虑,让这群IT男延伸出了一种仪式感。红军额上系红绸,蓝军身上穿蓝袍,格子衫在这个时候有了新的使命——被拿去献礼关公。



“我们为了能成功防御攻击,像这种大考之前,都要有个拜关公的仪式。”支付宝红军的带队人祢衡说,除了叩拜,大家还得给关公献礼,最常见的就是旺仔牛奶、格子衬衫、键盘和香烟。



甚至连关公,都在支付宝经历了多轮迭代。“起初也只是有同学在群里发布内容会贴上一张关公像。后来是有张皮影,大家对着拜一拜。后来发展成木像,现在是一尊铜像,还开过光。”俊义回忆道,拜关公从最早在双11大促到现在技术大考不断传承,俨然已经成为了支付宝的一种工程师文化。


“这次在大考开始前,还有一个我将关公像交还给阿玺的仪式。”祢衡是去年红军多支队伍中,拔得头筹的红军带队者,按照约定,可以保存关公像一年,得到关公的“庇佑”。“说起来技术人员应该是理性客观的,而我们对于关公的敬畏,其实是技术人员对于技术的敬畏。”弥衡说。



这样的对抗,除了每年5月和12月的两次大考,有时还会被“周测”突袭。


“我们根本不会通知时间,也从来不划考试范围,日常随时都有可能对系统发起进攻。”蓝军的带队人阿贵称,蓝军就是要成为“一个让红军感到不舒服”的存在,哪怕遇到婚礼也绝不手软。


之前一位同学结婚,不少公司的同事被喊去当伴郎。没曾想,婚礼进行到一半,蓝军突然发起了攻击,线上的数据警报迅速传递到了每个人的手机。为了让新郎能安心完婚,伴郎团毫不犹豫,齐刷刷地在现场席地而坐,从背包里掏出了笔记本。


于是红毯两侧,大家“列队”低头盯着屏幕、盘腿抱着电脑,并肩作战完毕,互相会心一笑。那种程序员间相互切磋、一较高下的喜悦,反而成了那次婚礼带给大家的快乐记忆。



02支付宝最神秘部门



“技术人的责任感这件事,我们赌上的都是技术人的自尊心。”入职十年的阿贵,现在是蓝军的“头目”。



他和一共9名队友,围坐在“六年一班”的作战室里,画起攻防图,构思起对整个支付宝系统每年数次大小考的作战策略。



蚂蚁金服技术风险部资深总监俊义介绍,架构上蓝军从属于SRE部门,红军来自于SRE及蚂蚁金服各部门的技术团队。


可以理解,蓝军是支付宝技术队伍里一支特殊的存在,极少对外发声。


SRE的全拼是Site Reliability Engineer,软件工程师和系统管理员的结合。目前全球只有少数几家顶级的互联网公司,才拥有真正意义上的SRE团队。蚂蚁金服不仅是其中之一,还培养了自己独特的红、蓝军对战文化。


最早的时候,蚂蚁金服应对技术风险的团队,主要负责各种问题测试,和基础设施的运维保障。在内部,被称为是质量1.0的青铜时代。


2013年蚂蚁金服技术团队升级,将技术风险检测和修复过程体系化,进入2.0的白银时代。


进化为SRE团队是在2016年,就像电竞游戏的排位赛一样,经历黄金、铂金走入了钻石时代。也是在这一年,蚂蚁金服开始了最早的全栈级大型攻防。


让阿贵无法忘怀的能否克服技术的焦虑,而是在攻击后,红军平时的防御建设,已经足够自动抵挡。费尽心思发起的挑战,对方可能根本不痛不痒。


阿贵认为,“如果蓝军真的将红军攻击得无力招架,那不是红军输了,而是我们都输了。”能让平台更加稳定地发展和升级,才是所有技术同学们努力的真正意义。



03因“人”而迭代



最初的攻防,其实是为了提升系统面对灾难的反应和修复能力。其中需要应对的,除了地震、恶劣天气等天灾,还包括代码错误等人祸。


阿里巴巴CEO张勇曾形容双11带来了「技术珠穆朗玛峰」。


“在零点那个紧张的程度,我们自己创造了一个蹦极的体验,瞬间订单量爆棚的体验,自己要去征服它。”他说。零点那个紧张的程度,扩撒到每个日常的小日子,阿里和蚂蚁创造了一个蹦极的体验,瞬间订单量爆棚的体验技术的升级,已经让支付宝的能从应对“容灾”发展到了应对“造灾”。




在今年云栖大会ATEC主论坛现场,蚂蚁金服副CTO胡喜一声令下,支付宝近半的服务器被当场切断。整个现场并没有崩掉,在支付宝三座城市部署五个机房策略下,一旦发生故障,底层技术会将故障城市流量全部切换到正常运行的机房。


26秒后,支付宝就完全恢复了正常。



目前蚂蚁技术应对灾难性故障的能力,已经达到了机房级故障发生时,整体服务恢复可用时间小于5分钟,且数据安全可靠不丢失。


这项技术风险防控系统已经成型,且全链路压测、资金安全监控等方面已经对外开放。


自2015年提出互联网推进器计划后,蚂蚁金服在技术领域上取得的成果,便开始“成熟一个,开放一个”。


2018年的云栖ATEC大会上,胡喜宣布,蚂蚁金服的金融科技正式全面开放,为行业提供完整的数字金融解决方案。包括容灾系统在内的多项核心技术和解决方案,如金融安全、区块链等都将对合作伙伴开放。



“改变世界的不仅仅是技术,更有技术背后的价值观、使命和愿景。”支付宝的首席架构师王维曾说,支付宝能够从工具,成为金融行业的信任基石,是长期在技术领域投入的结果。


无论是技术迭代,还是内部攻防,其实支付宝的行动初衷,还是源于每一个屏幕前的用户的需要,所有的技术升级都是为了“人”而迭代。因此能够通过技术让金融更安全和普惠,才是值得整个行业一直追求的目标。



今日话题


你对程序猿有什么印象?





推荐阅读






    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存