查看原文
其他

技术和商业的碰撞,谈阿里云与天猫双11这十年

云栖社区 2019-03-29

2009年,发生了两件看似不起眼的事。


初春刚过,阿里云在北京一栋没有暖气的写字楼写下了飞天第一行代码。


同年11月11日,淘宝商城启动了一个叫做双11的促销活动。


谁也没想到,多年以后他们会是现在这模样。


前传


2007年淘宝的交易额突破了400亿,技术团队却喜忧参半:现有集中式架构已经捉襟见肘,该如何应对?


随即启动的分布式改造获得巨大成功,淘宝所有的业务都做了模块化。


尽管这次技术升级在现在看来存在诸多局限性:更多的是为了应对不断增多的图片缓存,在CDN端对海量的图片缓存做了一些限流操作。但就是这次改造成就了历史上第一个双11,2009年双11当天的流量达到了一个高峰,在旧的架构体系下,这几乎是一项不可能完成的任务。


一年后,飞天的第一个版本上线,仅有几十台机器的集群开始服务第一个内部客户——阿里金融。



这些探索让所有人看到了一个趋势:用分布式的方法将传统、昂贵的小型机硬件和软件,替换成通用的X86的服务器集群,虚拟化等技术可以让计算能够按量、随时被启动。


流量狂奔:脉冲计算


从计算机诞生到90年代,计算资源都是作为“可计划性”的资源来使用。无论是探索月球,还是研究基因的奥秘,计算资源本身是可规划的。然而,互联网时代的到来,一个爆发性事件,就有可能挑战整个计算资源,不确定性如影随形。


毫无疑问,双11就是这样一个典型场景。


2011双11的流量洪峰给技术团队留下了午夜惊魂般难忘的回忆:系统性技术问题,使大量商家可能出现超卖。


事后,这群国内互联网行业最优秀的技术人开始意识到这已经不仅仅是一场商业促销活动,更是一次技术大考。


次年,天猫与阿里云、万网宣布联合推出聚石塔平台,率先以云计算为“塔基”,为天猫、淘宝平台上的电商及电商服务商提供IT基础设施。



基于阿里云的ECS云服务器、RDS云数据库、SLB负载均衡网络,商家订单源源不断的推送到商家平台上,保障了数据的稳定和延续。这是云计算首次参与双11,并且实现了191亿的交易总额。


飞天的高速成长也给了所有人信心:5年的时间,飞天平台集群规模从1500台到3000台,2013年8月,单集群超越5000台,同时支持多集群跨机房计算……


接下来几年,云计算逐渐成为这场狂欢节中的基石,到2014年,聚石塔上96%的交易使用了阿里云。


2015年开始,双11构建了全球最大的混合云,将公共云和专有云无缝连接。


而这些成果最终成为了全社会的能力:无论是春节在12306抢票,还是在世界杯期间的狂欢,抑或是微博上的明星八卦,脉冲计算的能力在今天已经变成了常态。


数据平台,计算创造价值


2013年前后,“船票论”在互联网圈极为流行。“船票”成为了人们对于一家公司有没有未来的判断依据。至于如何拿到这张船票,彼时都非常模糊。


然而,移动端带来的海量数据却是真实存在的,移动端带来的新需求,也推动了阿里云大数据平台的发展。


鲜为人知的是,2004年,为了从大数据中分析当前状况,并预测未来的趋势,阿里就拥有了第一个大数据仓库,到2008年,淘宝的业务量与数据量已达到2004年的数千倍,为了让数据成为生产资料,从底层重构大数据技术就显得尤为重要。


2010年春,大数据引擎MaxCompute的前身SQL Engine第一版上线,运行在当时30台机器的飞天集群上。


2011年,飞天团队开始探索支撑集团内部数仓业务,在1500台机器上并行运行云梯2的生产作业,并取得了不输于Hadoop的性能和稳定性成绩。


飞天5K项目之后,MaxCompute随之进入5000台机器和跨机房调度时代,并且可以在377秒完成100TB的排序。


通过MaxCompute引擎助力,从2014年双11开始,千人千面成为常态。现在,这一产品已经成为阿里巴巴的主力计算平台:


l阿里巴巴集团99%的数据存储以及95%的计算能力使用MaxCompute;


l每天有超过500万个作业在平台上运行;


l2017年双11,MaxCompute单日数据处理超过320PB。


几年过去,“船票论”烟消云散,然而大数据平台带来的价值已显山露水,通过大数据与人工智能算法的结合,MaxCompute已成为ET大脑最重要的组成部分,ET城市大脑自动指挥城市路口信号灯,并且成功应用于马来西亚的交通治理;ET工业大脑推动工厂取得更好的良品率,致力于帮助制造企业提升1%的良品率。


从数字化阿里到数字化城市,MaxCompute可以承载EB级的数据存储能力,成为全球首个100TB规模Bigbench测试通过的大数据计算平台;在公共云上覆盖国内外的十几个国家和地区,专有云上部署超过100+套。


史上最大规模的人机协同


2017年的双11被认为是人类历史上最大规模的人机协同“超级工程”:技术运维、商品推荐、客服、支付、物流等各个环节都引入机器智能。


数据、计算力、算法是人工智能的三大核心要素。飞天在通用计算服务的基础上,开始探索面向人工智能的异构计算。


2017年9月12日,阿里云宣布推出全新一代异构计算加速平台,在行业内第一次覆盖了包括AMD、NVIDIA的GPU和Intel、XILINX的FPGA在内的所有6款主流异构实例,提供最高可达75TFLOPS的算力。


全新的基础设施让全球最大规模的人机协同成为了可能。双11大量AI和视频转码业务部署在ECS的GPU集群之上,包括视频云的视频智能处理、阿里小蜜、拍立淘和新零售的智能供应链管理等AI业务都通过阿里云异构计算GPU昊天平台进行加速。


●  阿里巴巴数据中心机器人“天巡”每天在机房巡逻,能接替运维人员以往30%的重复性工作。


●  AI调度官“达灵”将数据中心资源分配率拉升到90%以上。


●  人工智能助手‘阿里小蜜’在双11当天承担95%的客服咨询。


●  菜鸟智慧货仓机器人单日可发货超过100万件。


●  AI设计师“鹿班”,在双11期间设计了4.1亿张商品海报。


●  阿里机器智能推荐系统双11当天为用户生成超过567亿个专属“货架”,像智能导购员一样,给消费者“亿人亿面”的个性化推荐。


半年后的武汉云栖大会上,阿里云首次和合作伙伴一起展出了AI智能点单设备,在没有任唤醒词的情况下,客户以每秒5个字的速度,向一台机器点单,并频繁更换语句,这台机器对每次对话均作出了精准应答。


现在,这些基础设施以及商业化的产物正服务于各行各业。


飞天2.0支撑2018全社会的双11


如果说最初的技术变革是为了解决平台的流量峰值问题,那么现在新的篇章已经开启,新技术正在引领商业变革。


今年双11期间,阿里云上新增调用的弹性计算能力累计超过1000万核,相当于10座大型数据中心,创造了“脉冲计算”的新纪录。不仅如此,飞天2.0的新能力全面支撑双11:


●  阿里云自研神龙弹性裸金属服务器在核心系统中发挥巨大作用。其基于完全自研的新一代软硬融合的X-Dragon虚拟化架构,兼具物理机和虚拟机优势,解决了高峰值流量下的性能瓶颈。

●  业界首个百万级IOPS的ESSD云盘提供了数十PB的存储规模,应对了史上最大的高并发IO挑战。

●  猫晚网络直播创下带宽峰值记录,阿里云视频云高可靠直播方案完美保障了优酷2500万用户的体验。

●  CDN为中国1/3以上的互联网流量提供加速,视频云在海外为Lazada提供直播服务。

●  国内首次大规模IPv6商业应用实践,云、网、端以及应用全面支持IPv6。

●  实时计算Blink处理峰值达到每秒17.18亿条,相当于120万本新华字典的数据量。

●  MaxCompute支撑在线流量洪峰12万笔/秒交易,承载45%导购流量。

●  云盾为云上客户提供上千万次风险识别服务,并将DDoS高防技术输出到全球,保障全球业务。

……



在这些技术底座之上,整个系统应对流量洪峰更加从容,当天交易额达到创纪录的2135亿。


当然,IoT的登场则为双11创造了更大的想象空间。


在消费侧,IoT技术服务新零售的同时,正在催生新的追踪经济。消费者可以查看进口商品完整的商品溯源实时信息,确保天猫进口商品安全可溯,远洋运输也实时可见。


在制造侧,助力天猫品牌服装厂商数字化接单、下单和备货,个性化生产、柔性化制造,交期准确率近乎100%;对农业生产、运输、销售进行全链路升级。


从线上到线下,从生产制造到物流配送,从国内到海外,阿里云的技术能力延伸到各行各业。而这只是这些新技术应用的冰山一角,云与AI、IoT的有机融合未来还会产生什么化学反应?我们拭目以待。


结语


从27个品牌参加成交额不过数千万元开始,到现在的千亿级体量,双11已经成为一个未来商业实践的范本,也是新技术的最大试验场,这些新技术逐渐变成全社会的基础能力,撬动一场全球的社会大协作。



end

前方高能!阿里云双11拼团百团大战已开启!

慎入!数学不好千万不要乱点!

双11期间,请关爱程序员!

双11拼团拉新领红包!还可享受返现和云产品折扣!

更多精彩

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存