查看原文
其他

云栖12年:阿里云“长征”的7次关键抉择

贾宁宇 Tech星球 2021-02-21


 阿里云穿越“技术无人区”。


Tech星球(微信ID:tech618)文 | 贾宁宇头图 | IC Photo


2019年的云栖大会,还停留在很多人的记忆中,无论是主持人文化衫上的第一行的代码,还是飞天2.0面世,阿里云悄然打开的面向物联网世界的大门;平头哥半导体诞生一周年,“全球最强的AI芯片”含光800亮相,都为去年的科技圈留下精彩印记。


转瞬,2020年跌宕前行了大半段,新的云栖大会即将到来。‍‍


这一年,十分不平凡。疫情之下云上经济飞速发展,数字经济催生用云量翻倍增长;智能产业进入深水区,云端智能成为商业新高地。备受关注的2020年云栖大会,将给出业界怎么样的答案,无疑值得期待。


据悉,9月17日,2020云栖大会将以“云端分布式”的形式展开,无法线下相聚实属遗憾。不过,如果主持人再次身穿白色文化体恤,如今也有新代码值得被刻印。这行代码同样具有深刻的历史意义,它便是阿里云研发的全国健康码引擎第一行代码。

               2020 年2月13日,阿里云数据智能团队写下了这行代码,仅3天后健康码上线,随即推广至全国200多座城市,“数字抗疫”为国内尽早控制住疫情做出了重大贡献,这是阿里技术团队的高光时刻之一。

阿里类似走向技术“无人区”的案例不胜枚举。“电商公司”曾是对阿里巴巴的片面认知,但在过去十多年的历程里,一步步探索、一次次重磅的技术发布,阿里已经成功地站在“科技公司”的定位上,无人再对此抱有质疑。
如今,2020财年阿里云营收已经率先突破400亿元,DT时代、五新、城市大脑、达摩院、平头哥等科技新名词,都曾是云栖大会上的明星项目。阿里已经从商业公司转型成为数据科技公司。
正如阿里20周年年会上,马云复盘说道,“我们明明有很好的路可以走,却选择没有人走过的路,但又必须要去走的路。”回首看,历史的画卷驳杂混沌,Tech星球梳理了阿里技术长征路上的八大关键瞬间,从中能够窥见阿里技术演进的脉络。

吵起来的「宁波会议」


吵,吵得不可开交。

 

2007年9月28日到30日,马云本想一改常规,找个能看海的会议场所开阔思路,但因为订错地方,最终走进一个连海在哪头都不知道的密闭会议室,大家关起门来吵了两天两夜。

 

当时阿里市值约百亿美元,不到今天的七十分之一。急剧扩张的淘宝一口气引入了六位副总,每个人内心都有一套淘宝的未来发展愿景,也有是否将支付宝独立分拆的争论,阿里内部也是举棋不定。

 

高管们闭门讨论的主题是,未来十年阿里到底要去往何处?该有什么样的战略?最终达成的共识是,阿里巴巴要建设一个“开放、协同、繁荣的电子商务生态系统”。这一战略在此后十几年的时间内都延续使用,而技术是这个生态系统的核心。

 

宁波会议第二晚,折腾到半夜十一二点,一张更具体的图出现了——阿里冲击“千亿美金的希望”。

 

这张图透露的信息就是,阿里要把流淌在各个业务部门的数据打通,让信息流、资金流和物流形成统一的数据智能,向数据要生产力。宁波会议上,也第一次提出了“阿里巴巴是一家数据公司”。

               

回过头看,“宁波会议”就是阿里向技术要生产力的发端,阿里称其为“登月计划”。那次会上,决策层做的另一个决定是,打算在一年内为登月计划找个带头的“宇航员”。

 

第二年,原微软亚洲研究院副院长王坚就加入阿里巴巴。

 

“登月”首先需要解决算力问题,当时的阿里传统IT架构中,大容量并发经常导致服务器崩溃。阿里自主研发云计算,王坚要“造云”的传奇故事就在此埋下伏笔。

 

被称作阿里“总参谋长”曾鸣后来回忆说,这可能是阿里巴巴历史上最重要的一个战略会,如果没有那次战略会,阿里肯定走不到今天。



草蛇灰线「五彩石」


不熟悉阿里历史的人未必知道“五彩石”,但今天天猫与淘宝的数据共通,就与这个项目息息相关。

 

简单的说,这一重要的瞬间就是淘宝与淘宝商城(后改名为天猫)的数据及业务实现了共通。阿里这家擅长起名字的公司,为这个项目起了个代号“五彩石”。传说中,女娲用五彩石补天,对阿里来说,五彩石同样是阿里补缺的好手段。

 

要知道,2008年的数据显示,当当网销售额刚过15亿,京东也仅14亿,但淘宝销售额已经达到了999.6亿。和亚马逊这样的电商平台一样,在交易高并发时间段,淘宝的底层技术基础就将面临考验。当时的淘宝却已经是出了名的“改这里、错那里”。

 

更重要的是,当时,淘宝商城与淘宝就像两座独立的“烟囱”,它们各有各的IT系统,数据和业务都并不互通。淘宝业务快速增长,小烟囱眼看就要撑不起高流量、大并发的场景。2008年10月启动的“五彩石”项目,诉求直指“拆烟囱”。

 

动用了200多号人员,耗时半年,五彩石项目才宣布完成,彻底将淘宝与淘宝商城打通。这也是今天,天猫卖家、淘宝用户可以实现交易的重要原因。

 

工程师们从交易、支付、会员等业务中提取了共性功能,打包成产品基础模块,又把两个平台的数据沉淀到统一的池子,为此后数据智能的研发奠定基础。再开发新业务时,就可直接调用公共模块和数据,大大提升开发效率。

 

阿里首次在架构中引入了中间层,这种“中间件技术”就具有后来的阿里中台的影子。这也是为阿里未来的中台系统埋下的“草蛇灰线”。

 

就像后来一篇叫《你刚才在淘宝上买了一件东西》的文章中写的,“即便你仅仅访问一次淘宝的首页,所涉及的技术和系统规模都是你完全无法想象的,是淘宝2000多名工程师们的心血结晶,其中甚至包括长江学者、国家科学技术最高奖得主等众多牛人。”



「去IOE」自主研发系统

 

「去IOE」是阿里在技术发展史上留下浓墨重彩的一笔。

 

“IOE”指代的是IT系统的三样标配:IBM的小型机、Oracle的数据库、EMC的集中式存储设备。

 

当时的阿里和很多企业一样,依赖 IOE如依赖氧气。博士王坚加入阿里后,专门召开了一次会议,提出要「去IOE」做云计算的构想,很多人都觉得不太现实。

 

当时参加会议的包括马云、彭蕾、卫哲、曾鸣、蔡崇信等人,王坚为了说服大家,给大家从财务角度算了一笔账。2007年淘宝交易额是600亿,他问大家信不信淘宝几年后能到1万亿GMV。

 

大家齐声说信,并预测将在2012年实现这一目标(2012年年底淘宝天猫GMV破万亿)。然后王坚问大家,到时候客单价会不会变,大家认为电商红利期,用户增长但是客单价不会太变,预计届时还会在百元左右。

 

然后王坚问大家,届时用户需要的搜索次数,每件商品需要多少张图片会不会变。大家都认为不会大变。然后王坚做了一道算法,震惊了所有人。

 

一万亿除以100,需要100亿次交易量,100亿次有需要几倍的搜索和图片存储量。将这些数据折算后,王坚又计算出届时阿里需要购买多少EMC的存储,多少Oracle的数据库,多少台IBM的小型机,而购买这些产品需要200亿元。

 

当时还在免费的淘宝,面对未来天价的设备采购费用,都不由得赞同全力开发云计算。

 

王坚也向与会大佬,强调开发云计算符合未来发展趋势:亚马逊业务达到这一业务前,也是开发了云计算。不仅从成本层面考虑,谁都无法保证,业务达到这一量级后,“IOE”还能否保证业务稳定运行。

 

此后自主研发分布式存储系统、飞天5K计算平台等硬核技术,阿里云一步步从无到有。

 

这场变革并不容易,直到5年后的2013年5月17日,阿里集团最后一台IBM小型机在支付宝下线,才正式宣告“去IOE”战役的终结。



「飞天」技术就是业务

 

那个用来替代IOE的云计算系统,在2008年10月24日正式得名“飞天”。

 

回顾阿里成立的前一个十年,总是“技术跟着业务跑”,技术始终受业务牵引而有多变动。

 

直到2009年9月10日,阿里巴巴十周年年会,阿里云子公司成立,大船航向才有所转变。这400多人的团队开启了中国最早研发云计算的历程。

 

“拿来主义盖不起高楼大厦,自主研发的云才能走更远”,曾任阿里云总裁、现任蚂蚁集团CEO胡晓明说。

 

2009年早春,一群人聚在北京汇众大厦203室,飞天第一行代码“## Created at 2009-02-19 by Apsara”诞生。到2019年这十年的时间里,阿里云的工程师换了至少五代,早期核心团队成员只剩20%。

 

但早期,所有人都在摸石头过河。在第一届云栖大会时,还没有人能讲得清楚云计算,许多人把包括王坚在内的云计算簇拥着称作“疯子”、“大忽悠”。但马云和阿里却笃定,云计算是未来。

 

项目持续赔钱,bug频出,团队出走,当公司内质疑四起时,阿里内网上甚至质疑王坚是骗子,叫马云别信他的话。但马云直接说,我每年给阿里云投 10 个亿,投个十年,做不出来再说。

 

在当时,云计算在国内是“技术无人区”。2012年BAT论道云计算,李彦宏还在提云计算是新瓶装旧酒,马化腾认为云计算要在阿凡达时代才能实现,只有马云说:“我们不做云计算会死。”

 

关于“阿里云要被撤掉”的传闻直到 2013 年才彻底消失。那一年,飞天单一集群能力达到5000台,成为全球第一家对外提供这一能力的公司,算力底座宣告落成。

 

没有飞天,阿里不会成为今天的阿里。正是从飞天开始,技术在阿里的功能角色发生突变,技术与业务的关系,从“技术服务业务”变为“技术就是业务”。



DT时代的中台战略


2015年底,阿里巴巴集团宣布启动中台战略,目标是构建符合DT时代的“大中台、小前台”的组织机制和业务机制。

 

前台作为一线业务,更敏捷、更快速地适应瞬息万变的市场,中台则集合整个集团的数字运营能力、产品技术能力,对业务前台形成强力支撑。

 

关于中台,有个广为流传的类比:美军的作战策略,二战时以团为单位,越战时以营为单位,到了中东战争则以几个人的班排为一线作战单位。敢把这么小的单位放到前线,是因为美军拥有强大的作战指挥系统,强大的中后台能力可以支撑小团队做出快速判断。互联网时代的商业策略也是一样。

 

阿里巴巴将核心能力以数字化形式沉淀到业务和数据两个中台,“一切数据业务化,一切业务数据化”,以数字化资产构建企业核心竞争力。

 

在中台架构上,“数据石油”威力显现,成功孵化钉钉、飞猪、口碑等创新业务,聚划算业务只用7个人花一个半月就开发了出来。外部企业需要几十人干半年的业务,在阿里内部靠几个人做几星期做就能完成。

 

通过阿里云,阿里巴巴将支撑商业基础设施的技术和架构“原子化”输出,让客户企业快速复制中台架构。2018年,阿里宣布组织架构调整,阿里云升级为阿里云智能,中台能力与云全面结合,继续“技术创造新商业”的征途。



达摩院「活得要比阿里巴巴长」


马云对达摩院的要求之一是,活得要比阿里巴巴长。

 

在云计算、飞天系统、中台战略后,阿里技术公司的韵味越来越浓,技术为这家公司提供了最核心的支撑力。

 

阿里巴巴一直想要成立自己的研究院,技术长征途中几度试图解锁这项任务,但又几度止步深思、调转方向。它在等待一个对的时机。

 

2017年10月,时机终于到来。阿里在当年的云栖大会宣布成立达摩院,探索科技未知,以人类愿景为驱动力开展基础科学、创新性技术和应用技术。为此,阿里将在3年内对达摩院投资超过1000亿元。

 

马云对达摩院还有另外两个要求:服务全世界至少20亿人口;必须面向未来、用科技解决未来的问题。

 

因此,从大方向看,达摩院与一般研究院最大的区别在于“解决社会问题导向”,它的宗旨是“Research for solving the problem with profit and fun(为解决问题研究并带来利润和快乐)”。

 

研究员们自称达摩院“扫地僧”,他们正试图“扫走“已有的和未知的技术难题。

 

达摩院下设4+X个实验室,即机器智能、数据计算、机器人、金融科技和X实验室,现已建成完善的机器智能算法体系,涵盖语音智能、语言技术、机器视觉、决策智能等技术方向。

 

从iDST而来的达摩院,保留了iDST的人才班底,也继承了“技术驱动业务”的实践路径。



平头哥出道一周年

 

2019年9月15日,凌晨5点20分。

 

这是号称“全球最强的AI芯片”含光800被验证成功那一天,最后一批达摩院科学家们走出办公室的时间。达摩院芯片技术部负责人骄旸就是其中之一。

 

“到前几天的时候我们都还不知道能不能做成,连续干了7天,每天至少到凌晨12点”,骄旸回忆说。阿里的这群技术“疯子”又一次“把不可能变成可能”。

 

阿里首席技术官、达摩院院长张建锋打了一个比方:淘宝拍立淘商品库里,每天会新增10亿张商品图片,使用传统处理器算力识别需要1小时,但使用“含光800”时间可缩减至5分钟。在这一项上,节省了超过90%的时间。

 

这是2019年云栖大会上,阿里平头哥芯片公司成立一年后,重磅交出的成绩单。

 

早在一年的2018年年4月,阿里收购的中天微系统有限公司和达摩院自研芯片业务整合成为独立芯片公司,推进云端一体化芯片布局。

 

2019年,阿里芯布局中,前有“玄铁”、“无剑”,再加上同样以神兵利器命名的“含光”,继部分生态产品和业务组建成动物园之后,阿里在芯片领搭起了自己的“兵器库”。

 

如今,以非洲蜜獾形象跃入公众视野的公司,“平头哥”成了被技术界提及最多的动物。

 

2019年,彭蕾在湖畔大学演讲时,说做商业决定时,你一旦看清目标,就要不管不顾地冲在前面,如入无人之境。

 

这些年来,这些技术“疯子”们,就在一次次,重复挺进无人之境。

 

如今,第12届云栖大会即将来临,据悉大会将覆盖云计算、人工智能、机器学习、量子计算、芯片、AIoT等35大技术领域,总计上百款新技术产品发布。

 

2020年3月,阿里董事局主席张勇曾表示,“这次疫情让我们看到了数字化的巨大价值,我们预测,这次疫情之后,将掀起新一轮数字经济基础建设的投资。”新的云栖大会,正与未来的数字时代正携手而来。

你认为,阿里云能成功的原因有哪些?你对历届云栖大会上哪些科技印象深刻?

欢迎在评论区留言,分享你的观点和看法,我们将会在文章推送的一周内,从所有留言评论中,择优选出1位读者,送出场景实验室创始人吴声老师的新著——《场景纪元》,get新的商业思维与方法论~获奖名单将在每周日的“Tech周报”栏目中公示。
推 荐 阅 读

- 加入交流群&内容转载&合作相关 -

Tech星球小助手|微信:miniworld007

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存