查看原文
其他

阿里云「敢死队」

梁程敏 雷峰网
2024-07-18
王坚、胡晓明、刘振飞、李津、汪海、唐洪、张东晖、徐常亮、汤子楠、林晨曦、冯春培……致敬云计算时代的使命驱动者。

作者 | 梁程敏

编辑 | 王亚峰

2011年,胡晓明,阿里金融掌舵者,独自坐在办公桌前,眉头紧锁,脸上写满忧虑。
阿里金融正面临着一场巨大的困境,源头是那几个小时就崩溃一次的阿里云。
胡晓明盘算着如何跟马云表达自己对阿里云的真实想法。
终于,他开口了,他试图用一种试探却又笃定的口吻表达了自己的态度:“我可不可以不用阿里云?”
“既然你先前做出了选择,那就得像结婚一样。现在你说不愿意嫁,有什么用呢?继续忠诚地履行你作为王坚博士小媳妇的责任吧。”果不其然,马云依旧用他最擅长的类比句式打发走了胡晓明。
2011年12月31日晚,开完年终大会的胡晓明,带着被飞天报警铃声折磨到神经衰弱的阿里金融高管们,浩浩荡荡来到阿里云。
“我们十分支持阿里云的发展。同时,我们很希望在2012年春节期间,阿里云能够确保我们能够好好度过一个春节,不要在半夜被飞天系统的报警铃声吵醒还得起来工作。”
这番话说出了阿里金融所有人的心声,现场一时鸦雀无声,气氛凝重而尴尬。
紧接着,更加令人震撼的画面出现了——胡晓明和阿里金融高管集体俯下身子,向王坚和阿里云管理层无言鞠躬。
究竟,阿里云与阿里金融乃至淘宝的相爱相杀,是如何拉开帷幕的?

01

飞天不稳定,林晨曦孙牧舍命死扛

2009年,“飞天”稳定性和功能还略显稚嫩,林晨曦靠着三寸不烂之舌,从集团其他业务线,拉来了十个“内部客户”,运行在飞天上。
然而,不争气的飞天频频故障,每隔几小时就崩溃一次,于是,来自各业务线的雷霆怒火对准了王坚,他们对王坚进行狂风暴雨式的指责。
十个部门,一个部门投诉一天,轮一周都轮不完,王坚承受着前所未有的压力和内疚。
思痛后,王坚做出一个艰难决定——将十个内部客户减少到四个,阿里金融将作为重点服务对象。
那段日子,阿里云D座四楼的会议室被调侃成“钟馗道”,员工时不时会被拽进去讨论一些棘手问题,就像钟馗抓鬼一样。在“钟馗道”,王坚曾连续数个小时责骂团队成员,乃至拍桌子摔手机。
“博士压力很大,但依旧拍胸脯跟马老师说一切没问题。结果每个业务部门投诉不断。”这或许正是王坚发脾气的原因。
而承受王坚脾气的人,首当其冲就是负责飞天系统的林晨曦。由于飞天系统一直不稳定,林晨曦频繁光顾“钟馗道”,成了王坚的“受气包”。
而孙牧也因同样原因被“出气”。
当时,阿里巴巴有两座云梯:云梯1是基于一些已有开源软件Hadoop为基础而进行研发数据计算系统;云梯2则是基于“飞天”完全自主研发的数据计算系统,也就是后来的ODPS。
公司原计划于2009年年底用云梯2取代云梯1,然而飞天系统的不稳定让这一理想化成泡影,“云梯2切换云梯1”项目经理孙牧,遭遇到降职处分。更多幕后故事,添加作者程敏微信  LCMfancyworld 了解。
在项目复盘会议上,王坚发表了一句令人印象深刻的言论:“我一定要把飞天做好,除非公司不再做云计算了!”
孙牧站在那里,虽已遭受降职打击,但他依然信誓旦旦:“我会一直留在阿里云,我保证不离开阿里云!我对飞天系统的未来充满了希望,我愿意继续与团队共同努力,就算让我写文档,我也愿意继续与飞天一起战斗!”

飞天团队照片


02

胡晓明上告马云,无言鞠躬王坚

虽然林晨曦和孙牧舍命死扛,奈何事故依然不断,王坚也逐渐意识到阿里云稳定性必须提升,否则仅存的四个客户也会不可避免地流失。
当时阿里云四大客户之一的阿里金融,由胡晓明执掌。
胡晓明在人际关系上颇有手段,以其游刃有余的表现,在公司内部拥有不错的口碑。
有一次,胡晓明和一位P7员工一起去拜访客户,由于时间紧迫,胡晓明让秘书买了两份炒面,他们端个纸盒,蹲在路边匆匆吃完,紧接着就火急火燎去见客户了。
据说,胡晓明在接管阿里云之后,他经常拜访王坚,并倾听他在关键事务上的意见,表达自己的尊敬之情。
这些微小举动,渐渐把“接地气” “情商高”“上下兼容”等标签,贴在了胡晓明身上。
然而,即使如此“会做人”,胡晓明在与阿里云的“联姻”过程中,依旧磕绊不断,甚至想“毁婚”。(加作者程敏微信 LCMfancyworld,交流你所知道的胡晓明)
最初,马云强烈要求胡晓明必须选择阿里云作为阿里金融的基础设施。
胡晓明接受了这个安排,但他的手下王安全持对立态度,甚至表示绝不使用阿里云。
确实,技术出身的王安全有大条道理反对,毕竟使用Oracle更符合金融行业的“祖训”:安全、稳定、可靠。
然而,胡晓明非常强硬,他坚持要用阿里云,近乎逼迫着王安全说:“不用(阿里云)也得用,就算死,阿里金融也要死在阿里云上。”
与王安全持有同样立场的还有工程师蒋杰,他后来离开支付宝加入腾讯,并成功开发了一套系统,替换掉了朱会灿的台风系统。
话虽如此,胡晓明当然不希望阿里金融因为阿里云而死在自己手上。
问题随即而来。
阿里云给阿里金融带来诸多麻烦:数据报告出现错误,贷款发放速度滞后,机器故障无法开展新业务等等。
胡晓明开始后悔,决定找马云投诉。
于是,文章开头那一幕就上演了:马云婉拒胡晓明,告诉他回去好好做王坚的小媳妇。
胡晓明没想到的是,更严重影响还在后头。
一天清晨,阿里金融准备发放贷款,却发现无法获取用户的信用额度信息。
信用额度是指用户可以借款的最大额度,如果借款金额低于信用额度,就无需繁琐的审批流程,直接将款项打入用户账户。
然而,信用额度的计算是在阿里云进行的。一旦系统崩溃,就无法准确计算信用额度,进而无法发放贷款。
对于阿里金融来说,这是一场极其严重的业务事故,因为其业务的商业逻辑正是基于大数据的计算来实现借款的快捷性和简便性。
换言之,数据计算是它们获取利润的关键。一旦无法进行数据计算,每一天都会造成巨大损失。
此时,阿里金融和阿里云团队都陷入了恐慌之中。
对于阿里金融团队来说,犹如背着一颗定时炸弹,随时引爆更多损失,但他们无计可施,只能被动承受。
而阿里云团队也岌岌可危,他们仓皇奔走,手忙脚乱寻找故障根源,奋战到天明排除故障。
胡晓明在一片混乱中,写了一封邮件询问马云:“可不可以放过我?能不能不用阿里云?我自己搭建Hadoop团队解决问题。”
马云再次毫不犹豫拒绝:“不行,你可以死,但阿里云不能死,必须继续使用阿里云。”
事实上,胡晓明并非对阿里云持有怀疑和不满的个例。
阿里内网上曾有一篇帖子引起了轩然大波,对阿里云的可行性提出了质疑。帖子内容直言不讳:马云,你被王坚忽悠了,阿里云根本不可能实现!不久之后,这篇帖子迅速获得了超过2000个点赞,成千上万的员工加入了批评阿里云和王坚的行列。
就在一片漫骂声中,马云亲自在帖子下方回复:“博士是人,不是神!博士的不足大家知道,但博士了不起的地方,估计很少有人知道。假如,十年前我们就有了博士,今天阿里的技术可能很不一样。”
为了给王坚和阿里云打气,马云还在阿里集团年会上表态:“我每年给阿里云投资10个亿,投10年,做不出来再说,这是公司的战略。”
这番决绝的言论,昭示着马云从一开始就对云计算志在必得的决心,以及对王坚的无限信任和追求革新的不懈执着。
然而,质疑阿里云的声音并未就此消弭,反而在2011年最后一天达到了顶峰。
2011年12月31日,胡晓明与阿里金融团队召开年终总结大会。
会上,工程师陈鹏宇向胡晓明反馈了阿里云的极其不稳定,每天都需要处理大量报警。为了缓解这种压力,陈鹏宇将报警铃声设置成他孩子的笑声,从而苦中作乐。每当听到孩子的笑声,他便立即起身处理报警。
听完这番反馈,胡晓明深知,如果阿里云系统持续如此不稳定,阿里金融的业务必将继续陷入危机,甚至有倒闭的风险。
就在这个节骨眼上,胡晓明拿出一种更加激烈的方式表达他的无奈。
当晚,他带领阿里金融高管浩浩荡荡来到阿里云,面对反复的系统崩溃,他异常冷静地说道:“我们十分支持阿里云的发展。同时,我们很希望在2012年春节期间,阿里云能够确保我们能够好好度过一个春节,不要在半夜被飞天系统的报警铃声吵醒还得起来工作。”
这番话说出了阿里金融所有人的心声,现场一时鸦雀无声,气氛凝重而尴尬。
接着,一幕更加令人震撼的画面出现了——胡晓明和阿里金融高管,向王坚和阿里云管理层无言鞠躬。
无言鞠躬想传达两层意思:
首先,阿里金融使用阿里云是公司的战略,所以阿里金融不得不用。
其次,阿里云做得这么烂,但又不得不用,现在阿里金融已经被逼到了墙角。我命(阿里金融)由天(阿里云)不由我,我来向你们鞠躬,你们看着办。如果问题不解决,阿里金融只能关门大吉了。
这一幕,触动了王坚,“我们对不起阿里金融的兄弟,”王坚眼眶泛红。
半夜12点,王坚紧急召集阿里云高管,展开激烈讨论,共同商讨解决方案。
由于王坚向来喜欢半夜开会,故阿里云会议室被戏称为“夜总会”。
“要人给人,要钱给钱,我们全力以赴解决问题!”王坚亲自拍板,好大阵仗。
几十号人声势浩荡,在“夜总会”通宵达旦,头脑风暴,苦思冥想,脑洞大开,方法终于有了!
他们的方案是这样的:
第一,建立“专项工作组”,委任徐常亮为“专项工作组”组长,并成为服务阿里金融的第一负责人,上一任负责人刘侃被调任。与此同时,大数据计算引擎将采用徐常亮团队打造的“干将莫邪”技术路线。这支队伍将常驻阿里金融,全面了解他们的需求和痛点,第一时间作出响应和改进。
第二,投入更多资源和人力来提升阿里云的稳定性,包括对服务器和网络设备进行升级,加强监控和故障处理能力,加大对技术人员的培训和招聘力度。 
可第二天一早,徐常亮就得知昨晚通过的“干将莫邪”技术路线方案,竟然被否决了。

03

权力交锋,徐常亮向王坚索要最大兵权

采用“干将莫邪”方案,是内部集体讨论和投票决定的,徐常亮没有想到第二天就会被推翻,难道王坚有了新的想法?

其实阿里云的大数据计算引擎,同时在跑两套技术方案:一套是徐常亮团队借助Hive SQL的壳打造的代码生成系统“干将莫邪”,另一套是孙冰团队研发的“SQL Engine”。两种路线都有各自的优缺点。

孙冰团队技术过硬,经验老道,但“SQL Engine”在灵活性和快速迭代性方面有待提高。

孙冰题词《钗头凤》

而徐常亮团队利用代码生成方式,“干将莫邪”能够较快实现新功能,阶段性效果占优势。

王坚其实倾向选择自研成分更高的“SQL Engine”。(更多两条技术路线争锋故事,可添加作者程敏微信 LCMfancyworld 交流。)

徐常亮和孙冰两人私下里相处融洽,一致认为技术路线应该由项目第一负责人全权把控。

“如果让我来担任第一负责人,技术路线就由我来决定。要是非要采用其他方案,那我可就不干了!”徐常亮直言不讳地对王坚说。

之后有一次王坚赶飞机,特意让徐常亮陪同前往机场。一路上,王坚语重心长劝说:“技术路线选择要谨慎,两种路线切换成同一种路线要一步步来,不能操之过急。”

“我一定会权衡全局,渐进式切换。”徐常亮回应道,“具体的切换过程,交给我来拿主意就是了。”徐常亮的果敢和担当,赢得了王坚和团队的信任。

在这个时候,作为团队领导的张东晖也在推动组织和文化层面的融合,加速两条技术路线1+1>2的效果。与此同时,张东晖带着15年的微软工程经验,在那两年帮助飞天版本收敛,推动版本发布走上正常迭代节奏。

随后,徐常亮着手筹备相关工作,作为服务阿里金融第一负责人,挑战才刚刚开始。


04

阿里金融水深火热,汤子楠及时雨救火

那些日子,徐常亮带领着阿里云五十多个兄弟,在阿里金融门口常驻,无缝对接,全天候解决问题。
其中之一是汤子楠,他一直在北京办公,但在2012年1月3日,他特意乘坐了北京飞往杭州的第一班飞机,加入了专项工作组。
在汤子楠记忆中,胡晓明是个十分“有意思”的人。汤子楠和其他兄弟阿里金融办公室讨论问题,胡晓明每次经过都冲着大伙们笑,然后回到自己办公室,泡几杯香茶,亲手送到攻坚一线。
就这样,汤子楠、徐常亮和其他专项工作组的同事全力以赴,他们扩容了系统,提高了计算效率,修复之前的Bug,开发新功能,解决阿里云的稳定性和性能问题。
“这回阿里金融兄弟们大写满意。我们几乎就直接住在公司了,7×24小时解决问题。”徐常亮说。
“这场战役,实在太值得回味了!兄弟们团结一心,共克时艰。”汤子楠感叹。
阿里云团队和阿里金融团队
随着时间推移,阿里云性能越来越稳定,对阿里云怀疑的声音也日渐式微。
然而,大淘宝的员工仍然对阿里云持怀疑态度。
汪海作为大淘宝的负责人,与马云进行了一次经典对话。
马云笑眯眯地走到汪海(七公)旁边,问道:“七公,明年大淘宝有什么计划呀?”
汪海深知马云这个问题背后想要的答案,他思考片刻,决定顺水推舟:“马总,明年我们最重要的任务就是将大淘宝迁移到阿里云。”
马云听后心情大好,拍了拍七公的肩膀便离开了。
提到汪海,他在大淘宝员工心中是一个仗义侠客形象。
有一次,他所管理的服务机集群之一,大约有几百台机器,使用的是SQL Engine进行安装,但下属误用了ODPS进行了安装,导致数据丢失。更致命的是,这些机器中还存放着流量统计的数据。
下属犯错,汪海毫不犹豫,挺身而出,承担责任,接受降级处理,可谓大义凛然。(幕后故事尤为精彩,添加作者程敏微信 LCMfancyworld 了解)
然而,尽管“用阿里云”这个决定来自大义凛然的领导,大淘宝员工仍不愿意听从。
虽然他们也看到阿里云有了长足进步,但在他们眼里,阿里云依旧隐患重重,无法承载关键任务。
一时间,争议和疑虑在大淘宝内部蔓延开来。
事实上,大淘宝使用阿里云并没有明显好处。因为使用阿里云的好处是整体性的,而不是体现在单一的业务部门。只有当阿里巴巴的所有业务部门都使用阿里云时,才能发挥出大约30%的成本节省效果。
打个简单比喻:
阿里云就像一个电厂,每个业务部门都有自己“发电机”,可以独立发电。当整个电网达到一定规模的时候,成本可以降低一定的百分比,这就是规模效应发挥的效果。然而,在早期,这种优势并不明显。
一言蔽之:大淘宝有好处也不一定要用阿里云,用阿里云也不一定现在用,更何况大淘宝没有直接好处。
很多大淘宝员工发出灵魂拷问:“有人告诉你,开着车换引擎,换了引擎不一定比原来跑得快。你换吗?”
或许,这个灵魂拷问实在太难回答,大淘宝一度左右为难,犹豫不决,迟迟未能迁移到阿里云。
然而,到了2012,情况发生了变化。

05

神人多隆与蝙蝠侠并肩,护航5K

随着大淘宝数据的急剧攀升,原用的底层计算系统“云梯1”已经力不从心。
首先,云梯1已经达到了2000个节点的极限,难以满足大淘宝日益增长的数据需求。
其次,云梯1系统无法跨机房同步数据,只能在一个机房内运行数据,单个集群更是受限于5000台服务器上限。一旦达到5000台的限制,就无法再增加机器,这可能导致业务无法继续扩展,或者需要停止业务来进行迁移数据。
这两点都会严重制约大淘宝的业务发展。
一方面,需要满足大淘宝的需求,底层计算系统必须有能力独自调度 5000 台服务器的能力。另一方面,需要弥补云梯1的致命缺点。那么,大淘宝别无选择,只能转向云梯2(飞天),转向阿里云。
尽管大淘宝之前有种种顾虑,但是面对迫在眉睫的业务瓶颈,不换也要换了。
为了保证大淘宝顺利迁移到阿里云,公司启动了5K项目。
5K项目是阿里发展历程中极为浓墨重彩的一笔,它是为了解决阿里云飞天集群超过5000台机器的问题而专门成立的项目。飞天集群在创立之初并没有预料到,阿里的业务发展如此迅速,这么快就产生了如此庞大的数据,需要用到5000台机器的集群。
简单来说,5K项目要做的事就是把机房里的5000台机器当做一台来使用。“你扔1PB数据进去,它能够自己调度和计算,计算完再把结果合并统一输出。”这个过程听起来不复杂,真正要实现却非常困难,中间涉及到大量复杂的调度算法。
为了确保5K项目成功,数百名顶尖工程师投入了长达数月的艰苦攻关。其中包括刘振飞、汪海、唐洪、张东晖、徐常亮、汤子楠、林晨曦、孙冰、王乐珩等一众优秀骨干。
在5K项目中,团队面临着一个令人担忧的问题:5000台机器的网络通信会不会导致整个数据中心的崩溃?
这时候,工程师多隆找到了一个巧妙的解决方案。
多隆的方案是在规模上升之前,将一台机器模拟成多台,以降低成本。通过多隆的实验和设计,这个问题在一个月内得到了解决,使得从2000台升级到5000台的过程非常平稳,没有发生网络风暴。
多隆是技术大神,他热爱编写代码,喜欢沉浸技术世界;淘宝遇到问题时,多隆总是能够在最后一刻恢复系统,让其他人瞠目结舌;多隆有能力直接线上热改,不跑测试,突破所有传统工程纪律,时常带来意想不到的结果。
多隆技术天才的形象在多位从业者口中栩栩如生。
为了确保5K项目顺利进行,公司还专门抽调了一批技术人员值夜班,其中包括海公、无戈、介然、仲离、伯虔等人。
他们有一个统一的名字——“Batman(蝙蝠侠)”。
蝙蝠侠在值夜班
蝙蝠侠肩负着确保数据产出稳定性的重要任务。除了日常维护工作,蝙蝠侠们还有一个“特别任务”:每天早上6点,他们需要向马云发送一条短信,内容包括过去一天的盈利情况、成本和门店数量等经营指标。
这个“特别任务”对于蝙蝠侠们来说至关重要,因为必须在规定时间内完成整个数据处理流程,才能准时发送短信。
为此,蝙蝠侠专门设置了报警系统,以便能够及时发现和解决作业执行中可能出现的问题。
那是一个不平凡的夜晚,当蝙蝠侠们值班时,突然传来警报。原来,执行任务的速度异常缓慢,报警系统被迫拉响了紧急警报。
经过紧张排查,蝙蝠侠们很快发现了罪魁祸首 —— 一场看似平凡的淘宝商家营销活动,竟然导致了数据的严重倾斜,进而拖累了后续任务的执行效率。最令人担忧的是,如果这种情况持续下去,甚至可能导致次日早上6点前,关键报表数据无法按时计算完成。
面对危机,蝙蝠侠果断出击,他们重新对数据进行分片并修改了1000行SQL代码,最终在30分钟内解决了问题。
这次事件之后,蝙蝠侠的名号便在公司内部响彻云霄,代表着勇气、技术和责任。
那时候,只有最优秀的工程师能够成为蝙蝠侠。正是这些蝙蝠侠的努力,才保障了整个集团对数据的应用。
包含蝙蝠侠在内的5K项目团队以周为单位紧急推进项目进度。回忆起那段岁月团队成员无不自嘲:“起早贪黑,仿佛一个月都没有见过太阳,我们不得不全力以赴完成这个项目。”
就这样,历经半年如火如荼的工程奋战,阿里云团队终于完成了5K项目,将大淘宝的海量数据全部迁移到了ODPS平台上。

06

冯春培抛橄榄枝,开启支付宝ODPS迁移之旅

5K项目后,负责阿里集团运维的刘振飞找到徐常亮问道:“我们是时候完成2009年定下的'登月'目标了吗?”
徐常亮笑着回答:“是的,现在差不多就是时候了。”
徐常亮题词《云梯》
原来,早在2009年,阿里巴巴就制定了一项宏伟计划——“登月计划”,意在将集团内所有开源数据集群全部迁移至统一的ODPS平台之上,从而提高数据处理效率和稳定性,为业务发展提供支持。
当时,大家还在四处物色能够成为“登月一号”的先锋部门。
就在大家积极搜寻之际,正在北京出差的徐常亮接到一通电话,电话那头是支付宝负责人冯春培。
原来,随着2013年用户和交易量的不断攀升,支付宝的Hadoop集群开始吃力了,亟需扩容。但这与阿里巴巴“所有业务数据上ODPS”的整体战略相悖,支付宝因此陷入两难境地。
幸好,阿里金融已在ODPS上稳定运行,表现出色。两者的作业逻辑何其相似,全然可参考。于是,冯春培灵机一动,萌生了将支付宝迁移至ODPS的想法。
“不如就让支付宝成为'登月一号'吧。”冯春培主动抛出了橄榄枝。
与此同时,汤子楠也主动劝说支付宝团队:“ODPS的能力已经非常稳定,我们可以快速解决在迁移过程中遇到的问题。而且,一旦支付宝需要扩容,我们也能迅速实现成功的扩容。”
汤子楠的话增加了支付宝团队对迁移计划的信心。
支付宝成为“登月一号”后,汤子楠更是巧妙地“借势”鼓励支付宝团队:“登月计划是一个伟大的项目,支付宝正是参与这一伟大项目的团队。”
经过一年半的努力,支付宝成功地将数据从Hadoop迁移到ODPS平台。这样一来,支付宝不仅解决了数据量激增的问题,还实现了与阿里巴巴整体战略的完美契合。
2014年,整个阿里内部的数据都统一存储在ODPS物理集群上,标志着支付宝ODPS迁移之旅的圆满成功。(“登月”背后的部门争执,添加作者程敏微信 LCMfancyworld 获悉)
支付宝接入ODPS是一个重要的里程碑。作为金融应用,支付宝必须满足严格的安全标准。为了满足这些标准,ODPS在安全性方面必须拥有出色表现。
换言之,支付宝选择迁移到ODPS平台,这是对ODPS安全性的重要认可。
在登月计划中,数千名工程师接力前行,2015年7月1日,最后一个也是最庞大的数据孤岛,用Hadoop搭建的云梯1系统正式停止运行。

布满工程师签名的服务器,来自最后一批下线的云梯1服务器


07

难缠的博客园,惊人的快手

“登月计划”固然是阿里云的重大胜利,但要取得市场认可度,还有漫漫长路。
服务内部客户,不过是初窥门径。开拓外部客户,才是真正决战的沙场。
2014年,阿里云遇到了一个棘手的外部客户——博客园,一家博客网站运营公司。尽管他们购买的服务器数量很少,博客园却频繁地对阿里云的产品提出质疑和不满,给产品经理们带来了很大困扰。
汤子楠记得,博客园几乎是“每天一怨”,今天说这款产品不行,明天又说那款产品不行。难缠得让人绝望。
据说,王坚与博客园老板私交甚好,博客园老板好像特别敢于“瞎说大实话”,喜欢拿阿里云开刀,一直吊打阿里云。由于博客园老板也是一个博客运营者,所以他经常在博客上发表文章,介绍阿里云遇到的问题以及他们是如何解决的。
后来,王坚决定花钱购买博客园所有关于阿里云问题的报道,并将它们编纂成一本名为《进步集》的册子。
随后,王坚将《进步集》分发给阿里云的所有产品经理说:“这就是你们客户的意见和评价,你们认真仔细看看。”
通过阅读《进步集》,阿里云团队看到了客户提出的问题和不满,以及博客园是如何解决这些问题的。他们开始认识到,只有真正了解客户的需求和痛点,才能不断改进产品并提供更好的解决方案。
“为了更好地与博客园合作,阿里云开始定期举行会议,聆听博客园的意见和建议,共同探讨如何改进产品。通过与博客园的合作,阿里云逐渐改进了产品的性能和稳定性,满足了博客园的需求。”
汤子楠记忆犹新。
另一个令人印象深刻的客户是快手。
与博客园的“难缠”不同,快手让人印象深刻的点是“发展迅速”。
起初,快手只是阿里云的一个小客户,专注于开发技术文件编辑的小软件。然而,大家目睹了快手在短短几年时间从一个不知名的创业公司迅速成长为中国短视频行业的领军企业。
这一点从他们在阿里云上的IT消费上就可见一斑。快手每年的消费都呈指数级增长。
因此,所有人都争着为快手提供服务,因为他们的投入越来越多,成为阿里云的重要客户之一。
“阿里云强调‘客户第一’的口号跟早期经历过的客户不无关系。通过倾听博客园的声音,阿里云改进了产品,并与客户建立了更好的合作关系。同时,他们也意识到小客户也可能会成长为重要的合作伙伴,因此对待每个客户都要一视同仁。”
汤子楠总结。
当年造势登月后的他继而投身阿里云商业化。
5K成员王乐珩在项目结束后,同样踏入商业化舞台,参与设计ODPS商业化计费方式。
他为ODPS先进且有趣的计费方式自豪:“ODPS是全世界最早采用代码内的SQL来计费的产品,也就是即根据代码的执行情况来计费。后来,Google BigQuery也采用了与ODPS完全相同的计费方式。”
从内部“造势登月”到外部“全面商业化”,“敢死队”队员正一步步拓宽阿里云的宏伟版图。

AY42是ODPS最早一个集群,也是最早完成使命下线的集群,陈鹏宇致信怀念


08

尾声:阿里云的使命召唤

当年也有份造势登月的徐常亮,经历了阿里云早期多场战役,走到了晋升P10的路口。
王坚向徐常亮提出了一个问题:“你这么年轻就能达到P10级别,是否过早了呢?”
王坚之所以这样问是有原因的。当时,阿里云只有唐洪、李津等三两人达到了P10,同期的蒋凡、无招也只有P9。
徐常亮引用了王坚自己说过的一个故事回应:“博士,您曾经给我们讲过一个故事,林彪为什么23岁就能成为军长?要么是前任军长战死沙场,要么是前任军长受不了长征或者打败仗跑了(平者让贤,能者居之)。”
徐常亮的情况恰如林晨曦所描述的那样。
据林晨曦回忆,早年的阿里云就像是一个军队,在攻占一个看起来不可能攻克的山头,一批冲锋者倒下了,下一批冲锋者接着顶上。其实是很悲壮的,因为没有人知道,未来到底能不能成功。压力实在太大,很多人只在团队呆了半年就走了。
然而,作为“幸存者”的徐常亮没有辜负这份机缘,他带领ODPS团队从最初十多人发展到三百多人。2016年年底,徐常亮将大部分业务转交给新加入的周靖人,自己则转战新华智云,开启新篇章。
“那时候,阿里文化很纯粹,部门壁垒小,跨部门协作经常发生。大家拥抱变化,乐于合作,专注创新,同心协力,能者自然很快就会浮出水面。”
徐常亮说。
2016年双十一,ODPS承担全集团数据计算任务保障现场
徐常亮的说话让本文作者突然想起胡晓明面试关涛时的经历。
关涛曾在是否加入阿里云的决定上,犹豫不决。当时,阿里云计划构建基于ODPS的新一代数据平台,但他对阿里云在自主开发数据平台的决心不够肯定,关涛担心公司可能会随时决定转向采用海外开源系统。
可胡晓明一番话给了关涛信心,“在云计算领域,我们并不拥有CPU、硬盘或带宽等硬件资源,而我们真正的优势在于顶层的软件。从IaaS到PaaS的各个层面都需要自主开发数据平台,才是我们要专注和发展的方向。”
那个时候,只有队伍充满信念感、部门不树高墙的企业,才能把自研推动下去,自研维艰,可更难的是能否让内外部信任它、接受它,胡晓明虽非技术出身,但依旧相信并看见了自研的未来。
“阿里云让我感受到了何为真正的使命驱动。”关涛说。
关涛还记得,阿里云西雅图办公室就在微软办公室对面,中间隔着一个草坪。当年面试时间安排在休息日的早上8点,在面试过程中,他发现阿里云的办公室只装修了一半,另一半仍处于未完成状态,用物品遮盖着。这一切都与按部就班的美国IT公司很不一样。
关涛感觉这家公司不太在意是周几、什么时间段,也不太在意面试场地是否完全准备好,这给他留下了务实接地气的印象,随后关涛与胡晓明、唐洪等人相谈甚欢,众人思路一致,志同道合,于是关涛决定加入阿里云,接棒徐常亮开始了ODPS 2.0之路。

2017年双十一, ODPS数万台集群运行稳定

关涛现场发朋友圈

“能者居之” “使命驱动”,正因如此,阿里云成为了众多卓越工程师心中理想的归属地。
随着时间的推移,曾在阿里云创业一线英勇奋战的先行者们如流星般分散天际,有些追逐新的创业梦想,有些踏上其他领域的征途。然而,无论他们身在何方,他们的足迹和贡献永远被大家铭刻于心,不被岁月洪流冲刷。
多年前,他们以敢为人先的姿态,开拓云计算领域,成功自研出了飞天和ODPS这些优秀产品。
回看当下,阿里云依然保持那股创新开拓的精神,并延续至当前吴泳铭极具英雄主义的“公共云优先”战略中:“阿里云全公司的唯一产品就是这张理想中的云计算网络,赢得竞争需要我们在战略方向上放弃杂念,坚决做取舍,集中我们最大的压强,加大公共云的产品和技术投入。”
阿里,乃至整个云计算界,需要一群“敢死队”大胆拥抱公有云激进主义。数百万从业者受够了当下不健康的ToB生意,沉睡了二十年多的黑暗,需要一场破晓。
这一次,我们继续期待阿里云这群敢为人先、破釜沉舟的使命驱动者,推动中国云计算行业迈向全新时代。
雷峰网将持续更新《阿里数据驱动二十年》、《阿里AI驱动二十年》系列,欢迎添加作者程敏微信交流:LCMfancyworld。
继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存