小邪在阿里的十年技术人生
2008年4月,小邪正式入职阿里巴巴,首次接触淘宝商城项目,拉开了十年的阿里技术生涯。去年12月,小邪加入阿里云,成为飞天八部掌门人。本文邀请到小邪进行了专访,就其在阿里十年的经历进行了深入访谈。此外他还分享了阿里的技术发展史以及职业生涯感悟。
第一个项目以及最大的项目
淘宝商城(现天猫)是小邪加入阿里的第一个项目,彼时淘宝商城正处于公测阶段,而他主要负责品牌导购,即淘宝上的品牌页,通俗点说就是让用户可以根据字母(例如耐克、阿迪达斯等等)顺序筛选品牌。
对于外界而言,鉴于阿里巴巴在电商领域扎根多年的经历,要复制淘宝的成功并非难事。但事与愿违,早期的淘宝商城表现并不尽如人意。
“2008年正是电商快速膨胀的阶段,整个行业都呈现出较为浮躁的氛围,不断有巨头进入,也不断有公司倒下”,小邪如此回忆。
而在这样的大环境下,淘宝商城的问题很快凸显出来,整个网站的流量持续走低。在小邪看来,淘宝商城业务不理想的原因主要有两个:一是商品进入门槛非常高;二是淘宝的流量无法分流。因为淘宝商城和淘宝完全独立,除了会员数据之外,所有的系统都是独立的,包括商品、交易、积分、商品管理甚至还有论坛全部是独立的两套体系。
2008年的淘宝首页,你还记得吗?
淘宝是按照商品纬度来展现商品,淘宝商城的结构则是按照SPU纬度展现的。只要是技术能解决的问题都不是问题。在淘宝商城整体业绩表现不佳之后,两个团队的负责人很快便开始规划将两个平台的数据打通,内部称这个项目为“五彩石”,这距离小邪第一个项目的完成才短短数月。
“我在这里面主要承担了几个事情:一是重建原来的导购系统,以打通淘宝和淘宝商城的底层;二是与搜索团队对接;三是负责商品管理方面的研发工作,例如商品的上下架、补货等等。”五彩石项目从2008年10月开始,历时半年才正式完成。
无论是对小邪个人还是对阿里巴巴而言,五彩石项目都极具意义,它把淘宝和淘宝商城彻底打通,并且是首次在整个架构层面引入中间件,并对整个系统进行了分布式化的改造。小邪坦言,在此之前,由于业务体量大、需求变更频繁,导致项目整体的研发效率非常低,而且在数据库上还是采用传统的IOE架构,也带来了很多复杂性问题,中间件的应用很好地解决了这些问题。
“五彩石项目为天猫后续的发展奠定了坚实的基础,也奠定了今天的系统架构;对我个人而言,这个项目也让我对整个电商系统有更深的理解。”
技术进阶:全链路压测和双十一
当然,这仅仅是开始。淘宝商城业务的高速增长又给整个技术体系带来了新的问题。
小邪表示,分布式系统的应用对稳定性的挑战非常大,简单来看,保持稳定性需要做监控、流量规划、服务治理等等很多事情,而这些产品后来都成为了阿里巴巴集团的整个稳定性的基础设施。
“我印象最深刻的就是2013年开始做全链路压测。”
以双十一为例,全链路压测就是模拟双十一的流量以及用户规模,通过模拟这样复杂的场景来监测错误并且提前解决。2013年,淘宝商城的体量急剧增长给分布式系统带来了很多复杂的问题,而在当时来看,做全链路压测技术是最有效的解决方案:它可以合理规划系统流程,可以让集群的资源被充分利用,用最少的资源具备最高的流量水位。
“但我们在2013年把这些问题都有效地解决了,所以2013年的双十一表现得非常好”,这也是技术的核心价值所在。
风云十年:历数阿里技术体系变革
2008年入职阿里,到2012年执掌中间件团队,再到如今的阿里云飞天八部负责人,小邪的角色在不停转变,整个阿里技术体系这十年更是迎来了翻天覆地的变革,在他看来,主要有三个变化:
第一个变化是从开源到自研。阿里从大量使用开源技术到越来越多的自研技术,因为开源技术不管是从代码质量、还是功能需求上都难以满足业务需求,所以团队必须要有很强的自研能力。当然,到自研之后团队又做了很多开源,来使产品运行得更好。
第二个变化是从烟囱式架构到分布式架构。随着业务规模的增长,分布式是必然,今天没有一台服务器、一个系统能够支持如此大的计算能力。
第三个变化是从追求合格到追求极致。阿里在不断地推动技术进步,并在落地过程不断应用完善。不论是云计算,还是团队正在研发的IaaS、数据库、服务器、业务系统等等,它都是一个不断迭代生长的过程,在领域内追求极致创新。
技术成长:角色转变也是职责转变
在阿里云意味着更贴近客户,这对小邪来说是最大的改变。
“以前在中间件团队,产品以及团队磨合都比较成熟了,因此我们的关注点都聚焦在每年双十一的挑战上。但是在阿里云,我们会面对各种需求,并且要求我们通过产品去呈现——这个是很大的区别”,小邪认为,阿里云既是一个技术团队也是一个商业团队,这是非常本质的区别,需要不断通过客户反馈的需求来对产品进行优化。而整个需求的反馈到响应,都需保持通畅。
但小邪认为这其中并没有水土不服,两个团队都有共同的使命跟愿景,以及对创新的极致追求。在阿里云的这半年时间里,这支团队的战斗力也超出了他的预期。“阿里云团队的整体技术实力非常强,团队经过多次锤炼对市场的敏锐度都非常出色,这个团队的战斗力非常强。”
阿里云飞天八部对外输出了弹性计算、数据库、网络以及存储等核心业务,毫不夸张地说,这也许是小邪近十年最大的一次战役。对此,小邪认为团队接下来主要做三件事:第一是去解决客户痛点;第二个是提升产品竞争力,提升产品性价比、稳定性等指标;第三是持续引进云计算方面的顶级人才。
“我不希望团队去盲目追逐热点,对于研发团队来讲,专注于技术是最核心的任务。”
Q&A:直面小邪
阿里技术:飞天八部最近在技术领域取得的一系列突破,令人瞩目。新一代弹性裸金属GPU服务器(神龙)和关系型云数据库POLARDB的发布、全球首发8K视频直播技术、飞天云操作系统核心技术及产业化项目”获得中国电子学会科技进步特等奖等。在这些成就的背后,你认为有哪些成功因素?
小邪:这得益于我们的研发策略“上拉客户需求,下推产品竞争力”策略,阿里云所有的技术产品都是围绕客户需求展开的,产品要围绕市场需求,用户体验来做,通过销售、实施、服务团队的需求建立持续跟踪的机制,确保客户需求是被很好地反馈和收集的,并被持续完成发布上线。
8K视频就是我们观察到在企业现场直播市场对此有很大的潜在需求,所以我们会快速通过技术研发和技术整合进行产品化。另外阿里巴巴集团自身的场景主够的丰富,全世界最大的电商平台,最大的支付平台,还有物流平台、视频直播、地图等等,就像是一个很大的预演社会,什么场景都会遇到,也是得益于我们在绝大多数公司遇到技术挑战之前已经完成了探路和建路的过程,我们提前把路上遇到的坑也都填平了,再加上阿里巴巴的中台机制,能够将这些场景化的技术转化为通用类技术,所以通过这个“社会”+“中台”机制沉淀出来的产品有主够远见和竞争力。
阿里技术:我们经常听到一句话——技术拓展商业边界。技术不只服务业务,也为业务提供创新驱动力。对此你是如何理解的?能否举例和大家说明?
小邪:技术创新能为业务提供创新驱动力,长远来看,所有的业务的成功都是由技术来推动的。我们需要做的就是不断通过领域内的创新,简化技术使用门槛,推动贵族技术的不断平民化的过程。原本需要用人解决的问题,用技术解决,原本昂贵的技术用便宜的技术解决,这种朴素的诉求是不会改变的。
比如原来需要自建,自运维IDC,今天在阿里云上只需要一个账号就能解决,原来需要“高端企业的数据库”场景,明天可以简单使用我们的POLARDB就能解决。技术的创新有个临界值,很多技术不成功不是方向不对,而是没到临界值。车牌的识别准确率在95%以下的时候是没有商业价值的,一旦超过这个值之后,就会出现技术推动商业发展,然后商业又推动技术进步的正循环过程。 今天每个技术要么成熟地支撑于业务,要么还处在类似“车牌识别的95%准确度” 之下,这种处在创新中的技术,只需要花点时间,给点耐心,就会有爆发的那一天。
阿里技术:作为一名十年阿里人,在这十年中,你觉得印象最深刻的事是哪一件?
小邪:今天回过头来看,最有意义的一件事情是完成了阿里巴巴集团各个业务板块的中间件技术统一,中间件决定了我们技术的分布式架构体系,这些技术的统一使得我们系统的运维统一、研发统一、学习过程变的简单,我们的工程师从一个部门到另一个部门工作不存在技术门槛。同时集团所有业务的分层架构也变的统一而清晰,业务板块业务的互相依赖调用也变得非常简单,对集团整体的中台战略提供了技术基础。后来把这些分布式技术产品化,推动并完成了在阿里云上技术的输出,使得中国大量企业在往互联网业务转型过程中可以简单地获取阿里云互联网中间件的产品和服务。
后记
小邪是一个谦卑柔和、极易相处的技术大神,在采访过程中,小邪多次强调技术人应当认真、谦虚、自我学习、并且保持自信。此外,尽管在阿里云工作的节奏很快,但他从未忽视对家庭的责任担当。
“在工作之余也要处理好家里的事情,我会把工作中一些有成就感的事、有趣的事都分享给他们。”
彩蛋:关于小邪,你还有什么想了解的事情?在留言区写出你好奇的问题,下次阿里妹将带着你的问题,去请教大神哦~
你可能还喜欢
点击下方图片即可阅读
关注「阿里技术」
把握前沿技术脉搏