查看原文
其他

蚂蚁集团何征宇:双十一背后的技术减碳,有一招“绿色计算”的杀手锏

CSDN 2022-05-12

The following article is from 36碳 Author 邓咏仪 苏建勋

一场双十一,蚂蚁集团的“绿色计算”就能减掉394 吨二氧化碳——蚂蚁减碳远不止“蚂蚁森林”那么简单。



本次记者独家采访了蚂蚁集团基础设施委员会主席、可信原生技术事业部总裁何征宇。从2019年开始,何征宇与其团队摸索出一套“绿色计算”技术体系,并在2021年双十一期间首次大规模应用,极大提高了计算资源利用效率,最终让蚂蚁集团节省 64 万度电,减排二氧化碳 394 吨,相当于 3 万辆燃油车停开一天。
在元宇宙、5G等趋势下,科技公司的算力需求还会指数级上升,这意味着巨量的能源消耗。在本期「谈碳」里,何征宇针对蚂蚁集团的“技术减排”构想、落地、以及商业化前景,分享了这几年的故事和经验。
和大多互联网科技公司相似,“双碳”大潮来临时,蚂蚁集团面临这样一道考题:自身业务没什么高额碳排放,想减碳的话,从哪减?怎么减?
何征宇就接到了这道命题。
何征宇有着学霸模板的履历:15 岁考取北京理工大学,博士毕业于佐治亚理工学院,后供职于谷歌内核组,创立并带领开源项目 gVisor ,成为基础技术领域里的新星。
2018 年,何征宇回国加入蚂蚁集团,第一项工作就是蚂蚁集团技术架构升级项目。他带头建立起的“可信原生技术部”,专攻基础设施技术,其中第一个目标就是通过技术架构的升级,更合理的分配计算资源,提升蚂蚁基础设施的整体运行效率。
到了 2020 年,国家宣布“碳达峰、碳中和”目标,包括何征宇团队在内的蚂蚁集团“绿色计算”相关团队,将  2019 年至今的工作更完整地梳理后,确定了碳中和行动路线。如今,何征宇任职蚂蚁集团可信原生事业部总裁、蚂蚁集团基础设施委员会主席。
用 IT 的手段节能降碳,业内已有先例。“绿色计算”就是业界基于这一问题提出的新概念。虽尚无明确定义,但业界普遍认为,绿色计算的核心就是提高资源利用效率。
具体实践上,绿色计算主要分为两个方面:在物理层面,降低数据中心 PUE(核心能耗指标,即数据中心总能耗/ IT 设备能耗);在算力层面,合理分配计算资源。
何征宇麾下的可信原生技术部中多项自研技术,就和数据库、技术风险、智能决策等部门的研究成果一起,被归集到“绿色计算”体系中。
2021 年双十一期间,“绿色计算技术体系”首次大规模应用——蚂蚁的计算资源会变成“潮汐车道”,计算资源按时间段分配给不同的任务。比如,中午饭点是闲时,计算资源可以分配给实时性要求不高的操作;到了晚上零点,计算资源就可以全力支援付款下单高峰期,资源腾挪的时间可从原来的几个小时降到一分钟左右。
一份计算资源在不同时间段提供给多个操作任务,能极大提高计算资源利用效率。去年一场双十一下来,绿色计算让蚂蚁节省了 64 万度电,相当于 820 个人的全年生活用电;减排二氧化碳 394 吨,相当于 3 万辆燃油车停开一天。
蚂蚁集团2021 年双十一减排报告
而同比三年前,蚂蚁集团的服务器利用率提高超过两倍,相当于同等规模业务下,每一份算力的耗电量减少了一半。
能在短时间内达到这样的减排效果,蚂蚁 2019 年架构升级的每一步,都不可缺少。
“过去三年,蚂蚁的技术架构升级主要做了两件事,首先是将业务搬到云原生架构上;第二是建立了统一的调度中心,用来调度所有计算资源。”何征宇回忆道。
此前,蚂蚁已完成业务上云,首先满足的是让业务软件搬到云上,在云上“可用”。等到业务进入高速发展阶段,内部的计算资源分散在不同地方,比如业务、AI 等算力需求较大的部门都拥有自己的技术栈,重复造轮子的问题日益明显。
所以,选择升级到云原生架构,相当于将底层的操作环境推倒重来,基于“云”进行重构系统,开发人员不用再像以前一样,将软件开发好了再部署到云上,而是从研发开始直接在云上协作。
在此基础上,可信原生技术部研发的核心技术,让计算效率显著提高。蚂蚁自研的安全容器技术,就类似于让来自安卓和 IOS 终端的计算任务,同时存在于同一个环境里,隔离好,让两个任务独立运行。即使 CPU 负载超过 95% ,计算效率也很少受到影响。
技术减排背后,蚂蚁集团的组织机制和调整也提供了保障。
从组织机制上,每一年,蚂蚁集团内部首先通过财务原则来管控,每年都根据上一年的资源实际使用情况来制定当年的预算。之后,业务和技术再根据需求,确定今年的技术投入和减排目标。
通过升级云原生架构,蚂蚁也将算力的分配统一归到了 CTO 线,并且成立了类似可信原生技术部这样的部门,攻坚相关的基础设施技术。
“以前,一些算力需求比较大的部门会拥有自己的技术栈和服务器,这就肯定容易有资源闲置。云原生化后,蚂蚁将算力统一归到 CTO 线进行调配,技术上减少了很多损耗,才有可能做到绿色计算。”何征宇告诉记者。
放眼碳中和进程,如今距离国家宣布“双碳”目标不过短短一年多,科技巨头们的“减碳路”,刚刚开始。
“双碳”目标被提出后,腾讯在今年 2 月发布碳中和目标和行动路线,明确第一阶段的任务:在节能同时,加大绿电应用,以自研、投资的方式探索新技术路线和商业模式。华为则基于原有的 ICT 业务,在去年 6 月成立了“华为数字能源”,目前已经对外输出自家的绿色数据中心、基站等方案。
2021 年 3 月,蚂蚁公布了碳中和目标,承诺于 2030 年实现净零排放(范围一、二、三),并在 4 月公布了自家碳中和路线。
从路径上看,除了主流的降低数据中心 PUE 、采购绿电、投资绿色技术、碳汇抵消等手段,蚂蚁的碳中和排放路径更注重技术减排带来的效益——蚂蚁在今年的碳中和报告中,就特意提及了,绿色计算在 2021 年为蚂蚁减少了近 3 万吨碳。
目前,蚂蚁的绿色计算技术也在通过开源、免费开放专利、论文分享多种形式共享。其中具有弹性可伸缩能力的分布式数据库,先行一步走到商业化阶段—— OceanBase 数据库开始商业化,帮助有相应需求的客户达到增效节电的的效果。现在,OceanBase 已经服务超过 400 个客户。
可做的事情还有很多。何征宇表示,蚂蚁的目标,是要在 3 - 5 年内追上世界一流的减排实践。
国外科技巨头做碳中和都更早。谷歌早在 2007 年就宣布自身实现碳中和,此后陆续推出包括自研数据中心、Nest 恒温器节能电源等产品;在技术架构上,谷歌从存储到计算形成一体化底座,也让能耗大大减少。
到了 2021 年,谷歌甚至在净零排放的目标基础上更进一步做出承诺:到 2030 年,让数据中心“全天候使用无碳能源运营”, 这意味着运行的全生命周期里都需要采用绿色能源。
对于 3-5 年的目标,何征宇表示,蚂蚁主要押注在基础软件技术突破上。他认为,技术在绿色计算发挥的潜力远未被充分挖掘。
一个证明是,当前数据中心 PUE 降低快到达极限值,减排空间已经不太大;但通过计算资源合理调度,蚂蚁的资源利用率跟三年前比提升了两倍多,今年预期涨幅也相当可观。何征宇认为,技术减排的红利仍有很多,而基础技术研发普遍存在后发优势,接下来团队解决问题的速度会越来越快。
接下来,可信原生技术部的触角也在不断延展到新的领域——在今年,何征宇团队将会重点攻坚如存储资源池化的问题。
“现在我们是将上层的算力做调度,但存储是更为底层、更难迁移的。一旦将计算和存储打通,业务操作效率将会有质的提升,这也会进一步减少能源消耗。我们今年的目标,是将资源利用率再提升15% 左右。”他表示。
何征宇。图片由蚂蚁集团提供
以下为记者与蚂蚁集团可信原生技术事业部总裁、蚂蚁集团基础设施委员会主席何征宇的对话内容,经编辑后发布:
记者:我国“双碳”目标在 2020 年 9 月提出,蚂蚁集团在半年后即宣布了自身的碳中和目标:承诺在 2030 年实现净零排放。这一目标背后的背景是怎么样的?
何征宇:宣布碳中和的大背景是为响应国家“3060”碳中和目标。表面上看,我们在 2021 年 3 月宣布碳中和目标,动作很快。实际上,蚂蚁在更早的时候就在探索和实践这个方向。譬如,在技术减排层面,我们对这个方向的探索,要追溯到 2019 年。
2019 年,我们当时已经服务了数亿用户。当体量达到一定规模后,企业追求高质量发展就会成为必然,这是在我们预测当中的。所以我们开始了技术架构升级,全面云原生化,这是我们后来做“技术减排”的重要契机。当时,我们明确的最重要方向,是将资源利用率提升,更有效率地消耗能源。
记者:2019 年时,蚂蚁的能源消耗情况大概是什么样的水平?
何征宇:从减碳来看,我们的业务基础是金融科技。一开始,我们的能源消耗水平和金融行业相差不多——金融服务对连续性和可用率的保障要求比较高,很多时候都是以加大能源消耗来换可用率。
所以我们当时设定的目标,是对标国外最先进的科技公司减排实践,比如谷歌从 2009 年就开始做减排。而我们从开始减排到现在,每笔业务的能源利用效率大概是行业水平的 2 倍。未来,我们也希望能在 3 - 5 年内追上全球最先进的减排实践。
记者:“双碳”目标出来后,蚂蚁仅仅过了半年就宣布了目标,速度很快。在蚂蚁内部,减排目标有因此进行过什么调整?
何征宇:看到 2020 年国家提出双碳目标后,我们架构升级其实是与之契合的,这就积累了一定的先发优势。“双碳”目标出来后,我们把正在做的事情更加完整地梳理了一遍,比如计算效率提升后,到底可以节省多少能源,以及确定了碳中和行动路线。其实,从 2019 年开始,我们每年都会回顾今年技术对能源利用效率的提升,这是一个长期的过程。
记者:如果将目标细化,蚂蚁是如何拆解减排任务的?
何征宇:根据温室气体核算体系,蚂蚁集团碳中和分为范围一化石燃料燃烧所导致的直接排放以及逸散排放;范围二是电力和热力等外购能源所导致的间接排放;范围三是供应链上的相关间接排放。我们的目标是2021年起实现范围一和范围二的运营排放碳中和,2030 年实现范围一范围二范围三的净零排放。
对科技公司而言,最大的能源消耗来自数据中心,用电、制冷等等。算力是其中一个方面,可信原生技术部在探索的就是希望通过技术实现范围三的减排。
记者:集团技术架构升级是“绿色计算”技术体系的重要前提,蚂蚁集团当时都做了什么事情?
何征宇:在云原生化之前, 蚂蚁和现在很多科技公司的技术架构类似,比如某个部门计算需求比较大,可能他们就持有自己的一部分计算资源,比如存储、数据库等等,各自独立发展。但在非业务高峰的时候,很多资源就闲置了。
所以,蚂蚁在 2019 年成立了可信原生技术部这样的中台部门来做基础技术研发。总结下来,在技术减排来看,我们就做了两件事情,首先是将所有业务搬到云原生架构上;第二是建立了统一的调度中心,用来调度所有的计算资源。
记者:在减排这个事情上,蚂蚁集团用什么指标来衡量?与业界实践相比,蚂蚁会更侧重什么方面?
何征宇:指标是多维度的。我们追求的,不仅仅是单纯的降低 PUE 等核心能耗指标,而是整体的资源利用率、研发效率、稳定性、安全性等等。
比如我们买了一个节能 LED 灯,比普通白炽灯贵一点,但如果买回来之后你从来不关,一样浪费能源。我们追求的,是动态调节灯的开关,在不牺牲业务连续性的前提下,尽可能地节省能源。
记者:在保证业务连续性的前提下节省能源,是否可以分享一个具体的业务场景?应用了哪些关键技术?
何征宇:国内很多科技公司都是运营驱动的,这意味着对计算资源的需求一定有峰值。比如双 11 的计算资源投入和平时可能就有 100 倍的区别,这是当下国内科技行业最突出的问题。
以蚂蚁自身为例,我们大概有一半的任务是在线的,另一半里大部分是离线任务,我们应用了多种绿色计算核心技术来做动态调节,比如在离线混合部署技术、云原生分时调度、AI弹性容量等等。
比如我们的潮汐混布技术,举个例子,计算资源就跟潮汐车道一样,大家中午吃饭的时候,业务需求并不多,我们就把车道让出来,换成别的对延时要求不高的任务来跑;我们也会对内部的业务数据进行分析,预测未来的计算资源峰值,算法不断调优。
记者:如何提升计算资源的利用效率?难点在什么地方?
何征宇:关键的技术难度,其实在于真正有峰值来临时,计算资源是否能真正腾挪出来。在这个方面,之前蚂蚁的整体架构云原生化打下了很好的基础,让计算资源可以进行统一调度。
而云原生的核心组件,比如容器,蚂蚁一直坚持技术自主研发,在绿色计算体系里就突显了重要性。打个比方,这相当于开发了一个新操作系统,操作系统上可以同时跑安卓、IOS 等等。所有的计算任务跑在同一台机器上,哪怕是整体 CPU 利用率达到百分之八九十,也可以互不影响,这很大程度提升了运行效率。
达到这个前提,我们才有可能做计算资源的调度,让离线任务跑到在线任务旁边,在线任务跑到数据库旁边,通过实时动态配置,根据服务需求去做这个事情。
记者:业界做绿色计算,普遍从两个方面出发,一个是降低数据中心 PUE ,另一个是合理分配计算资源。蚂蚁怎么看待不同方向的减排效率?
何征宇:PUE 是除了计算之外的能源消耗,比如数据中心的照明、冷却等等,现在业界先进的 PUE 水平是在 1.1 左右,提升到 1.0 几乎已经是极限了,大概还有 10% 的提升红利。但计算效率提升的空间还很大。在过去三年,我们整体资源利用率有两倍多的提升。
所以对治理碳这件事情,我们肯定是先是调整能源结构,科技公司的能源消耗大头是电,我们会通过采购绿电等方式来改善;然后是提升计算效率,将资源利用率调到最优。
记者:从 2019 年开始做云原生化,这背后是否有伴随蚂蚁内部的组织调整?对计算资源整合有什么影响?
何征宇:有调整。蚂蚁的组织特点还是以大中台+小前台组织形式为主。在技术架构升级和技术减排方面,我们内部首先是基础设施技术委员会和财务、安全小组等等拉通目标,保证业务稳定性的前提下,每一年设立能耗提效的目标,我们再制定技术投入和采购量。
到具体执行时,以 CTO 线作为主导,所有业务单元的计算资源都归到 CTO 线,进行统一规划、采购和配置。我们有强大的动力去节省资源,组织内部有市场化的结算手段。
记者:在减排成本和保障业务连续性两方面,蚂蚁如何达到平衡?
何征宇:在减排上,蚂蚁有比较强的架构管控流程。第一是通过财务来管控,是如果机器消耗量或者利用率没有到,可能不会有新的一些审批,这是从机制上来保障。
然后再到我们技术这边,我们会预估全年业务发展到底需要多少资源,进行不同排列和分布,再确定技术投入到什么部分。
在业务方面,我们肯定将资源保障放在第一位,让业务的计算资源先满足。在避免业务打扰的情况下,我们在底层部署潮汐混布之类的技术,帮助他们提效。这也是设立可信原生技术部这样的中台部门的原因。
记者:复盘过去的三年,蚂蚁值得分享的经验有哪些?
何征宇:我觉得第一个,首先是拥有足够强大的基础技术团队,当我们深入到操作系统层面,不管是中间件也好,操作系统也好,甚至数据库也好,我们都有相应的队伍,针对为提效减排目标来做研发。如果你手里的东西都是黑盒,全是外部采购的,你基本上啥也干不了,我们对自研技术的投入在这一刻是产生了回报的。
第二个,从技术视角来看,定义明确目标是很重要的。比如国家层面的双碳目标,对企业的引导就是很正向的。对于很多技术同学来说,担心的不是技术难或需要时间,担心的是没有一个确定的目标或问题。把问题定义清楚,非常重要。
记者:刚刚提到 3 - 5 年达到世界一流的减排实践这个目标,你认为算比较激进吗?
何征宇:时间当然是很紧张的,我们肯定有技术上的优势,也面对挑战。
在技术上,我们相信很多时候都会存在后发优势。特别是在计算机基础架构开发领域,有 Green Field 和 Brown Field 两个概念。(Green Field,指在全新环境开发系统,没有遗留代码等问题;Brown Field,指要在以往的系统基础上来开发或改进)
蚂蚁在这个问题上有一个很好的治理传统,每三年会做一代大的技术架构升级,能够比较好地处理技术的历史遗留问题,解决问题速度会变快。所以对于这个目标,我们还是比较有信心达到的。
记者:在去年的基础上,蚂蚁集团今年减排的目标是怎么样的?会重点在哪些关键技术上做研发?
何征宇:通过可信原生技术,我们去年实际上实现了 2.7 万吨二氧化碳的减碳量。今年,我们希望能将资源利用率再提高 15% 左右。
在技术方向上,我们今年会重点解决存储系统等方面的问题,让存储和计算系统进一步打通,这将显著提升动态调度的效率。
另外,我们也非常支持和热爱开源,现在已经开源了大型开源项目 Kata Containers ,是容器隔离的核心技术。未来,比如涉及到操作系统、云原生底层组件的一些技术,我们也会进行开源,通过学术论文、算法等分享形式。
记者:蚂蚁技术减排的这些实践,目前是否有对外输出,进行商业化?
何征宇:我们当然希望技术让全行业受益。目前,“绿色计算”体系包括两个技术门类,一是云原生,二是原生分布式数据库。当前,我们的云原生技术是通过开源、免费开放专利、论文分享等方式做对外开放。
而原生分布式数据库,我们通过产品化形式对外提供服务。我们的分布式数据库 OceanBase 支持了绿色计算技术,当前已服务超过 400 家客户。OceanBase 正是基于离线混合部署、极致无损弹性和智能分时调度的能力,来实现计算、存储和网络方面的资源提效。
记者:从全球范围来看,有哪些比较好的技术减排实践可以分享?
何征宇:从我的角度看,科技公司就分两类路线,一类是乙方公司,比如云计算厂商、硬件厂商等等主要提供算力的公司,还有咨询公司等;还有一类是甲方公司,大量消耗算力。
乙方公司是希望帮助客户实现碳中和这个问题,从硬件到软件,有全套的技术栈。他们的自身技术栈利用率可以达到非常高,比如 IBM 的软硬件结合,可以让技术栈的利用率做到 99%,这是非常惊人的。这是因为他们得帮客户解决问题,并且利用了 AI 和数据等等能力,他们预测算力需求的能力很好。
甲方公司里做得最好的是谷歌。谷歌最大的优势是在很多系统都是自建,而非采购,这能够让他们看清楚所有的业务板块都在做什么。他们的技术栈相当于是把所有的服务器看作一台计算机,所做的事情都为了提升这台计算机的利用率。哪怕提升百分之几,在庞大的服务器体量下,效率提升都是惊人的。
所以,这两个方向都会出现伟大的公司,一个是帮客户做,一个是帮自己做,都是我们应该追求的目标,蚂蚁也都会去探索。
记者:对科技业而言,你认为,当前最大的减排挑战会在什么地方?
何征宇:我前几天看了一个数据中心的报告,其实可以反映一些问题。目前数据中心从市场出货量增长来看,是没有减缓的,每年都还在提升。而单台服务器或 CPU 消耗来看,功率也没有降低。
在减排挑战上,我认为真的还是在技术突破。如果我们在处理、储存、传输过程中避免不必要的消耗,科技行业的整体能源消耗量是可以成倍减少的。
这就意味着,科技公司更需要以负责任的态度来看这个问题。在未来的 5G 、元宇宙等新技术趋势,我们产生的算力将会是巨量的。如果科技业什么事情都不做,能源危机是能预见的。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存