查看原文
其他

降本30%!京东云云舰的大规模混部实战

京东云 2022-09-20

用户在商城一次次丝滑般秒杀、抢购、支付的背后,是巨大的计算资源投入。为了完成对流量峰值的支撑,保证用户顺畅的体验,就需要大量的计算资源,而在平时,这些资源往往又是空闲的。据统计,数据中心的利用率平均在10%左右,容灾、峰值、机器数冗余大。同时离线分析作业越来越多,成本奇高。

 
一个很形象的比喻,堵车的时候,并不是所有的车道都在堵车。有一个比较有趣的情况,我们称之为潮汐现象,早高峰的时候进城方向堵车,而晚高峰是出城方向堵。为了缓解这个问题,交通管理采用了潮汐车道的方式。
 
如何让离在线两个集群混合起来部署,让计算任务的一部分任务跑到在线服务的资源之上,把在线服务空闲的资源利用起来呢?京东云的解决方案是:离在线混部。

01/ 变革,从“人肉云计算”到“弹性部署”

在云计算行业有一个趋势,随着大数据技术的普及,对实时性要求不高的计算任务集群规模越来越大,甚至超过在线服务。于是京东云技术团队开始思考,是否能把离线计算任务与在线服务进行混合部署,在弹性资源基础上提升集群资源利用率。


最早的618支持基本依靠“人肉云计算”,技术团队每个成员紧盯服务器系统资源,哪里有空闲立刻调过来支援。系统架构升级后,100%服务资源自有,但随着购物节规模指数级增长,添置服务器成为浩资巨大的烧钱工程。高出日常峰值的机器过后闲置,又不可避免地造成资源浪费。
 

于是从 2016年开始,京东云技术团队尝试将延迟不敏感的计算任务和延迟敏感的在线服务部署到同一集群上运行,让在线服务的空闲资源充分被计算任务所使用,以提高集群的整体利用率,也就是混部技术的应用。

京东云混部技术实施过程三大技术难题:

首先,资源隔离和限制。在资源隔离技术方面,从服务器的内核层面,对 CPU、内存、IO、网络等多方面进行优先级的划分,做到对相关任务的毫秒级自适性调度或限制,避免离线任务的运行对在线任务造成影响,以保证高优先级的任务不受影响。


其次,存储与计算分离。在面临多业务场景时,服务器集群量级会迎来爆发式增长,带来IO读写不均,存储量受限制,故障无法恢复及数据易丢失等风险。京东云借助云原生自研分布式文件系统- ChubaoFS,为京东云容器集群提供持久化存储方案,帮助有状态应用实现计算与存储分离。

第三,资源的智能预测。云舰智能调度系统阿基米德,依托京东大数据,利用机器学习、深度学习算法,对应用的资源使用情况进行画像统计,并能对应用的未来资源使用情况进行预测,将在线与离线应用合理的进行混合调度部署。


02/ 突破:混部技术大规模应用于京东618

在每年618、11.11备战阶段,混部技术的价值尤为凸显。在节约资源的同时,也实现了成本的大幅降低。通过混部,系统在平时可以极大地提升服务器资源利用率,而在618这样的活动需要突增在线服务能力的时候,又可以通过在线服务占用计算任务资源的方式,来顶住短暂的超高峰值压力,有效实现资源的最大化利用。

 
2021年618,京东商城就充分发挥了云舰弹性架构,借助云舰核心智能调度系统阿基米德统一调度与离在线混部,复用计算任务集群资源,短时间内迅速建起新的交易站点,分流应对洪峰流量。在阿基米德的支撑下,借助离在线混部技术,使CPU资源利用率提升3倍,单位订单资源成本下降30%,交付效率提升150%,实现了真正的弹性资源平滑复用,任务灵活交叉部署。

03/ 实践:大规模应用于零售、金融、互联网等行业,大幅降低IT成本

零售行业为例,在线任务需要资源相对较少,但要求响应时间短;离线任务则不需要对任务进行迅速响应,但是计算量相对较大、占用资源多。一天当中,在线服务的负载也是不一样的,白天一般情况下要比凌晨高得多。

 
比如订单、促销、物流这些交易、浏览类在线业务,优先级高且延时敏感,利用率不高不可重跑;但账单、报表等计算型离线业务,延时不敏感且利用率高,可重跑。京东云技术团队充分利用优先级互补,适当牺牲低优先级,当在线不忙时,将资源分配给离线,反之则返还,相互反哺。通过将集群混合起来,把不同类型的任务调度到相同的物理资源上,借助智能调度及资源隔离等方式保障SLO,极大降低成本。
 
金融行业,混部技术也正在广泛应用于支付场景。在交易高峰期,通过将一部分交易跑在临时“征用”来的存放和处理分析离线数据的服务器上,可以有效帮助在线资源疏通与分流。借助全面容器化带来的标准化以及阿基米德智能调度,让各种配置不同的设施能够在交易高峰期,以秒级速度将在线服务器的各种软件、应用转移到离线服务器中,极大提升资源利用率。
 
互联网行业,如即时配送等流量并发压力较大的业务场景,混部技术也正在发挥巨大优势。与京东到家合并后,达达快送线上业务快速发展,亟需高效自动化系统处理海量数据。通过冷热节点混部方式,充分释放冷节点CPU利用率,有效满足日志等数据处理需求。遇到购物节这样单量爆涨的场景,也可以通过K8S管理与调度充足计算资源支持,保证每一单平稳顺畅。

04/ 未来:大规模向行业输出,提升全产业链基础设施效率

目前,云舰的阿基米德系统已经全面接管了应用资源调度。每日调度百万台容器实例运转,每日为离线计算提供多达千万核小时的计算资源,服务履约率达到98.3%。实施离在线混部方案后,在线服务集群的日常平均资源利用率较之前有了大幅度提升,同时有效保证在线服务及应用目标不受影响。在保证业务的正常运行下,集群的平均资源利用率提升3倍。仅在11.11备战期间,就节省了数亿元的服务器采购成本


依托领先的云原生架构设计,云舰强大的资源管理与调度能力,使京东复杂多样的基础设施像一台计算机一样来管理,实现跨多个平台资源的调度,大幅提升资源利用率,快速支撑购物节、日常离在线业务等多个场景,实现大规模高并发场景资源快上快下日常业务场景分时复用
 
经过多年京东业务实践验证,架构的调整与优化,离在线混部已经实现了大规模生产环境的常态化应用,服务于零售、物流、金融、互联网等核心业务。目前,基于资源弹性和混部技术的混合弹性能力,也正在通过云舰平台输出,让更多产业客户用更低的成本获得更强的计算能力,从而持续提升全产业链的基础设施效率


|往期回顾|

云筑计划|英方软件跨云部署的秘籍
《关键信息基础设施安全保护条例》发布!筑牢网络安全屏障
22项核心技术专利,国产分布式数据库京东云StarDB助力产业数字化
天际友盟加入“云筑计划”,携手京东云打造“最懂产业的云”

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存