春晚4小时16次超大规模精准调度京东云“亮舰”

Original 带你数字化转型的京东云 2022-09-20

除夕，京东集团总部。2022年春晚技术备战指挥大厅灯光通明，掌声雷动。

全球12.96亿观众收看，691亿次红包互动，新媒体用户触达人次超71亿次，虎年春晚再创历史新高。

19天极限备战，4小时16次极限切换，京东云成功挑战全球最大规模流量洪峰，首次在不新增服务器的情况下完成春晚技术保障，再次刷新云原生超大规模实践记录。

这是一个云计算挑战极限的故事，也是六年磨“一舰”的京东云翻越高山的故事。

高流量遇到高复杂场景

鱼和熊掌如何兼得？

1月5日，京东成为2022年央视春晚独家互动合作伙伴。同时保证全球顶级的高并发流量和超复杂购物交易场景，这是云计算行业从来没有经历过的挑战。京东云没有可复制的经验，行业也没有。

留给京东云的是史上最短备战周期——19天。

面对超级流量场，行业通用的解决方案是增加服务器。但是，19天新增大量服务器，在目前全球硬件供应链供货周期持续拉长的情况下，这条路是很快被证实是行不通的。

但也并不是无解，是否可以调动现有资源满足多个场景的错峰需求，通过高效、精准、稳定的资源调度，既满足春晚红包互动的需求，同时满足购物交易的需求。理论上可行，但难度极大。

这意味着，京东云需要在最短时间内腾挪现有资源，快速完成超千万核资源的筹备，为春晚红包场景临时搭建数字底座，实现这个大规模、高频度资源调度的设想，并快速组织多次压测验证系统及调度可行性。难度不亚于北京三元桥换桥。

敢于挑战高难度

京东云的底气是什么？

脱胎于京东全面容器化和大规模业务实践的云舰，在关键时刻扛起了重任。

春晚4小时内，7轮红包互动，伴随每次口播，业务场景都要经历从购物场景到红包互动，再到购物场景的切换。从最初的运行常态到春晚场景，再回归到日常业务场景，大小累计16次超大规模资源调频调度。

进行如此大规模资源的快速调度，难在哪里？

首先，春晚红包互动对京东云来说是第一次，它的业务逻辑是全新的，注定有新的系统要开发上线，这些资源使用情况并没有历史数据参考，资源调度相当于摸着石头过河，并且系统还需要支持春晚的临时调整。

其次，在不影响其它业务的情况下，超大规模资源需要在极短的时间内精准分配到需要的位置，留给调度系统的时间是1秒，对系统敏捷性地考验是空前的。

“不增加资源，通过云舰资源调度来同时⽀持春晚互动与购物交易，上千万核资源，4⼩时内切换⼗⼏次应⽤场景，这相当于让云舰控制⼤象⾛钢丝。“京东集团技术委员会主席曹鹏说。

控制千万核资源

云舰表演大象走钢丝

云舰的底气来自于京东在云原生方面的实践。现在，京东云运营着全球最大规模的容器集群，是全球容器化最彻底的企业之一。这也是云舰实现资源超高弹性、快速变阵的关键所在。

不新增资源，意味着必须最大程度“压榨”现有资源。云舰的计划是两步走。第一步是自动化系统分级。基于京东现有业务系统容量规划和算法预测，划分业务优先级，将春晚互动设为S级系统，其它相关度较低的系统根据情况逐一降级，最大程度保障春晚项目的优先级和稳定性。

第二步是离在线混合部署。充分利用离在线混部的“潮汐车道”错峰效应，将在线交易、抢红包应用和离线的大数据计算任务混合部署，分时复用，让算力资源得到最大化利用。

资源让出来后，还需要一个强大的“吊装”平台，实现资源的极速切换调度，而云舰内嵌的阿基米德智能调度正好扮演着这一角色。

阿基米德相当于云舰的发动机，负责整个京东数据中心的资源调度，是撬动数据中心的支点。针对春晚如此大规模的异构基础设施，阿基米德可以秒级完成全部资源的管理与统一调度，根据实际情况进行最优的集群调度以及一次作业调度，运用敏捷调度能力确保4小时内全局资源编排和成本最优、系统运行最稳。

多轮高保真压测

全链路监控消灭每个不可控因素

尽管作战计划已经足够完美，4小时极限保障依然是云舰团队技术长征路上最难征服的高山。

围绕着这个极限挑战，反应最快的是压力测试系统。为了春晚，京东云累计进行7轮全链路压测，每次压测都在不断扩容优化，试图去触碰整个系统能达到的极限。

压测期间，京东云利用对应用的全链路追踪能力，精确的分析每一次系统调用的消耗情况，包括应用逻辑、数据访问、网络消耗，有针对性的做到极致的优化。通过全链路监控系统，检测每一个硬件及系统、代码可能的隐患。

调动了足够的弹药，还需要将资源快速扩容到系统中。就好比数以亿计的观众涌入一个场馆观看比赛，那么就需要快速合理打开通道引流，保证大家有序可控地进入自己的座位观赛。京东云中间件就相当于场馆的各个通道，快速疏通资源，实现架构高弹性，帮助业务快速处理用户请求。

一切都是为了除夕那个特殊时刻。

除夕当天后台监控数据曲线显示，在前台重重的分流减压下，后台服务器负载仍然瞬间飙升十倍以上。在云舰游刃有余的调度下，红包互动几乎满分通过。

系统化工程

上万人大规模并行作战

这么短的时间，京东同时还有年货节等多个重点项目并行，3000多人参与春晚技术攻克，加上支持年货节包装人员，研发工程师超万人，需要协同作战，要像一支队伍一样整齐划一投入备战，对研发平台提出了巨大挑战。

上万研发人员共同备战，涉及到100多个敏捷团队的需求拆解和协同，需要保障600多个上下游系统的快速交付，300万核机器的快速扩容，是一场超大规模的研发协同作战。支持这场超大规模作战的，就是京东云一站式研发协同平台-行云。

在行云平台支持下，京东研发体系具备了整齐划一、快速作战的能力。以前，一组程序员围绕一个主体建筑组成一支施工队，现在，很多跨体系团队可以协同，一起用“搭积木”的方式来构建服务，极大提升了开发效率，保障春晚项目快速落地。

云原生的新纪录

产业数字化新征程

春晚一战，正式将云原生推向2.0时代。京东云用云计算的中国速度创造了一个新纪录。这是京东云的分水岭，也是产业数字化的分水岭。

“如果说通过大量新增服务器扛住大规模流量是云计算的上半场，那么京东云则通过资源极致调度将超大规模流量保障推向了下半场。这些领先的技术，正在通过京东云加速向产业输出。希望更多产业合作伙伴成为京东模式的受益者。”京东集团副总裁，京东云事业群总裁高礼强说。

- End -

更多了解

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

“我，19岁，瞒着父母把留学的钱，在北京买了套房，如今……”

春晚4小时16次超大规模精准调度京东云“亮舰”

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

“我，19岁，瞒着父母把留学的钱，在北京买了套房，如今……”

生成图片，分享到微信朋友圈

春晚4小时16次超大规模精准调度 京东云“亮舰”

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

春晚4小时16次超大规模精准调度京东云“亮舰”