春晚4小时16次超大规模精准调度 京东云“亮舰”
除夕,京东集团总部。2022年春晚技术备战指挥大厅灯光通明,掌声雷动。
19天极限备战,4小时16次极限切换,京东云成功挑战全球最大规模流量洪峰,首次在不新增服务器的情况下完成春晚技术保障,再次刷新云原生超大规模实践记录。
这是一个云计算挑战极限的故事,也是六年磨“一舰”的京东云翻越高山的故事。
01
高流量遇到高复杂场景
鱼和熊掌如何兼得?
02
敢于挑战高难度
京东云的底气是什么?
脱胎于京东全面容器化和大规模业务实践的云舰,在关键时刻扛起了重任。
进行如此大规模资源的快速调度,难在哪里?
首先,春晚红包互动对京东云来说是第一次,它的业务逻辑是全新的,注定有新的系统要开发上线,这些资源使用情况并没有历史数据参考,资源调度相当于摸着石头过河,并且系统还需要支持春晚的临时调整。
其次,在不影响其它业务的情况下,超大规模资源需要在极短的时间内精准分配到需要的位置,留给调度系统的时间是1秒,对系统敏捷性地考验是空前的。
“不增加资源,通过云舰资源调度来同时⽀持春晚互动与购物交易,上千万核资源,4⼩时内切换⼗⼏次应⽤场景,这相当于让云舰控制⼤象⾛钢丝。“京东集团技术委员会主席曹鹏说。
03
控制千万核资源
云舰表演大象走钢丝
不新增资源,意味着必须最大程度“压榨”现有资源。云舰的计划是两步走。 第一步是自动化系统分级。基于京东现有业务系统容量规划和算法预测,划分业务优先级,将春晚互动设为S级系统,其它相关度较低的系统根据情况逐一降级,最大程度保障春晚项目的优先级和稳定性。
第二步是离在线混合部署。充分利用离在线混部的“潮汐车道”错峰效应,将在线交易、抢红包应用和离线的大数据计算任务混合部署,分时复用,让算力资源得到最大化利用。
资源让出来后,还需要一个强大的“吊装”平台,实现资源的极速切换调度,而云舰内嵌的阿基米德智能调度正好扮演着这一角色。
阿基米德相当于云舰的发动机,负责整个京东数据中心的资源调度,是撬动数据中心的支点。针对春晚如此大规模的异构基础设施,阿基米德可以秒级完成全部资源的管理与统一调度,根据实际情况进行最优的集群调度以及一次作业调度,运用敏捷调度能力确保4小时内全局资源编排和成本最优、系统运行最稳。
04
多轮高保真压测
全链路监控消灭每个不可控因素
尽管作战计划已经足够完美,4小时极限保障依然是云舰团队技术长征路上最难征服的高山。
围绕着这个极限挑战,反应最快的是压力测试系统。为了春晚,京东云累计进行7轮全链路压测,每次压测都在不断扩容优化,试图去触碰整个系统能达到的极限。
压测期间,京东云利用对应用的全链路追踪能力,精确的分析每一次系统调用的消耗情况,包括应用逻辑、数据访问、网络消耗,有针对性的做到极致的优化。通过全链路监控系统,检测每一个硬件及系统、代码可能的隐患。
调动了足够的弹药,还需要将资源快速扩容到系统中。就好比数以亿计的观众涌入一个场馆观看比赛,那么就需要快速合理打开通道引流,保证大家有序可控地进入自己的座位观赛。京东云中间件就相当于场馆的各个通道,快速疏通资源,实现架构高弹性,帮助业务快速处理用户请求。
一切都是为了除夕那个特殊时刻。
除夕当天后台监控数据曲线显示,在前台重重的分流减压下,后台服务器负载仍然瞬间飙升十倍以上。在云舰游刃有余的调度下,红包互动几乎满分通过。
05
系统化工程
上万人大规模并行作战
这么短的时间,京东同时还有年货节等多个重点项目并行,3000多人参与春晚技术攻克,加上支持年货节包装人员,研发工程师超万人,需要协同作战,要像一支队伍一样整齐划一投入备战,对研发平台提出了巨大挑战。
上万研发人员共同备战,涉及到100多个敏捷团队的需求拆解和协同,需要保障600多个上下游系统的快速交付,300万核机器的快速扩容,是一场超大规模的研发协同作战。支持这场超大规模作战的,就是京东云一站式研发协同平台-行云。
云原生的新纪录
产业数字化新征程
“如果说通过大量新增服务器扛住大规模流量是云计算的上半场,那么京东云则通过资源极致调度将超大规模流量保障推向了下半场。这些领先的技术,正在通过京东云加速向产业输出。希望更多产业合作伙伴成为京东模式的受益者。”京东集团副总裁,京东云事业群总裁高礼强说。
- End -
更多了解