其他
作业帮上万个 CronJob 和在线业务混部,如何解决弱隔离问题并进一步提升资源利用率?
吕亚霖,作业帮基础架构 - 架构研发团队负责人。负责技术中台和基础架构工作。在作业帮期间主导了云原生架构演进、推动实施容器化改造、服务治理、GO 微服务框架、DevOps 的落地实践。
别路,作业帮基础架构-高级研发工程师,在作业帮期间,负责多云 K8s 集群建设、K8s 组件研发、Linux 内核优化调优相关工作。
背景
问题一:集群内节点稳定性
问题二:集群的节点资源利用率
其他问题:调度速度、服务间隔离性
解决思路及方案
任务调度器
解决 TKE 节点和虚拟节点在运维方式上的差异
日志采集统一
监控报警统一
提升启动性能
业务镜像拉取加速 虚拟节点 pod 创建和初始化加速
总结
往期精选推荐