镜像拉取节省 90% 以上,快手基于 Dragonfly 的超大规模分发实践
挑战
快手容器云平台旨在为快手不断增长、不断变化和多样化的业务,提供基于容器化部署的超大规模基础设施服务。为了实现这一目标,快手工程师需要解决弹性、稳定性、效率和无服务器架构等挑战,在这些挑战中,镜像分发的稳定性和效率也是最棘手的问题之一。
解决方案
为了让快手容器云平台的镜像分发更加稳定和高效,快手容器云技术团队携手阿里云、蚂蚁集团在龙蜥社区适配,优化落地解决方案。事实证明,Dragonfly 及其子项目 Nydus 是最合适的解决方案,该方案能够与现有系统很好地兼容,在现有能力基础上平滑过渡,同时也为服务交付带来了大幅的效率提升。
效果
Dragonfly 上线后,整个集群通过 P2P 组建分发网,所有节点帮助中心化 Harbor 缓解网络带宽压力。Harbor 的网络带宽压力平均缓解 70% 以上,峰值压力缓解 80% 以上,镜像分发系统变得更加稳定、可靠、高效,系统能够同时支持更多数量的镜像并发拉取请求,尤其是在应对 Daemonset 部署和关键、大批量实例业务服务更新的场景中,高并发镜像拉取仓库不再是瓶颈。
峰值缓解 80% 以上 | 镜像拉取时间节省 90% 以上 | POD 实例服务耗时节省 50% |
“在快手,Dragonfly 有效解决了海量文件分发问题” ——吴宏斌 快手综合运营平台负责人
对于稳定、高效的镜像分发,Dragonfly 给出了完美的答案。在快手,有许多重要的服务需要在短短几分钟内扩容到成千上万个实例,例如快手的 818 购物节或双 11 活动的业务扩容需求。这种缩放需要数千 GB 带宽才能直接从镜像仓库下载。在另外一些场景中,预测模型和搜索业务需要定期更新模型参数文件和索引文件来保证推荐效果和检索效果,这在技术上意味着必须立即将数百 GB 的文件分发到每个相关实例。
快手工程师在所有容器云主机部署了 Dragonfly 组件:Dfdaemon 和 Dfget,通过 P2P 算法拉取文件。同时,在每个 AZ 部署了独立的超级节点集群,为 Dfget 设计了 Schedule Server,选择合适的超级节点来避免跨 AZ 或者跨 Region 的流量。更重要的是,工程师基于 Dragonfly 独特的片管理 P2P 算法实现了数据流 P2P 传输,降低了磁盘负载。得益于 Dragonfly,数以万计的实例可以同时拉取镜像或下载文件,而不会增加时间成本和磁盘负载。
“先进的技术就是第一生产力,快手容器云平台拥抱 Dragonfly 和 Nydus 后,应用交付效率大幅提升,给业务创新带来了更多可能。” ——孙寅 快手容器云负责人
Dragonfly 和 Nydus 都是来自 CNCF 的优秀开源项目,更进一步说,快手也将继续对该项目进行更多投入,并与社区展开深入合作,使它变得更加强大和可持续。云原生技术是基础设施领域的一场革命,尤其是在弹性和无服务器方面,我们相信 Dragonfly 一定会在云原生生态中扮演重要角色。
相关链接:
https://openanolis.cn/sig/cloud-native
【1】https://www.cncf.io/case-studies/kuaishou-technology/
【2】d7y+nydus快手案例
【3】https://github.com/containerd/containerd
【4】https://github.com/dragonflyoss/Dragonfly2
【5】https://d7y.io/
【6】https://github.com/dragonflyoss/image-service
【7】https://nydus.dev/
【8】https://github.com/goharbor/harbor
—— 完 ——
加入微信群:添加社区助理-龙蜥社区小龙(微信:openanolis_assis),备注【龙蜥】与你同在;加入钉钉群:扫描下方钉钉群二维码。
4.圆满落幕!56 人参加,龙蜥社区技术委员会、运营委员会会议顺利完成