查看原文
科技新闻

KubeCon 预告 | 与 DaoCloud 首席架构师相约上海,奔赴一场 AI 与云原生双向创新盛会

9.26-28 等你的 道客船长 2023-09-19



AIGC 的大爆发,宣布世界进入了一个高速发展的 AI 新时代,而这也给底层 IT 资源的性能和敏捷提出了更大的挑战和需求。挑战往往与机遇并存,AI 与云原生之间更像是一次上层与底层的双向奔赴。云原生作为新一代的基础设施软件技术,屏蔽底层的复杂性,为 AI 带来弹性、资源管理、自动化、多云支持以及安全性等方面的好处,使 AI 应用的创新开发更加便捷、高效和可靠。与此同时,AI 的高速发展和应用,也逐渐深入底层基础设施,让云原生架构实现更自动化、智能化管理,提升弹性和自适应性,并保障安全和防范风险。

在本次 KubeCon China 2023 上,「DaoCloud 道客」的分享议题覆盖广泛,也将就云原生与 AI 相关的技术进展和应用实践展开分享。本期将为大家介绍一下这些议题的分享内容,同时邀请到了重磅嘉宾「DaoCloud 道客」联合创始人兼首席架构师、十大杰出软件工程师、Kubespray Approver--颜开分享开源的心得,快来了解一下。

01

主题分享

云原生生产级部署工具可以为 AI 应用提供更好的资源管理、弹性扩展、自动化部署和监控等功能,帮助开发人员和运维团队更好地构建和管理可靠、高效的 AI 系统。作为一个生产级部署工具,Kubespray 是最流行的 Kubernetes 部署方案之一,而这主要得益于其拥有一个非常活跃的全球开发者社区(很多贡献者分布在亚洲地区)。在本次会议的前半部分,我们将演示和讨论 Kubespray 最新的功能,如使用 kube-vip 实现高可用性、用于离线环境的管理离线文件脚本、快速镜像镜像、新的操作系统(Rocky、Kylin、OpenEuler Linux、OpenEuler Linux...)支持、多架构集群、对 Ansible集合的支持、集群加固、Operator 和 GitOps。我们还将分享来自 Kubespray 的有用提示和最佳实践。在后半部分,我们希望分享一些关于社区的深入探讨,开展如何推动项目前进的讨论。然后,我们将留出大量时间回答问题。

如今,机器学习的计算需求正在迅速增长。Ray 是一个统一的计算框架,可以让机器学习工程师轻松扩展他们的工作负载,而无需构建复杂的计算基础设施。另一方面,Kubernetes 是一个流行的开源容器编排平台,通过 KubeRay(Ray 工作负载的操作员),可以轻松管理各种工作负载。通过在长时间运行的集群上调试程序并通过 Ray Job 自定义资源启动常规作业,用户可以从简化的工作流程中获益。同时,高效地管理并发的 Ray 作业面临着诸如作业饥饿和资源分配等挑战。Kueue 是一个基于 Kubernetes 的原生作业队列系统,提供资源管理、多租户支持和资源公平共享等功能,完美解决了 Kubernetes 中 Ray 作业的挑战。此处,船长必须提醒一下,这个主题是 CNCF 议题评选中评分 TOP 10 的议题,欢迎大家关注!

正如开头所提,AI 与云原生的结合,也带来了很多有益的创新发展。在这个议题中,将介绍通过如何借力 AI 大模型,提高 Kubernetes SRE 管理效率的解决方案。Kubernetes 的运维人员日常的三个工作:资源创建、日常巡检、故障排查。这些其实都可以通过 LLM 进行自动辅助。首先,通过自然语言转化为 Kubernetes 操作和复合脚本,并自动下发和执行,然后,利用 K8sGPT 开源项目,排查问题并发送给 LLM 进行根因分析和解决思路,再基于 autoGPT 的 agent 模式,最终可以通过多次迭代的 Kubernetes 操作来解决或诊断复杂问题。

这个主题来自 Paco 最近写的博客《Kubernetes 1.27:加速 Pod 启动的更新》。这是一个集群管理员可能面临的常见问题。本次分享将向与会者展示常见 Pod 、AI Pod 启动的过程以及如何加速这些 Pod 的启动。主要包括以下几个方面:

  • API:1)控制器管理器创建Pod的时间;2)KCM:PV和PVC绑定以及Webhooks。

  • 调度:GPU 拓扑感知,节点负载感知。

  • 来自 kubelet 方面的节点级别:1)镜像拉取,Sidecar,API QPS 和 Burs,事件驱动 PLEG,2)限流,磁盘和卷驱动程序,静态 CPU 策略,容器运行时。

  • GPU 管理:拓扑不仅仅是 NUMA,共享和监控。

  • 数据负载:数据预加载、本地存储或分布式存储。

  • 可观察性:如何检查为什么 Pod 启动缓慢?

02

特邀前采

本次特别邀请到了「DaoCloud 道客」联合创始人兼首席架构师、Kubespray Approver--颜开。他早在 2016 年就主导设计了中国首个规模最大的企业级容器云 DaoCloud Enterprise (DCE 1.0),并逐步将其升级迭代为中国第一个企业级 Kubernetes 产品 DCE 3.0。目前,DCE 已经演进至第五代,广泛被互联网、汽车、金融、能源、政府等行业和大型组织所采用。基于在云原生领域的卓越成就,他也在最新一届软博会上当选「十大杰出软件工程师」。下面一起来看看,他参与开源的一些经验分享。

受访者自我介绍

我叫颜开,是 Kubespray 项目的 Approver,也参与了一些其他的云原生相关项目。记得有一本书叫《大教堂与集市》,Kubespray 社区就是一个迷人的大集市,每个人都能在这里找到自己想要的东西,当然也可以很轻松地参与其中。

前采问答:

Q:请问你是怎么接触到所贡献的项目的?

A:由于工作需要,在很早的时候,Kubeadm 诞生之前,我就已经接触到 Kubespray 项目了。不过当时只是调研罢了,对其中的一些细节设计很着迷。

Q:你在开源社区遇到的最大挑战是什么?或者最印象深刻的是什么?

A:作为一个 Approver,需要花很多的时间审查和贡献代码,确保项目是高质量的。这需要花很多难以想象的时间和精力,而我也需要在很多不可回避的工作中,挤出时间来搞开源。因此我也非常珍惜其他贡献者的时间和精力。另外在实际工作中,贡献一个 PR 往往需要很长时间。我第一个比较大的 Kubespray PR,合并花了 9 个月。还有一个修复 Calico BUG 的 PR,从开始到完全 release,花了 15 个月。而之后就越来越顺了,因此参与开源项目需要一些耐心和持久力。

Q:在贡献开源的过程中,获得了哪些方面的帮助和支持?

A:Kubespray 社区对新人非常友好。当我是一个新人的时候,其他 Reviewers 不厌其烦地帮我审查代码,提出改进意见。而我也犯了很多低级错误,但并没因此被人嘲笑。这种对于新人的态度,是一个成功的开源项目的必要条件。同时还有很多公司,也在帮助项目前进,有的对开发者进行资助,有的贡献 CI 服务器资源。

Q:参加开源贡献给你带来的最大价值是什么?

A:在工作中,有很多地方会涉及到开源项目。纸上得来终觉浅,绝知此事要躬行。对于相应技术的理解,只有深入其中,进行贡献。才能知行合一,获得专业能力提升。可惜的是,对于一个个体来讲,能够深入贡献的项目,非常有限。在这样的情况下,必须依靠集体的力量,而这也正是开源的价值所在。

Q:对于你所贡献的技术领域,你最大的感受是什么?

A:一些开源项目拥有非常多的用户,并在多年的发展过程中,积累了多如牛毛的知识和经验沉淀在代码之中。这些知识的积攒速度,远大于任何一家单独的企业能够积攒的速度。这些知识的精华,沉淀在项目中,集腋成裘,成果是非常惊人

Q:对于你本次分享的主题,你最想带给参会者的是什么?

A:Kubespray 这个项目非常的实用而且历史悠久,我期望参会者能够重新认识,并参与其中。

Q:对于那些想要开始贡献开源的人,你有什么建议或鼓励的话语?

A:不积跬步无以至千里,不积小流无以成江河 (Rome was not built in one day.)。

非常感谢颜开老师质朴真诚的分享,相信可以对想要参加开源社区贡献的开发者有所帮助,也让更多不了解开源社区以及相关项目的小伙伴对此有所了解。还有更多精彩内容,我们下期再见。




热门推荐

            

访问以下网址,或点击文末【阅读原文】直接下载

新一代云原生操作系统底座--DCE 5.0 社区版:https://docs.daocloud.io/trial/
任何组织、机构和个人,都能免费体验企业级云原生性能




DaoCloud 公司简介

「DaoCloud 道客」云原生领域的创新领导者,成立于 2014 年底,拥有自主知识产权的核心技术,致力于打造开放的云操作系统为企业数字化转型赋能。产品能力覆盖云原生应用的开发、交付、运维全生命周期,并提供公有云、私有云和混合云等多种交付方式。成立迄今,公司已在金融科技、先进制造、智能汽车、零售网点、城市大脑等多个领域深耕,标杆客户包括交通银行、浦发银行、上汽集团、东风汽车、海尔集团、屈臣氏、金拱门(麦当劳)等。目前,公司已完成了 D 轮超亿元融资,被誉为科技领域准独角兽企业。公司在北京、南京、武汉、深圳、成都设立多家分公司及合资公司,总员工人数超过 350 人,是国家级“专精特新”小巨人企业、上海市高新技术企业、上海市“科技小巨人”企业和上海市“专精特新”企业,并入选了科创板培育企业名单。


网址:www.daocloud.io

邮件:info@daocloud.io

电话:400 002 6898



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存