查看原文
其他

盘点 KubeCon EU 2023 值得关注的 “积木” | KubeCon 中国提案征集开启

道客船长 道客船长 2023-05-06




当某些独立加速发展的技术与其他独立加速发展的技术融合时,奇迹产生了。


--《未来呼啸而来》作者:彼得·戴曼迪斯和史蒂芬·科特勒






在《未来呼啸而来》一书中,提出了关于未来指数型技术发展的预测,里面提到包括量子计算、人工智能、网络等在内的九大指数型增长技术,都离不开 “积木式创新”。而云原生正在成为这些创新中越来越重要的一种 “积木”,并提供越来越多的 “积木”。

图源:CNCF 5 月 5 日发布于 Twitter

作为云原生领域最负盛名的技术大会之一,据 CNCF 昨天在 Twitter 发布的参会数据, KubeCon EU 2023 是 CNCF 迄今为止最盛大的欧洲盛会,超 1.6 万人参与,现场参会超 1 万人。距离这场盛况空前的社区聚会 KubeCon EU 2023 结束已经两周时间,CNCF 也在 YouTube 频道陆续上传了大会的主题分享回放,结合之前的推荐《变革进行时 | 世界级技术盛会有哪些热点?》,我们一起来看看今年的云原生技术有哪些值得关注的 “积木”。由于热点技术过多,我们将分为系列文章进行分享,下面来看本期内容。

01

Batch&HPC Day

人工智能的持续走红,让本就热门的机器学习、大数据、高性能计算等相关技术持续升温。作为新一代的计算架构体系和方法论,云原生一直与人工智能技术领域有着紧密的结合。本次大会已经是 KubeCon 第三次举办 Batch & HPC day 了,主要涵盖高性能计算、机器学习、大数据等领域最新动向及遇到的挑战。

YouTube: https://www.youtube.com/playlist?list=PLj6h78yzYM2NHzRYIwDwiTaoogfv8bO5i)

挑战 1:GPU 管理

1. 在当前机器学习训练中,使用 GPU 提供算力已经非常普遍。其中,以提高资源利用率为主要目的的 GPU 共享是当下研究的热点之一。GPU 共享,是指在同一张 GPU 卡上同时运行多个任务。

1.1. 通过 Kubernetes 集群提供 device plugin framework,可以实现 GPU 共享能力,架构如下:

1.2. metaGPU 实现了 device plugin,提供细粒度的 GPU 共享能力,架构如下:

2. 对于多 GPU 的管理,存在内存管理、数据同步、计算负载和调试等方面的挑战。Data Parallelism 和 Tensor Parallelism 等并行训练方法可以最大化地利用 GPU。

挑战 2:Kubernetes 在大规模集群下的挑战

1. 问题:

  • 调度器串型调度,存在吞吐瓶颈;

  • 调度器性能会随着集群规模的增大而逐渐降低;

2. 解决方案:

可以并行调度,并通过节点分区减少调度决策冲突,简化架构如下: 

挑战 3:Kubernetes 原生能力缺失

作业排队是在本地和云环境中大规模运行批处理工作负载的一项关键功能,但是普通的 Kubernetes 并不具备这个功能。由此,诞生了一个开源的作业(Job)排队控制器--Kueue 旨在将批处理作业作为一个单元来管理。Kueue 可以将 Pod 级别的编排留给 Kubernetes 现有的稳定组件。

此外,Kubernetes 还缺少一些其他原生的能力,如 gang scheduling、numa aware scheduling,虽然 Kubernetes 原生不支持,但是社区也有对应的解决方案,托管在 scheduler-plugins 仓库中。

挑战 4:在 HPC 即超级计算机上构建 Kubernetes 的挑战

1. 节点存储能力的不足;

2. 在集群规模变大时网络/存储性能上的挑战;

3. 集群的管理,升级问题;

4. 在复杂的机器上(如 Shasta 超级计算机)构建新系统带来了更多的复杂性。

解决方案:充分利用云原生技术,如 ceph、argocd、cilium 等,这些都是值得探索的方向和领域。

总的来说,云原生作为一个更稳定、更高效、更弹性、更开放的计算架构体系,与 AI 的结合是 “现在式”,也是 “未来时”。随着应用场景的不断涌现,计算的革新不但不会停歇,甚至还将迎来更 “高维” 的挑战,期待更多变革和创新的发生。

图注:「DaoCloud 道客」云原生技术专家-殷纳参加 Batch&HPC Day 现场分享并合影纪念

02

Argo+CI/CD

据前方参会同学发回来的消息,今年 KubeCon EU 2023 上,Argo 相关的主题分享现场十分火爆,座无虚席都无法完全体现其火爆程度。下面分别从社区、用户、商业公司这三个角色来看看相关的分享。

分享主题:Argo CD Core - A Pure GitOps Agent for Kubernetes - Alexander Matyushentsev, Akuity & Leonardo Luz Almeida

YouTube: https://www.youtube.com/watch?v=nXEb1yZ580E

对于应用开发团队来说,ArgoCD 因其开箱即用的易用性而出名,但对于系统/集群管理员而言,一些 Argo CD 曾经广受好评的特性反而成为了碍事的功能,比如:

  • 多租户;

  • 不同于 Kubernetes 特有的 RBAC 鉴权模型和 API 接口;

  • 基于 OIDC 的认证;

  • UI 和 CLI;

在这个分享中,两位 ArgoCD 项目主要的 Maintainer 介绍了 ArgoCD 的架构,说明如何使用核心的组件以帮助系统管理员以 Gitops 为引擎搭建起集群环境

Alexander Matyushentsev 还 Demo 了管理员使用 Argo CD core 来对集群(组)实施差异化配置的一个实践,更详细的信息可以参考 Github:https://github.com/alexmt/argocd-core-cluster-management/tree/master

分享主题:Tips from the Trenches: GitOps at Adobe - Larisa Andreea Danaila & Ionut-Maxim Margelatu, Adobe

YouTube: https://www.youtube.com/watch?v=VSZ_UoNNQXg

Adobe 从 2019 年开始向 Kubernetes 迁移,到 2022 年基于 Argo project(Argo Workflow、Argo CD、Argo Rollout)构建他们的开发平台。Argo 社区虽然提供了一系列好用的工具,但对于一家大公司来说,仍有很多 Workflow 的问题是他们在实践中才碰到和解决的,包括:

  • 如何跨环境(development-staging-production)升级?

  • 功能化测试失败后的自动回滚;

  • Manifest 如何组织以减少重复又不会使得流程变得繁琐?

  • 如何统一的管理基础设施和应用;

基于这些问题,Larisa Andreea Danaila 和 Ionut-Maxim Margelatu 为想要采用 GitOps 作为开发平台基础设施的团队提供了他们的一些经验和心得。

分享主题:How We Securely Scaled Multi-Tenancy with VCluster, Crossplane and Argo CD Ilia Medvedev & Kostis Kapelonis

YouTube: https://www.youtube.com/watch?v=hFiHU6W4_z0

Codefresh 是一家专注于向开发者提供 CI、CD 及 GitOps 能力的 SaaS 平台,Ilia Medvedev & Kostis Kapelonis 分享了他们如何基于 VCluster、Crossplane 和 Argo CD 打造 Codefresh 的多租户的 GitOps 系统。

他们需要为注册及登录的每一个用户提供开箱即用 Argo CD 实例,但是无论在统一的控制面集群下使用不同命名空间安装实例、还是每个集群一个实例都会有问题。

这使得他们最终采用 VCluster 来作为多租户隔离的技术手段,并且搭配 Crossplane 简化集群的创建。

在这套体系下用户获得了秒级的启动速度,并且拥有足够的安全隔离,Codefresh 也可以在原来的架构上完成对于资源的监控。更多的实现细节可以参考 Github:https://github.com/codefresh-contrib/kubecon-eu-2023-demo-crossplane-vcluster

03

可观测性

随着容器和微服务的规模越来越大,整个计算系统的复杂程度也越来越高,如何更好地实现运行的安全、运维的便捷、性能的调优?可观测性技术发挥着巨大的作用。OpenTelemetry(OTel)正是可观测性领域的热门项目,旨在为所有类型的可观测数据定义一个单一的标准,包括监控指标、日志和链路追踪。同时,它也是云原生社区中,按活跃度和贡献者排名仅次于 Kubernetes 的第二大项目。本次大会就 OpenTelemetry 为主题展开了许多分享和讨论,下面有几个比较有意思的可以关注。

分享主题:Using OpenTelemetry for Application Security, with a Real Life Example - Ron Vider, Oxeye

YouTube: https://www.youtube.com/watch?v=hz3ncpPKzUs

这是基于真实示例的 “云原生漏洞” 的研究分享,通过一个 Demo 演示了向互联网公开的 API 在遭受攻击之后,如何利用 OpenTelemetry SDK 去追踪该攻击,同时能够在 Jaeger 链路中展示有被攻击的代码块。遗憾的是,更多技术原理没有纰露。

分享主题:Jaeger: The Future with OpenTelemetry and Metrics - Pavol Loffay, Red Hat & Jonah Kowall, Aiven

YouTube: https://www.youtube.com/watch?v=-J8tEDi1WFE

Jaeger 是否廉颇老矣?曾经,几乎是分布式链路追踪技术的代名词的明星项目 Jaeger,面对 OpenTelemetry 的颠覆,以及雨后春笋般的可观测技术新项目的崛起,Jaeger 要如何续写自己的优势?又要如何开城破土?该分享主要介绍了:

  • 由于 OTel 探针已经很成熟了,Jaeger 将会废弃 Jaeger 所有的 SDK 和 Agents,全面兼容 OTel SDK/Agents。

  • 支持 Clickhouse 作为备选的存储方案。

  • Jaeger 通过结合 OpenTelemetry 的 Spanmetrics processor,实现了基于 span 聚合服务的 R.E.D 指标,并在 Jaeger UI 中新增了 Monitor 页面来展示服务概览。

  • 后续将开始尝试从 Spark/Kafka 流式计算 Service Graph 转向 OpenTelemetry Service Graph Processor 的方式,并会在拓扑图中展示服务状态。

分享主题:Observability with Fluent Bit: Logs, Metrics & Traces - Eduardo Silva & Anurag Gupta, Calyptia

YouTube: https://www.youtube.com/watch?v=PP8vlQBRtts

该演讲重点介绍了 Logs、Metrics、traces 的各种概念、实现方式以及开发人员如何充分利用它们,并围绕 “High Performance Telemetry Agent for Logs, Metrics and Traces” 的主题分享了重要更新:

  • 终于实现了配置热更新的功能,提供了一个 /api/v2/reload 接口;

  • 支持将 Logs 转换成 Metrics;

  • 更好的 Windows 支持;

  • 性能提升,资源消耗降低;

  • 支持从 Podman  采集 metrics;

  • 全面兼容 OTLP 协议的数据 Input 和 Output;

  • 支持 streaming processor,使用简单的 SQL 查询对数据进行选择和转换;

04

云原生边缘:
军事应用案例

军事可能是离我们生活比较远,但是又十分重要的一个领域,云原生与军事的结合其实已经远超我们的想象。有相关专家表示,软件定义战争和云原生思维模式比较奇葩、比较反直觉,需要不同部门的人思维先云原生化,脑子转个 180 度的弯,甚至 360 度的弯,才能摸清方向,而这仅仅只是军事物联网的一个开始。本次大会上也分享了云原生军事物联网相关的主题。

分享主题:Taming Tactical Cluster Federation at the Edge - Anna Magdalena Kosek, TNO & Stefan van Gastel

YouTube: https://www.youtube.com/watch?v=czxVzHlPwBs

荷兰国防部,针对现代战场上的 Kubernetes 应用场景,提出了“战术联邦” 的概念。在战场这么一个典型的边缘场景下,把指挥单元和作战单元结合成集群联邦。

而这有几个诉求需要被解决:

  1. 自主结合:移动的战斗单元,随时加入或者离开 ”联邦“;

  2. 智能调度:在不同网络环境下的动态调度能力;

  3. 观测能力:能全方位观测联邦状态和分布式应用的情况;

为了解决这些问题,演讲者提出如下解决方案:

  • 通过 Liqo 开源项目的技术,把集群通过 Peering 去中心化方式组队,避免调度的单点。

  • 通过结合网络感知的调度,实现最优的应用调度路径:Telemetry Aware Scheduling (TAS) 和 Optimized Link State Routing Protocol (OLSR)。

  • 他们通过 ChaosMesh,在虚拟机的战场模拟环境里,模拟不同的场景网络波动情况。

  • 自研了一个 dashboard,展示联邦和应用的状态。

最后,演讲者表示现在展现的仅仅是 ”战术联邦“ 的冰山一角,未来还有许多的挑战。冰山上,是集群联邦、网络感知调度、数据重力。冰山下,是边缘优先的联邦、 更多样性的调度、可信和隔离、eBPF 等其他的技术和挑战。

05

KubeCon 中国来袭

令人激动的是,本次大会宣布 2023 年中国 KubeCon + CloudNativeCon 将在上海于 2023 年 9 月 25 日至 27 日举办。上个月底,CNCF 官方已经发布了相关的大会提案征集内容,建议话题涵盖:云原生新手、SDLC (软件开发生命周期)、平台工程运维+性能、安全性、数据+处理+存储、网络+边缘+电信、服务网格、可观测性、新兴和先进技术、云原生体验等等方面。

值得一提的是,参加 CNCF 活动是了解社区和分享想法和工作的绝佳方式,官方非常鼓励首次演讲者提交演讲稿,并提供相关的方案完善帮助。欢迎各位开发人员、技术专家和社区领袖来报名!

更多报名详情可见:提案征集至:2023 年中国 KubeCon + CloudNativeCon 或开源峰会

最后,特别感谢研发同事提供的相关热点技术素材和内容。由于篇幅有限,本次会议热点技术太多,后续还将继续为大家盘点相关的热门技术。好饭不怕晚,我们一口一口吃,敬请期待下期。



注:本文图片均来自现场拍摄、公开回放和资料



热门推荐

            

访问以下网址,或点击文末【阅读原文】直接下载

新一代云原生操作系统底座--DCE 5.0 社区版:https://docs.daocloud.io/download/dce5/
任何组织、机构和个人,都能免费体验企业级云原生性能




DaoCloud 公司简介

「DaoCloud 道客」云原生领域的创新领导者,成立于 2014 年底,拥有自主知识产权的核心技术,致力于打造开放的云操作系统为企业数字化转型赋能。产品能力覆盖云原生应用的开发、交付、运维全生命周期,并提供公有云、私有云和混合云等多种交付方式。成立迄今,公司已在金融科技、先进制造、智能汽车、零售网点、城市大脑等多个领域深耕,标杆客户包括交通银行、浦发银行、上汽集团、东风汽车、海尔集团、屈臣氏、金拱门(麦当劳)等。目前,公司已完成了 D 轮超亿元融资,被誉为科技领域准独角兽企业。公司在北京、南京、武汉、深圳、成都设立多家分公司及合资公司,总员工人数超过 350 人,是上海市高新技术企业、上海市“科技小巨人”企业和上海市“专精特新”企业,并入选了科创板培育企业名单。


网址:www.daocloud.io

邮件:info@daocloud.io

电话:400 002 6898



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存