SKS 1.2 发布,全面增强 AI、信创等场景支持能力
2024 年 3 月 15 日——专业的现代化 IT 基础设施产品与解决方案提供商志凌海纳 SmartX 正式发布生产级容器管理与服务产品 SMTX Kubernetes Service (简称 SKS) 1.2,新增对 AI 等高性能计算场景、信创场景以及容器镜像管理和使用场景的支持,助力客户在一站式构建 Kubernetes 集群的基础上,推动容器化应用与 AI 以及信创技术栈的融合。
发布背景
SMTX Kubernetes Service(简称 SKS)是基于 SmartX 超融合构建的 Kubernetes 服务,通过整合业界领先的 SmartX 虚拟化、分布式存储、网络与安全等产品组件,帮助企业 IT 运维团队在多种 CPU 架构的服务器上轻松部署和管理生产级 Kubernetes 集群。
SKS 获得了 CNCF Kubernetes 认证,支持 CNCF 生态中的各种应用,具有简单易用、生产级可用、灵活开放的产品特点。
自 SKS 正式发布以来,已经在多家行业客户的生产环境中部署,帮助客户构建生产级 Kubernetes 集群,并实现虚拟化环境与容器环境的统一管理。
SmartX 在 SKS 1.2 版本中,增加了对 GPU 的支持,以拓展更多应用场景,特别是日益增长的生成式人工智能(AIGC)需求;也增加了对 AArch64 国产 CPU 架构(鲲鹏等)和 openEuler 操作系统的支持,使用户的容器环境更加符合信创要求。
新增场景支持
AI 等高性能计算场景
SKS 1.2 提供了对多种 NVIDIA GPU 型号的全面支持,在单一集群中能够灵活地使用不同型号的 GPU。利用 SmartX 超融合集群提供的 GPU 资源,用户可以为 Kubernetes 工作负载赋予高效的并行计算能力,并通过多种功能最大化 GPU 算力的利用。
SKS 1.2 不仅支持将物理 GPU 直通分配给工作负载,还包含以下共享 GPU 的模式:
虚拟 GPU(vGPU):单个物理 GPU 可被切分成多个 vGPU,供不同节点共享。
时间切片(Time-Slicing):一个 GPU 或 vGPU 能够让多个进程通过时间共享机制实现并发使用。
多实例 GPU(MIG):支持将单个物理 GPU 切分为多个独立实例,确保实例之间的资源隔离。
多进程服务(MPS):允许多进程共享一个 GPU 的计算资源,有效减少由进程切换带来的性能损耗。
SKS 1.2 也支持通过 Kubernetes 的管理方法,对 GPU 资源进行弹性灵活的管理:
支持对挂载 GPU 的节点设置自动弹性伸缩策略,可以根据业务需求动态增加或减少挂载 GPU 的节点数量。
当挂载 GPU 的节点出现故障时,系统能够自动创建并替换为带有相同 GPU 资源的新节点,确保业务的连续运行和资源的高可用性。
这些新增功能大幅提高了 GPU 资源的利用效率、管理效率和灵活性,能够更加有效地应对资源需求的波动和节点潜在故障等挑战。
基于以上特性,SKS 1.2 能够同时利用 SmartX 超融合集群的 CPU 和 GPU 为工作负载集群能够提供必要的计算能力,可以胜任 AI 等高性能计算的多种工作任务,以下是部分常见场景举例:
机器学习和深度学习训练:支持部署 TensorFlow、PyTorch 等深度学习模型,并确保其获得必要的计算资源与 GPU 支持,同时允许横向扩展以适应大规模数据集和复杂模型的处理需求。
渲染和图形处理:支持部署 GPU 用于渲染等图形密集型任务,例如,用于加快电影、游戏开发的 GPU 渲染。
高性能计算(HPC):适合大规模的科学和工程问题的计算,如模拟,并支持横向扩展以增强性能。
数据分析和科学计算:适合部署如 Apache Spark 和 NumPy 的数据分析与科学计算应用,支持横向扩展以提升计算效率。
详情可见 Kubernetes AI 场景演示视频——《SKS GPU 集群上的 Kubeflow 安装及图像识别应用操作展示》
信创场景的深度整合
针对信创场景,SKS 1.2 支持在基于 AArch64 国产 CPU 架构(鲲鹏等)的 SMTX OS 集群上部署和创建 Kubernetes 工作负载集群,同时 Kubernetes 节点也支持使用 openEuler 操作系统。
容器镜像管理与使用的优化
SKS 1.2 还增强了容器镜像的管理和使用,支持用户配置受信任的容器镜像仓库。用户可以在 SMTX OS 集群上快速创建基于虚拟机的容器镜像仓库(Harbor),为 SKS 工作负载集群提供容器镜像服务。SKS 1.2 也支持用户为工作负载集群配置自行维护的第三方容器镜像仓库。
持续优化使用体验
为了持续优化用户的使用体验,SKS 1.2 在管理和运维方面也引入了多项新功能和改进措施:
支持展示管控集群 Control Plane 虚拟 IP 和 SKS 容器镜像仓库的信息,以方便运维时快速获取。
创建工作负载集群时默认使用管控集群的 Pod IP CIDR 和 Service IP CIDR 的值,以避免系统默认值与用户网络配置产生冲突。
在升级工作负载集群时,若虚拟机模板未分发至所选集群,则通过文字提示以引导用户手动在内容库中分发对应的虚拟机模板,避免由于未分发而导致任务超时失败。
支持展示管控集群的集群事件,以便了解管控集群的状态。
支持在管控集群的节点信息中展示每个节点的 CPU 分配量和内存分配量。
了解更多
下载《SMTX Kubernetes 服务产品介绍》与《基于 SmartX 超融合运行 Kubernetes:场景、功能和优势》电子书,了解更多信息。
《SMTX Kubernetes 服务产品介绍》
《基于 SmartX 超融合运行 Kubernetes:场景、功能和优势》
推荐阅读