NVIDIA GPU Operator助力 OpenCSG 高效管理GPU算力资源
OpenCSG 中 C 代表 Converged,意思是整合和充分利用好混合资源;S 代表 Software refined,也就是软件被大模型重塑;G 代表 Generative,是大众化和民主化的生成式大模型。
OpenCSG的愿景是让每个行业、每个公司、每个人都拥有自己的大语言模型。
大语言模型无疑是一件威力巨大的超级武器,同样具备超级武器的特点:一方面大语言模型,特别是用户个性化定制的大语言模型,需要有效的多源数据、灵活迭代的算法和一定规模的算力来提供支撑;另一方面,如何将这件超级武器与用户已投入使用的数字软件体系相结合、形成强大的混合战力,是我们在将大模型落地到传统软件世界过程中必须面对的挑战。
StarNet StarNet(星展平台)介绍
OpenCSG自主研发的 StarNet (星展)平台就是为了有效解决这个挑战而打造的一体化平台,愿景是打造成为大模型与AI算法应用全面统一融合的全面生态平台,无论是基于大模型创造的新用户,还是面临AI转型的传统企业,都将从中受益。
软件架构层面,星展(StarNet)平台由星云平台(StarCloud)、星诞平台(StarStream)和星链平台(StarChain)三部分组成,分别实现云原生底座和算力资源的管理、AI数据和算法的训练和推理管理 以及 LM大模型优化和低代码链接融合框架管理。
· 星云 StarCloud,云原生管理平台,统一管理混合云资源,实现对算力和传统应用的企业级多租户模式精细管理
· 星诞 StarStream 数据集和AI算法的训练、模型和推理管理 ,平台提供MLOps的全过程管理,并支持全过程的安全隔离防护。
· 星链 StarChain 垂类LLM优化以及与传统应用打通。
StarNet Platform(星展平台) 使用说明
使用用户账号登录OpenCSG StarNet Platform(星展平台)
使用管理员帐号,切换到系统管理功能,基于已有集群添加 NVIDIA GPU计算节点或者新建Kubernetes集群添加GPU节点
安装界面开启 NVIDIA GPU Operator 选项,实现 NVIDIA 组件的自动化安装
使用StarNet的机器学习管理功能,选择已有数据集或新增数据集、选择算法训练容器或者基于网页Jupyter Notebook编写训练代码、选定GPU节点并提交训练任务
通过StarNet监控训练过程,等待上述训练结果完成,将训练完成后生成的模型权重文件快速发布到StarNet的模型仓库中
通过StarNet的应用编排发布功能创建算法推理服务,选择上面生成的算法模型文件和推理Serving框架快速定义推理服务,也支持用户自上传的推理框架
推理发布后,通过StarNet对推理运行、主机和GPU资源占用、应用日志、tracing信息等多维度数据进行持续监控
若有试用需求,请在Opencsg的官网进行申请,我们会尽快与您联系。
官网地址:https://opencsg.com/
NVIDIA GPU Operator 介绍
NVIDIA GPU Operator 在Kubernetes集群中管理NVIDIA GPU资源,并自动完成与引导GPU节点相关的任务。由于GPU在集群中是一个特殊资源,所以在部署应用工作负载到GPU之前,需要安装几个组件。
这些组件包括 NVIDIA 驱动程序(用于启用CUDA)、Kubernetes设备插件、容器运行时以及自动节点标签、监控等。
NVIDIA GPU Operator 是 NVIDIA 开发的一个开源的(licensed under Apache 2.0 ),用于管理 Kubernetes 集群中的 NVIDIA GPU 资源的工具。
NVIDIA GPU Operator基于 Kubernetes 运算符框架构建, 借助它,StarNet可以自动完成配置 GPU 节点所需的所有步骤,如安装 NVIDIA 驱动程序、Kubernetes 设备插件、GPU 监控等。这使得在 Kubernetes 上部署 GPU 工作负载变得非常简单,工作效率大大提升。
NVIDIA GPU Operator 使用说明
NVIDIA GPU Operator使用说明详见https://docs.nvidia.com/datacenter/cloud-native/gpu-operator/getting-started.html 。
OpenCSG与 NVIDIA 展开了深入技术合作
大模型时代,StarNet(星展)平台致力于为用户基于已有资源快速打造一个扬帆远航的超级星际舰队, 而这支舰队中无论是LM大模型还是AI算法训练,都需要一定的规模的算力资源作为动力源 。是否具备对算力资源的精细化管理能力,也会对用户投入的硬件成本、时间周期和落地效果产生很大的影响。
OpenCSG与 NVIDIA 展开了深入的技术合作,在StarNet的星云StarCloud平台集成了 NVIDA 的GPU Operator技术方案, 可实现自动化和精细化的GPU资源管理, 能够大大简化训练和推理的工作流程和资源开销。
关于 NVIDIA 初创加速计划
OpenCSG 是NVIDIA初创加速计划( NVIDIA Inception) 会员企业。NVIDIA初创加速计划为免费会员制、旨在培养颠覆行业格局的优秀创业公司。该计划联合国内外知名的风投机构,创业孵化器,创业加速器,行业合作伙伴以及科技创业媒体等,打造创业加速生态系统。能够提供产品折扣,技术支持,市场宣传,融资对接,业务推荐等一系列服务,加速创业公司的发展。
参考资料
官方代码仓库:
GitHub:https://github.com/NVIDIA/gpu-operator
GitLab: https://gitlab.com/nvidia/kubernetes/gpu-operator
官方文档:
GPU-Operato快速入门:
https://docs.nvidia.com/datacenter/cloud-native/gpu-operator/getting-started.html#install-nvidia-gpu-operator
GPU-Operator 安装指南:
https://docs.nvidia.com/datacenter/cloud-native/gpu-operator/getting-started.html#considerations-to-install-in-air-gapped-clusters