其他
技术集锦 | 云原生 AI 技术原理及最佳实践系列
腾讯云容器服务基于在云原生领域的技术沉淀,推出模块化,低耦合、高扩展性的云原生 AI 服务,旨在利用云原生的思想和技术,为 AI 场景的数据处理、模型训练、模型上线推理等需求构建弹性可扩展的系统架构的技术,在支持更广泛、多样的用户需求的同时,提高开发、运维和设备的效率。
【腾讯云原生】收集了关于云原生 AI 系列干货文8篇,帮助你更好了解“云原生 AI”,一定要收藏哦!
技术原理 & 实践
本文主要介绍了数据并行的分布式训练任务的弹性能力在 Kubernetes 上的设计与实现。并且通过实验的方式验证了特定的场景下,在保证训练精度的同时,这一特性能够使成本降低 70%。
本文介绍了 PyTorch 1.9.0 版本中弹性训练的设计与实现。然后分析总结了实现弹性训练的方式和不同框架之间的设计差异。
这篇文章介绍了 elastic-jupyter-operator 这一开源项目的使用方式以及工作原理。
本文介绍了 AI 类业务在公有云上的现状以及相应的技术选型和面临的问题,同时分享了对于未来全弹性的 AI 基础设施的展望。
本文介绍了 Fluid 技术的背景以及与 GooseFS 的关系,通过在 TKE 集群上的实际操练让大家体验 Fluid v0.6.0 的两大特性,让大家进一步了解云原生应用场景下的数据编排能力。
本文介绍了 kubeflow 社区面对多个 训练 operator 遇到的维护、性能上的问题,通过融合的方式构建统一的 training-operator。
本文从实战角度出发介绍我们开发 SKAI 平台过程中选择 Aggregated API 的原因,以及 kube-apisever 的扩展原理,演示如何构建起自己的 Aggregated API,并将它部署到 EKS 集群中。
本文介绍了 TKE 提供的云原生 AI 能力和腾讯云自研网络协议栈 HARP,并指导用户如何在 TKE 上部署实践 TACO-Training 分布式训练方案。
宠粉福利
重 磅 来 袭
往期精选推荐