其他
每周二晚云原生正发声 l 多种模式下的深度学习弹性训练
《云原生正发声》,2021年国内首个云原生百科知识直播节目,将在每周二晚19:30 准时开播。通过本直播节目帮助云原生技术使用者和爱好者加深云原生技术的理解,同时推动云原生与企业IT的融合,助力企业上云更简单。
· 报名方式 ·
点击底部【阅读原文】链接进入 【腾讯云原生】公众账号后台回复【直播】二字,即可获取直播地址。
第二期:多种模式下的深度学习弹性训练
在深度学习的模型训练中,分布式训练作为应对海量数据和巨型模型的解决方案正在被越来越多的团队采用。随着分布式训练逐渐向 Kubernetes 集群迁移,无论是模型并行亦或数据并行模式都对容错、可热迁移、弹性伸缩提出了新的需求,希望以此来协助解决集群遇到的资源利用率提升问题。
本次直播会与听众分享两种分布式训练实现容错和弹性训练的意义、遇到的来自训练框架、Operator 和算法上的困难。针对采用 AllReduce 的数据并行分布式训练,我们将介绍elastic horovod、腾讯云 TKE 团队对mpi-operator 的修改·。同时,我们也会探讨基于 TensorFlow ParameterServerStrategyV2 面向 PS-Worker 模式的弹性训练。
· 直播流程 ·
19:30-20:15 讲师分享
20:15-20:30 互动问答
了解 TensorFlow、PyTorch 以及基于 Horovod 的分布式训练上云时,Kubeflow 中的各种 Operator 的工作原理;
了解在支持 AllReduce 和 PS-Worker 两种模式的弹性训练过程中,分布式训练框架和 Operator 分别做了哪些功能增强;
弹性训练能够带来的一系列收益与仍需解决的问题,如数据集再切分、收敛保障、优化的任务调度策略等
· 报名方式 ·
点击底部【阅读原文】链接进入 【腾讯云原生】公众账号后台回复【直播】二字,即可获取直播地址
· 参与福利 ·
往期精选推荐