查看原文
其他

每周二晚云原生正发声 l 多种模式下的深度学习弹性训练

腾小云 腾讯云原生 2021-07-14
云原生在近几年的发展越来越火热,作为云上最佳实践而生的设计理念,也有了越来越多的实践案例,而一个个云原生案例的背后,是无声的巨大变革。
腾讯云主办首个云原生百科知识直播节目——《云原生正发声》。直播内容围绕云原生领域,覆盖实时的云原生技术、实践、性能优化、前沿趋势、云原生案例分享、企业云开发者成长路径、就业等等内容。

《云原生正发声》2021年国内首个云原生百科知识直播节目,将在每周二晚19:30 准时开播。通过本直播节目帮助云原生技术使用者和爱好者加深云原生技术的理解,同时推动云原生与企业IT的融合,助力企业上云更简单。

4月20日下周二是第二期直播啦!一起来了解下直播内容吧!

· 报名方式 ·

  1. 点击底部【阅读原文】链接进入
  2. 腾讯云原生】公众账号后台回复【直播】二字,即可获取直播地址。

第二期:多种模式下的深度学习弹性训练

直播时间:2021年4月20日19:30—20:30

· 讲师介绍 ·

张望,腾讯云高级工程师
Kubeflow 贡献者,FTLib 作者,热衷于 GPU、深度学习分布式训练和推理加速。目前负责腾讯云 TKE 在 AI 场景的研发和支持工作。
· 主题简介 ·

在深度学习的模型训练中,分布式训练作为应对海量数据和巨型模型的解决方案正在被越来越多的团队采用。随着分布式训练逐渐向 Kubernetes 集群迁移,无论是模型并行亦或数据并行模式都对容错、可热迁移、弹性伸缩提出了新的需求,希望以此来协助解决集群遇到的资源利用率提升问题。

本次直播会与听众分享两种分布式训练实现容错和弹性训练的意义、遇到的来自训练框架、Operator 和算法上的困难。针对采用 AllReduce 的数据并行分布式训练,我们将介绍elastic horovod、腾讯云 TKE 团队对mpi-operator 的修改·。同时,我们也会探讨基于 TensorFlow ParameterServerStrategyV2 面向 PS-Worker 模式的弹性训练。

· 直播流程 ·

19:30-20:15 讲师分享 

20:15-20:30 互动问答

· 听众收益 ·
  • 了解 TensorFlow、PyTorch 以及基于 Horovod 的分布式训练上云时,Kubeflow 中的各种 Operator 的工作原理;

  • 了解在支持 AllReduce 和 PS-Worker 两种模式的弹性训练过程中,分布式训练框架和 Operator 分别做了哪些功能增强;

  • 弹性训练能够带来的一系列收益与仍需解决的问题,如数据集再切分、收敛保障、优化的任务调度策略等

· 报名方式 ·

  1. 点击底部【阅读原文】链接进入
  2. 腾讯云原生】公众账号后台回复【直播】二字,即可获取直播地址

· 参与福利 ·

直播期间,与讲师互动问答,即有机会获得鹅厂周边礼品一份哦!



  往期精选推荐  

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存