查看原文
其他

大模型分布式训练性能优化与实践

张恒华 跳动的数据 2023-09-29

介绍百度百舸AIAK 在模型训练领域的工作成果,以及针对大模型训练的解决方案。随后我们将聚焦大模型训练性能优化的关键技术原理,分析常见的分布式并行策略,拆解性能优化的主要技术,以及百度智能云的具体工程实践方法等。此外,我们还将讨论面向未来的一些探索工作,如针对算力、模型、规模等不断变化的需求,如何进行自适应的分布式训练,使模型训练门槛更低,效率更高。


模型演进对 AI 基础设施提出更高的需求

百度百舸·AI异构计算平台

AIAK-Training,加速常规CV/NLP等小模型训练

ChatGPT 引爆大语言模型发展,模型生态爆发

https://arxiv.org/abs/2303.18223

AIAK-Training-LLM,加速主流开源大语言模型训练

并行策略 - 单卡到分布式,数据切分到模型切分

并行策略 - Megatron Tensor 并行

并行策略 - Megatron 流水线并行

并行策略 – Megatron 流水线并行,优化 Bubble 的方案

并行策略 - 数据并行,优化梯度通信,提升DP 扩展性

模型训练中的主要显存占用:参数、梯度、优化器、激活


显存策略 - zero系列,数据并行下的显存优化技术

计算效率优化 – 算子融合,多个Kernel计算合并

计算效率优化 – 使用混合精度训练,加速计算效率

百舸产品使用 –整体入口

百舸产品使用 – 控制台创建任务

百舸产品使用 – 客户端创建训练任务

百舸产品使用 – AIAK 自定义模型方式

百度百舸·AI异构计算平台

来源: https://qcon.infoq.cn/202309/beijing/presentation/5503

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存