其他
训练大模型的九大深度学习库;谷歌转向文字→视频生成的两大利器|AI系统前沿动态
1. Megatron-LM
2. DeepSpeed
DeepSpeed是Microsoft推出的深度学习库,用于训练Megatron-Turing NLG 530B和BLOOM等大型模型,在训练、推理和压缩三方面都有所创新。
可进行十亿乃至万亿级参数的稀疏/密集模型的训练/推理 可实现超高系统吞吐量,可高效扩展至数千个GPU 可在资源有限的GPU系统上进行训练/推理 可实现前所未有的低延时与高推理吞吐量 可用低成本实现压缩,从而大幅降低推理延迟并缩减模型大小
链接:https://github.com/microsoft/DeepSpeed
3. FairScale
FairScale是由Facebook Research开发的PyTorch扩展库,具备高性能,可用于大型训练。FairScale的愿景如下:
易用性,开发简单易懂的FairScale API,使用户方便上手。 模块化,实现模块化,使用户可将多个FairScale API无缝加入其训练循环。 性能,实现 FairScale API的高可扩展性和高效率。
链接:https://github.com/facebookresearch/fairscale
4. ParallelFormers
5. ColossalAI
Colossal-AI提供用于分布式/并行训练的一套并行组件。Colossal-AI支持下列并行策略与优化措施:数据并行、流水并行、1D, 2D, 2.5D, 3D 张量并行、序列并行、零冗余优化器 (ZeRO)、异构内存管理(Heterogeneous Memory Management),用于推理系统Energon-AI。
链接:https://github.com/hpcaitech/ColossalAI
6. Alpa
自动并行化:Alpa可自动将用户的单设备代码并行化,用于分布式集群,实现数据并行、算子并行和流水并行。 出色的性能:Alpa在使用分布式集群训练含十亿级参数的大模型时可实现线性扩展。 密切整合机器学习生态:Alpa由Jax、XLA和Ray等高性能且生产就绪的开源库提供支持。
链接:https://github.com/alpa-projects/alpa
7. Hivemind
可实现无主节点的分布式训练:其底层的分布式哈希表可在去中心化网络中连接所有计算机。 反向传播容错:即使某些节点无反应或反应时间较长,也不会导致前向传播和反向传播失败。 去中心化参数平均化: 来自多个worker的参数更新可以进行迭代累计,而无须在整个网络中同步。 可训练任意大小的神经网络:部分神经网络层可通过去中心化混合专家系统(Decentralized Mixture-of-Experts)分布在多台计算机中。
8. OneFlow
兼容PyTorch的API对模型进行编程 运用全局视角(Global View)API将模型扩展至n维并行执行或分布式执行 用静态图编译器(Static Graph Compiler)进行模型加速/部署
链接:https://github.com/Oneflow-Inc/oneflow(论文:
9. Mesh-Tensorflow
在模型比较小时(如 100G 以下),还有可能采用单机存储。当模型参数量比较大时,要求的样本数也更大,训练后做 dump 出来的模型也会很大,单机肯定放不下。本文将介绍 OneFlow 的大模型分片保存、加载策略以及使用方法。
链接:https://mp.weixin.qq.com/s/2Z400_r_ZVwYYnGH7vw9zg
OneFlow的大模型分片保存和加载策略 Jeff Dean:机器学习在硬件设计中的潜力 深挖Cerebras:世界上最大AI芯片的架构设计 OneEmbedding:单卡训练TB级推荐模型不是梦 大模型训练难?效率超群、易用的“李白”模型库来了