其他
OneFlow v0.8.0正式发布
除原本的 ZeRO-DP 以外,ZeRO 零冗余优化器可以与 MP,2-D,3-D 并行搭配使用,进一步节省显存开销。 Graph 提出了新的流水并行 API,在简化流水并行配置的同时加速流水并行与 3-D 并行的性能。 为了进一步提升 Graph.debug 调试效率,新增关于逻辑图、light plan 物理图、内存分析、Python 栈信息等多维度的调试功能。
支持分层存储,动态扩容的 Embedding,用户可以以较低成本扩展 Embedding 容量 混合并行策略,能够轻松地将模型横向拓展到多机多卡的场景 通信量化压缩功能,在并行场景下,对通信的数据进行量化压缩,以减少通信量,提升训练速度 高效的数据流水线,将模型中没有数据依赖的部分提前执行,在时间上进行重叠 支持自动混合精度训练,模型训练过程中将部分计算转换为 FP16 数据类型计算,在减少显存占用的同时提升训练速度,并能保证模型收敛精度 针对推荐系统模型的常用操作提供一系列高性能 CUDA 算子 支持灵活的模型构建