其他
微软亚洲研究院发布高性能MoE库Tutel,为大规模DNN模型开发提速!
编者按:作为目前唯一被证明能够将深度学习模型扩展到万亿以上参数的方法,MoE 能让模型学习更多信息,并为计算机视觉、语音识别、自然语言处理和机器翻译系统等提供支持。近期,微软亚洲研究院发布了一个高性能 MoE 库——Tutel,并在 8x 80GB NVIDIA A100 和 8x 200Gbps 的 InfiniBand 网络的 Azure NDm A100 v4 节点上进行了实验。让我们来看一看,这个用于促进大规模 DNN 模型开发的高性能 MoE 库有哪些优势?其表现又如何?
为 Top-K gating 算法设置任意K值(大多数实现方法仅支持 Top-1 和 Top-2 )。 不同的探索策略,包括批量优先路由、输入信息丢失、输入抖动。 不同的精度级别,包括半精度(FP16)、全精度(FP32)、混合精度等(下一个版本中将支持 BF16)。 不同的设备类型,包括 NVIDIA CUDA 和 AMD ROCm 设备等。