查看原文
其他

干货!一种使用1-bit通信的Adam优化器

张丽 AI TIME 论道 2023-10-20

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!


在Micorsoft DeepSpeed包的发布中,出现了1-bit Adam算法的嵌入,该产品可实现的功能如下:

(1) 实现了高效的cuda-aware Parameter Server通信后端,并且可用于InifiniBand和以太网。

(2) 高效的压缩内核,将梯度(32位)编码为1位。

(3) 兼容半精度学习(16位)。

1-bit Adam算法的优势:

(1) 从算法上来说,分别在4 V100/node, 40 Gbps Ethernet和8 V100/node, 100 Gbps InfiniBand两个测试集上进行测试,分别达到了6.6倍和2倍的 End-to-end training speed。

(2) 在实际应用方面,如果模型较大,机器集群比较老旧,node和node之间的interconnection比较弱时,都可以通过1-bit Adam提高训练速度。

1-bit Adam算法的主要介绍和结果验证撰写于《1-bit Adam: Communication Efficient Large-Scale Training with Adam's Convergence Speed》这篇论文中。


本期AI TIME PhD直播间,我们有幸邀请到了本文的作者唐瀚霖博士为大家分享这项研究工作!



唐瀚霖:


从2017年9月就读于University of Rochester大学CS,于2021年7月获得CS博士学位。主要研究方向是大规模训练下的通信加速的优化器设计以及广义优化器研究。导师是刘霁老师。在ICML和NIPS上发表过相关论文。


01

什么是1-bit Adam?


这是一种新的优化器,针对于大规模机器学习训练中,通过使用1-bit做通讯压缩来获得和原来Adam一样收敛速度的新型优化器。

 

02

为什么需要这个算法?


在大规模机器学习中,通常会使用Adam带来更快的收敛速度,这也就意味着,我们只需要更少的数目,就可以使得模型收敛。另一方面,之前的工作告诉我们,如果在大规模机器学习中应用SGD方法,我们就可以通过通信压缩来减少通信代价,从而减少总的训练时间。所以,是否存在一种新的算法,既能有着和Adam一样的模型收敛,又可以应用到针对SGD设计的通信压缩算法。由此我们提出了1-bit Adam算法。这也是第一个能够处理Adam非线性依赖能够结合通信压缩且不损失训练速度的算法。


在BERT-Large上针对1-bit Adam进行了测试。我们发现,如果使用64 GPU, 40Gbps Ethernet训练集群,那么可以获得3.4倍的训练加速时间,这意味着,原来训练需要174个小时,但通过使用新算法,我们只需要训练51个小时,就可以达到相同的收敛精度。

 


03

什么是通信压缩?


通常在大规模训练中,我们所使用的训练量往往是模型的梯度。如下图所示,我们可以将32-bit压缩为1-bit,当原始数据是负数,对应压缩后的数值就是负数,反之亦然。通过使用1-bit压缩我们可以达到32-bit通信量的体积压缩率。但如果讲这种压缩方法直接用于模型的梯度,那么将会极大的影响收敛速度甚至模型无法收敛。由此我们提出了压缩误差补偿(error compensation)的方法:如果在第一步将3.3压缩为1,相当于从梯度中减去了2.3,那么在第二步中就要先把2.3加到梯度中去,然后再进行1-bit压缩。通过不断地补偿上一步的通信压缩误差,实验证明使用基于压缩误差补偿的1-bit压缩方法可以达到和原来SGD相同的收敛速度。



但由于Adam是一种非线性的基于梯度的算法。当直接压缩梯度时会造成Adam的收敛速度变慢,尽管加上了压缩误差补偿,但训练速度依然非常慢,如下曲线图所示。


这是因为Adam用了两个量对模型进行更新,第一个量(mt)用于对之前所有的梯度取加权平均值,这是线性依赖于历史的梯度。第二个量(vt)是对所有历史梯度的平方进行加权平均,这个量是非线性依赖于历史的梯度。针对于非线性依赖于梯度的算法是无法通过压缩误差补偿完全弥补历史压缩带来的影响。所以,压缩误差补偿方法无法直接应用于Adam。

 


04

 解决办法 


提出伪Adam算法:将导致Adam非线性依赖于梯度的Vt量变成一个常数,此时Adam退化为Momentum SGD,变成线性依赖于梯度的,并可以和压缩误差补偿结合使用。



那么用常数取代vt是否可行,并且取代后是否可以达到和原Adam算法一样的收敛速度呢?


通过下图我们可以看出,答案是肯定的。vt在训练很短的一段时间内,其变化趋势会变得稳定,这就启发了我们,用Adam作为Warmup,进而形成1-bit Adam。


1-bit Adam算法分为以下两个阶段:Warmup阶段(阶段1),此时运行原来的Adam,不对通信做压缩,当我们检测到vt变化趋势稳定后,再切换到压缩阶段(阶段2),在这个过程中,停止更新vt,并会把mt项进行压缩,同时进行误差补偿。

 


05

 算法收敛效率验证


横轴代表训练的迭代数目,我们发现,只需要10%-15%的训练步数作为Warmup,然后使用1-bit压缩,压缩Momentum,此时达到了32倍的压缩率。总的来说,我们获得了5倍的压缩率。尽管在这么高的压缩率的情况下,无论在哪种测试方法下,我们都可以确保1-bit Adam和原来的Adam取得了一样的收敛效率。

 


论文链接:

https://arxiv.org/abs/2102.02888


论文题目:

1-bit Adam: Communication Efficient Large-Scale Training with Adam's Convergence Speed


点击“阅读原文”,即可观看本场回放

整理:张丽

审核:唐瀚霖


直播预告


1月26日 19:30  青年科学家-17

《青光眼估计和预测的深度学习模型》——香港理工大学电子计算学系研究助理教授许林川


往期精彩文章推荐


我们视频号也很有趣!

 关于AI TIME 


2019年,清华大学人工智能研究院院长张钹院士、唐杰教授和李涓子教授等人联合发起“AI TIME science debate”,希望用辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。


AI TIME是清华大学计算机系一群关注人工智能发展,并有思想情怀的青年学者创办的圈子。AI TIME旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家与爱好者,打造成为全球AI交流与知识分享的聚集地。

我知道你

在看

~

点击 阅读原文 查看回放!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存