一张3090性能超越全参调优！比LoRA还快50%的微调方法来了

让你更懂AI的 PaperWeekly

2024-08-23

©作者 | 机器之心编辑部

来源 | 机器之心

2022 年底，随着 ChatGPT 的爆火，人类正式进入了大模型时代。然而，训练大模型需要的时空消耗依然居高不下，给大模型的普及和发展带来了巨大困难。面对这一挑战，原先在计算机视觉领域流行的 LoRA 技术成功转型大模型 [1][2]，带来了接近 2 倍的时间加速和理论最高 8 倍的空间压缩，将微调技术带进千家万户。

但 LoRA 技术仍存在一定的挑战。一是 LoRA 技术在很多任务上还没有超过正常的全参数微调 [2][3][4]，二是 LoRA 的理论性质分析比较困难，给其进一步的研究带来了阻碍。

UIUC 联合 LMFlow 团队成员对 LoRA 的实验性质进行了分析，意外发现 LoRA 非常侧重 LLM 的底层和顶层的权重。利用这一特性，LMFlow 团队提出一个极其简洁的算法：Layerwise Importance Sampled AdamW（LISA）。

论文链接：

https://arxiv.org/abs/2403.17919

开源地址：

https://github.com/OptimalScale/LMFlow

LISA介绍

LISA 算法的核心在于：

- 始终更新底层 embedding 和顶层 linear head；

- 随机更新少数中间的 self-attention 层，比如 2-4 层。

出乎意料的是，实验发现该算法在指令微调任务上超过 LoRA 甚至全参数微调。

更重要的是，其空间消耗和 LoRA 相当甚至更低。70B 的总空间消耗降低到了 80G*4，而 7B 则直接降到了单卡 24G 以下！

进一步的，因为 LISA 每次中间只会激活一小部分参数，算法对更深的网络，以及梯度检查点技术（Gradient Checkpointing）也很友好，能够带来更大的空间节省。

在指令微调任务上，LISA 的收敛性质比 LoRA 有很大提升，达到了全参数调节的水平。

而且，由于不需要像 LoRA 一样引入额外的 adapter 结构，LISA 的计算量小于 LoRA，速度比 LoRA 快将近 50%。

理论性质上，LISA 也比 LoRA 更容易分析，Gradient Sparsification、Importance Sampling、Randomized Block-Coordinate Descent 等现有优化领域的数学工具都可以用于分析 LISA 及其变种的收敛性质。

一键使用LISA

为了贡献大模型开源社区，LMFlow 现已集成 LISA，安装完成后只需一条指令就可以使用 LISA 进行微调：

如果需要进一步减少大模型微调的空间消耗，LMFlow 也已经支持一系列最新技术：

如果在使用过程中遇到任何问题，可通过 github issue 或 github 主页的微信群联系作者团队。LMFlow 将持续维护并集成最新技术。

总结

在大模型竞赛的趋势下，LMFlow 中的 LISA 为所有人提供了 LoRA 以外的第二个选项，让大多数普通玩家可以通过这些技术参与到这场使用和研究大模型的浪潮中来。正如团队口号所表达的：让每个人都能训得起大模型（Large Language Model for All）。

参考文献

[1] Hu, Edward J., et al. "Lora: Low-rank adaptation of large language models." ICLR 2022.

[2] Dettmers, Tim, et al. "Qlora: Efficient finetuning of quantized llms." Advances in Neural Information Processing Systems 36 (2024).

[3] Ding, Ning, et al. "Delta tuning: A comprehensive study of parameter efficient methods for pre-trained language models." arXiv preprint arXiv:2203.06904 (2022).

[4] Lialin, Vladislav, et al. "Stack more layers differently: High-rank training through low-rank updates." arXiv preprint arXiv:2307.05695 (2023).

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

继续滑动看下一个

PaperWeekly

向上滑动看下一个

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“四川大学姜涛与爱人程月玲”，你们现在还好吗？

半年狂赚63亿了，微众银行董事长，还要卷员工

为了这部描述从“反右”到“文革”的禁片，田壮壮付出了十年不能拍片的代价

行游天地阅启新章｜Bloomberg Pursuits

一张3090性能超越全参调优！比LoRA还快50%的微调方法来了

论文链接：

https://arxiv.org/abs/2403.17919

开源地址：

https://github.com/OptimalScale/LMFlow

您可能也对以下帖子感兴趣

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“四川大学姜涛与爱人程月玲”，你们现在还好吗？

半年狂赚63亿了，微众银行董事长，还要卷员工

为了这部描述从“反右”到“文革”的禁片，田壮壮付出了十年不能拍片的代价

行游天地 阅启新章｜Bloomberg Pursuits

生成图片，分享到微信朋友圈

一张3090性能超越全参调优！比LoRA还快50%的微调方法来了

论文链接：

https://arxiv.org/abs/2403.17919

开源地址：

https://github.com/OptimalScale/LMFlow

您可能也对以下帖子感兴趣

行游天地阅启新章｜Bloomberg Pursuits