查看原文
其他

ACL 2024 | SMU、NUS提出参数高效微调增强剂,显著提升大语言模型性能

Zhihao Wen PaperWeekly
2024-08-23

©PaperWeekly 原创 · 作者 | Zhihao Wen

单位 | 新加坡管理大学、新加坡国立大学

研究方向 | 大语言模型的参数高效微调



论文标题:
SIBO: A Simple Booster for Parameter-Efficient Fine-Tuning

论文地址:

https://arxiv.org/pdf/2402.11896

代码链接:

https://github.com/Jaygagaga/SIBO


简介

基于 Transformer 架构的大型语言模型的深度(例如,BERT-large 有 24 层,LLaMA-7B 有 32 层,LLaMA 65B 有 80 层)导致了过平滑(Over-smoothing)问题,影响性能和可扩展性,而全模型微调需要大量资源。为解决这些问题,参数高效微调技术 PEFT(如 Adapter 和 LoRA)被提出,但没有解决过平滑。

本文由来自新加坡管理大学和新加坡国立大学的作者提出了 SIBO,一种简单增强参数高效微调(PEFT)的方法,用于改进大型语言模型。SIBO 通过在 PEFT 模块的输入中注入初始残差,减少了 Transformer 模型中的过平滑问题。实验表明,SIBO 在多种基准测试上显著提升了 Adapter 和 LoRA 等 PEFT 技术的性能。



前言

在讲我们的方法之前, 先介绍两种流行的 PEFT 技术:适配器和基于重参数化的方法。适配器分为并行和串行,本文关注经典串行适配器 (Adapter),它通过下投影和上投影操作添加学习模块。基于重参数化的方法,如 LoRA,使用低秩策略修改网络权重,减少参数数量而不影响性能。



方法

3.1 Over-smoothing in PEFT

源于图神经网络的术语过平滑(Over-smoothing)指的是由于在连续的聚合层中重复使用相同的邻接矩阵,导致节点表示的同质性增加,从而导致性能下降。

虽然前人已经提出了几种策略来缓解过度平滑,但它们并不是为 PEFT 技术设计的,因此在大型语言模型中不太实用。特别是,我们还通过定量分析观察到在广泛采用的 PEFT 技术(包括 Adapters 和 LoRA)中,尤其是在深层中,也存在过度平滑现象。

在我们的分析中,通过评估同一语句中 token 之间的相似性,即 token 间余弦相似性,可以检测到过度平滑现象。给定一个包含 个 toke n的句子,表示为 ,其 token 间余弦相似性计算如下:
其中 是欧几里得范数。如下图 1 和图 2 所示,在 Adapter 和 LoRA 中,随着骨干语言模型层深的增加,token 间相似性的一致增加被观察到。因此,经过 PEFT 技术适配的预训练语言模型中也存在过度平滑问题。因此,有必要设计一个通用框架来缓解 PEFT 方法的过度平滑,同时保持其效率。

▲ Over-smoothing in PEFT. The results are the averaged token-wise similarity of sentences in the test sets of the corpora in the GLUE benchmark (Wang et al., 2018), with BERT-large as the backbone.

▲ Over-smoothing in PEFT. The results are the averaged token-wise similarity of sentences in the test sets of MAWPS (Koncel-Kedziorski et al.,2016) and SVAMP (Patel et al., 2021), with LLaMA-13B as the backbone.

3.2 Initial residual integration

为了实现 PEFT(参数高效微调)的通用即插即用增强,我们从 PEFT 模块的输入开始,在预训练模型的每一层的输入中注入一个初始残差。

令作为预训练模型输入的初始 token 表示为 。从 整合一个初始残差可以保证每个 token 的最终表示至少保留输入层信息的 部分。在涉及多个层时,这里的 是一个关键因素。
实际上,我们将 视为一个超参数,并将其设置为一个合理的值,例如 0.2,确保最终的 token 表示包含输入 token 特征的实质部分,从而减少整个层的过度平滑现象。接下来,我们说明我们提出的 SIBO 框架如何应用于两种最流行的 PEFT 技术:Adapter 和 LoRA。

▲ Proposed framework SIBO, applying to two popular PEFT methods: (a) Adapter, and (b) LoRA.

Adapter-SIBO

在 Adapter 中实现初始残差注入是直观的。如上图(a)所示,SIBO 在每个 Transformer 层的 Adapter 入口处(即从前一层输出并输入 Adapter 的隐藏状态)将初始 token 表示 添加到隐藏状态 中。该过程通过以下基本的向量加法操作执行。
其中 是用于控制初始残差强度的超参数。
LoRA-SIBO
在每个 Transformer 层的每个 LoRA 模块中,其更新的输入 仅为前一层的隐藏状态 由低秩矩阵近似表示。在 LoRA-SIBO 中,如上图(b)所示, 我们对 的输入进行了修改,使其成为 的组合,如下式所示,



实验

▲ 不同 PEFT 方法在算术推理任务中 LLMs 的表现,使用 GPT-3.5 的零样本 CoT 作为参考点。∗ 表示结果来自先前工作,我们采用了完全相同的实验设置和评估。改进是相对于没有 SIBO 的对应方法计算的。

▲ GPT-J(6B)在常识推理任务中使用不同 PEFT 方法的表现。∗ 表示结果来自先前的工作,其中采用了完全相同的实验设置和评估。

▲ BERT-large 在 GLUE 基准测试中使用不同 PEFT 方法的表现。∗ 表示结果来自先前的工作,其中采用了完全相同的实验设置和评估。我们报告了三次不同运行中表现的平均值(及标准差)。


结语

本文提出了 SIBO,一种简单增强参数高效微调(PEFT)的方法,用于改进大型语言模型。SIBO 通过在 PEFT 模块的输入中注入初始残差,减少了 Transformer 模型中的过平滑(Over-smoothing)问题,从而提高下游任务的性能。实验表明,SIBO 在多种基准测试上显著提升了 Adapter 和 LoRA 等 PEFT 技术的性能。



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·


继续滑动看下一个
PaperWeekly
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存