查看原文
其他

ICLR2023 Top 5% | In-context Learning(上下文学习)的可解释性,及实验论证

ShuYini AINLPer 2023-07-10
点击上方AINLPer,设为星标
更多干货,第一时间送达

引言

 神经序列模型,尤其是 Transformer,表现出了非凡的In-context Learning能力。它们可以根据输入标记示例序列 (x, f(x)) 构建新的预测变量,而无需进一步更新参数。In-context learning为什么会具备如此牛的能力呢,具体原理又是什么呢?,ICLR2023上的一篇文章给出了理论实验解释」。文中主要研究了这样一个假设,基于Transformer的模型利用其激活函数来编码较小的模型,当出现新的示例时更新这些隐式模型,进而实现标准的学习算法。那么让我们来看看作者是如何验证该结论的吧。另外,ICLR2023论文合集(全)也重新整理过了,需要的可以回复:ICLR2023 进行获取

背景介绍

 在大型神经序列模型最令人惊讶的能力之一是 In-context Learning。经过适当训练后,模型可以从序列对 映射到新输入一个 能够准确预测出 。这种能力既出现在小样本学习模型训练中,也出现在大型自然语言模型(ChatGPT、LLaMa、GPT-4等)中。「In-context Learning(ICL) 需要一个模型隐式地构建一个能从In-context 示例到预测器的映射,并且不会更改整个模型的参数」。具有固定参数的神经网络如何从新数据集中学习新功能?那么这种能力如何产生的呢?

 本文研究了这样一个假设,即 ICL 的某些实例可以被理解为已知学习算法的隐式实现:「ICL在其隐藏激活函数中编码一个隐式的、上下文相关的模型,在计算过程中在上下文示例上训练该模型这些内部激活函数」。正如最近对 ICL 经验特性的研究一样,本文研究了基于 transformer 的预测器在一类受限学习问题上的行为,这里是线性回归。与过去的工作不同,本文目标不是了解 ICL 可以学习哪些功能,而是了解它如何学习这些功能:基于Transformer的 ICL 的特定归纳偏置和算法属性。

理论方法

 在这里作者使用线性回归作为原型问题,为该假设提供了三个假设验证。「首先」,通过模型构造证明了Transformers可以实现基于梯度下降和闭式岭回归的线性模型的学习算法;「然后」,证明经过训练的ICL与通过梯度下降、岭回归和精确最小二乘回归计算的预测变量密切匹配,随着Transformers深度和数据集噪声的变化可以在不同的预测变量之间转换,收敛至贝叶斯估计的大宽度和深度;「最后」,提供初步证据表明ICL与这些预测器共享算法特征:学习器的后层非线性编码权重向量和时刻向量。这些结果表明了,ICL在算法方面是可以理解的,并且(至少在线性情况下)学习者可以重新发现标准估计算法。

Transformer线性回归实现

 作者从理论上研究Transformer解码器可以实现哪些学习算法。证明它们只需要合适数量的层和隐藏单元来训练线性模型:对于d维回归问题,具有隐藏大小和恒定深度,Transformer 可以实现单步梯度下降;并且在 隐藏大小和恒定深度的情况下,转换器可以更新岭回归解决方案以包含单个新观察值。直观地说,这些算法的n个步骤可以用n倍以上的层来实现。

预测变量匹配

 通过Transformer可以构建最小二乘目标的梯度下降及其最小的封闭形式计算结构。这些结构表明,固定的Transformer参数化足以模拟这些学习算法。然而,当在真实数据集上训练时,In-context学习器可能会实现其他学习算法。作者从行为的角度研究训练过的In-context学习者的经验属性。在 Marr (2010)“分析层次”的框架中,旨在通过识别基于Transformer的ICL实现的回归问题的算法类型,在计算层面解释ICL。

「ICL在无噪声数据集上匹配普通最小二乘预测」,下图是ICL 和标准学习算法之间的拟合:在 d = 8 的无噪声线性回归上绘制textbook算法和 ICL 之间的(维度归一化)SPD 和 ILWD 值。GD(α) 表示批量梯度下降的一步,SGD(α ) 表示具有学习率 α 的一次随机梯度下降。Ridge(λ) 表示具有正则化参数 λ 的 Ridge 回归。在这两种评估下,In-context学习与普通最小二乘法非常一致,并且与线性回归问题的其他解决方案的近似程度明显较低。

「ICL在噪声数据集上匹配最小贝叶斯风险预测器」,上下文学习器和各种正则化线性模型之间的 SPD 值如下图所示。正如预测的那样,随着方差的增加,最能解释 ICL 行为的岭参数值也会增加。对于 σ 2 和 τ 2 的所有值,最适合变压器行为的岭参数也是最小化贝叶斯风险的参数。这些实验阐明了上述发现,表明此设置中的 ICL 在行为上与最小贝叶斯风险预测器匹配。我们还注意到,当噪声水平 σ → 0 + 时,贝叶斯预测器收敛于普通最小二乘预测器。

 随着模型深度的增加,ICL 表现出算法相变。上面的两个实验评估了极高容量的模型,其中计算约束不太可能在 ICL 实现的算法选择中发挥作用。但是对于较小的模型呢——「ICL的大小是否在决定它实现的学习算法中发挥作用」?为了回答这个问题,我们进行了两个最终的行为实验:一个是我们改变隐藏大小(同时优化头部的深度和数量),然后改变Transformer的深度(同时优化隐藏数量的大小和头的数量)。这些实验是在没有数据集噪声的情况下进行的。

 如下图所示,显示了 SPD 在线性回归问题的欠定区域上取平均值。如果有足够的层数和隐藏大小,ICL会在行为上匹配普通最小二乘预测器。当改变模型深度(左背景)时,算法“阶段”出现:模型在更接近梯度下降(红色背景)、岭回归(绿色背景)和 OLS 回归(蓝色)之间过渡。

探针检测

 作者通过检查学习者的中间状态来深入了解ICL:在这些状态中编码了什么信息,以及在哪里进行编码。具体是采用一个经过训练的ICL模型,冻结其权重参数,然后训练一个辅助探测模型试图从学习器的隐藏表征中恢复量化目标(时刻向量,权重向量)。  对于每个目标,为数据集的每个前缀上的目标值训练一个单独的探针:即一个探针解码从单个训练示例计算的w值,第二个探针解码两个示例的值。结果如上图所示。对于两个目标,双层MLP探针优于线性探针,这意味着这些目标是非线性编码的。然而,探索也揭示了相似之处。两个目标都在深度网络中准确解码。在这两种结构中,似乎首先被计算,在计算的较早阶段就可以被探针预测(第7层);而w稍后变得可预测(大约第12层)。

推荐阅读

[1]LaMini-LM(开源)可将模型大小减少10倍且保证性能

[2]MiniGPT-4 发布,代码模型开源,支持在线体验!

[3]中文命名实体识别(NER)数据集大盘点(全)

[4]大型语言模型落地对话系统,该从哪些方面入手?

[5]中文通用开源指令数据集(COIG):数据多样,质量高

[6]OpenAGI:一个开源的通用人工智能(AGI)研究平台

点击下方链接🔗关注我们

「资料整理不易,点个再看吧」

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存