SIGIR 2021 | 基于不确定性正则化与迭代网络剪枝的终身情感分类方法

让你更懂AI PaperWeekly 2022-07-04

收录于合集

#SIGIR 2021 1 个

导读

终身学习能力对于情感分类器处理网络上连续的意见信息流而言至关重要。然而，执行终身学习对于深度神经网络来说是困难的，因为持续地训练可用信息会不可避免地会导致灾难性遗忘。发表在信息检索领域顶会 SIGIR2021 上的一篇论文提出了一种基于不确定性正则化与迭代网络剪枝的终身情感分类方法。通过迭代地执行带有不确定性正则化的网络剪枝，IPRLS 可以使用单个 BERT 模型处理来自多个领域的连续到达的数据，同时避免灾难性遗忘。

论文标题：

Iterative Network Pruning with Uncertainty Regularization for Lifelong Sentiment Classification

论文作者：

耿斌宗，中国科学技术大学；杨敏，SIAT-NLP PI；原发杰，原腾讯看点研究员，现任西湖大学表征实验室PI

论文单位：

中国科学技术大学；SIAT-NLP；西湖大学

论文下载：

https://arxiv.org/abs/2106.11197

代码及数据：

https://github.com/siat-nlp/IPRLS

介绍

随着网络上含有丰富观点的文档被大量收集，自动预测给定文本情感极性的情感分类任务受到了越来越多的关注。近年来，深度学习取得了巨大成功，在情感分类领域几乎占据了主导地位。强大的深层神经网络必须依赖大量带注释的训练资源。然而，标记大型数据集通常是耗时且劳动密集的，在将经过训练的分类器应用于新领域时会遭受重大阻碍。

此外，无论收集多少数据训练情感分类器，都很难覆盖网络上所有可能的观点数据领域。因此，当部署到实际环境中时，训练得到的情绪分类器性能往往不能令人满意。生产环境中的情感分类器会遇到连续的信息流，因此需要将其知识扩展到新的领域。

通过掌握新知识并记住以前学到的经验而持续学习的能力被称为终身学习或持续学习。终身学习是一项神经网络长期面临的挑战。在终身学习中，很难自动平衡稳定性与可塑性。

一方面，我们期望情感分类器重用先前获得的知识，但过分关注稳定性可能会妨碍分类器快速适应新任务。另一方面，当分类器过于关注可塑性时，它可能会很快忘记以前获得的知识。一个可能的解决方案是在处理新任务时有效地重用以前获得的知识，同时避免忘记以前获得的知识。也就是说，一方面，巩固的知识被保留下来，以保持长期的持久性，并防止随着时间的推移学习新任务时发生灾难性遗忘。另一方面，在某些情况下，允许修改或替换旧知识，以提炼新知识并避免知识干扰。

IPRLS 论文提出了一种基于不确定性正则化与迭代网络剪枝的终身情感分类方法。其采用 BERT 作为情感分类的基础模型，为解决稳定性可塑性难题，IPRLS充分利用了网络剪枝和权重正则化技术，将多个顺序到来的任务中的重要知识依次集成到单个 BERT 模型中，同时尽可能地避免模型准确度降低。

具体来说，在每一轮剪枝流程中，IPRLS 使用基于权重的剪枝技术，在对某一任务完成训练后，从 BERT 的每一层中释放出一定比例的冗余权重，并对释放的参数进行修改，以学习后续的新任务。在学习新任务时，IPRLS 不像之前的工作 [1,2] 那样保持旧任务的权重不变，而是将基于贝叶斯在线学习框架的不确定性正则化纳入迭代剪枝过程中。

不确定性正则化约束了 BERT 中旧任务权重的变化，从而引导模型优雅地更新旧任务权重，并实现知识的反向迁移。由于有限的体系结构无法确保记住从无限的任务中逐渐学习到的知识，IPRLS 在 BERT 的每个层中并行地添加特定于任务的低维残差结构来在一定程度上对模型进行扩展，以更好地学习每个新任务的重要知识。

方法

3.1 任务定义

假设情感分类器已经学习了从到的个序列任务，表示为。终身情感分类的目标是使用从过去的个任务中获得的知识来帮助为任务学习更好的分类器，同时避免忘记从过去的任务中学到的知识。在论文中，每个任务都是一个针对特定领域的情感分类问题，旨在将评论分类为正面或负面。论文互换地使用术语“领域”和“任务”，因为论文中每个任务都来自不同的领域。

3.2 方法概述

IPRLS 使用 BERT 作为基础模型来构建情感分类器。BERT 是快速发展的预训练模型的重要代表，它在各种 NLP 任务上表现优异。一般来说，当任务按顺序依次到达，BERT 在学习新任务时，会灾难性地忘记旧任务。为了缓解灾难性遗忘问题，IPRLS 利用基于结构和基于正则化的持续学习方法，提高 BERT 终身情感分类的性能。

具体来说，IPRLS 探索了两种机制来促进 BERT 模型在学习新任务时保留对之前任务重要的知识。首先是一种带有不确定性正则化的迭代剪枝方法，将来自多个任务的重要知识整合到一个 BERT 模型中，同时确保最小的准确性下降。其次，在 BERT 的每一层上并行地添加一个特定于任务的并行残差函数，以在适应新任务的同时进一步保留新任务知识。

3.3 回顾BERT模型

预训练 BERT 模型的著名特性是，只需对它进行微调即可在各种下游任务上取得先进的性能，而无需对特定于任务的体系结构进行修改。BERT 模型的结构是一个多层双向 Transformer 编码器，它由个相同的层堆叠而成。

每一层包括两个子层，其中第一层是多头自注意层，第二层是标准的全连接前馈层。残差连接被应用于每个连续子层中，只后进行层规范化。多头注意层是 Transformer 架构的核心，它基于序列中每个元素的隐藏状态进行转换。形式上，第个注意“头”可计算为：

其中和是特定序列元素的隐藏向量。表示序列长度。为映射参数。代表的维度，为注意力头的个数。多头自注意层记作，由个不同的点乘注意机制组成。通过线性转换链接个注意头来计算：

其中是映射参数，残差结构被应用于两个连续子层间，之后进行层规范化：

其中表示层规范化。表示层归一化后的多头注意层。

对于第二个子层，将全连接层（FFN）应用于多头自注意层之后，我们将定义为标准前馈网络：

其中是非线性函数和是 FFN 函数中的权重矩阵。最后，将层归一化应用于 FFN 函数，形成 BERT 层，记作：

整个 BERT 模型为 12 个 BERT 层的堆叠。每个输入序列的第一个标记（CLS）的最终隐藏状态用于转换为输出。模型可以利用随机梯度下降法最小化交叉熵损失来进行优化。

3.4 不确定性正则化迭代剪枝

方法动机：为了缓解 BERT 模型的灾难性遗忘问题，一种可行的方法是保留已学习的旧任务权重，并在训练新任务时通过增加节点或权重来扩展网络。直觉上讲，有着 (i) 存在于许多领域的通用知识，以及 (ii) 高度特定于子领域的领域特性。这些通用知识可能有助于跨域进行迁移。

在大多数以前的基于体系结构的持续学习方法中，旧任务的权重往往保持不变，只有释放的权重被用于新任务的学习。由于旧任务的权重保持不变，模型得以保持所有已学习任务的性能。然而，模型固定的旧任务参数随着任务数量的增加而增加，使得深度模型难以适应新任务。

为了解决上述问题，论文提出了一种新的不确定性正则化迭代剪枝方法（IPR）。在学习新任务时，IPR 不再保持旧任务参数不变，而是将基于贝叶斯在线学习框架 [3] 的不确定性正则化 [4,5] 纳入迭代剪枝过程。不确定性正则化约束了 BERT 中旧任务线性变换层的更新，从而引导模型优雅地更新旧任务权重。

论文工作遵循持续学习的场景。情感分类器对一系列无限的任务进行学习。论文使用一个迭代的、三阶段的框架来进行终身情感分类。首先，通过对 BERT 模型的所有保留权重应用不确定性正则化来训练新任务的初始网络。第二，采用基于权重的剪枝技术用将 BERT 模型中相对不重要的参数进行释放，以使准确度下降最小。第三，在剪枝后重新训练网络，以恢复当前任务的准确度。接下来，我们将详细介绍这三个模块。

基于不确定性正则化的初始网络训练：假设已经训练了一个紧凑的可以处理任务到的情感分类器，记作。将为任务到保留的参数记为，与任务相关的被释放的参数为。令被释放参数从回归初始值，以用来学习后续的任务。

当需要处理新任务时，首先在的基础上使用任务的数据训练初始网络，与 [1,2] 在学习新任务时固定旧任务的保留权重不同，IPR 在保留权重上利用不确定性正则化 [4] 来保护旧知识不被丢失。值得注意的是被保留的参数是 BERT 中线性变换层参数（即），而这部分参数在 BERT 情感分类任务中起着最重要的作用，因此需要对其更新施加约束。

具体来说，不确定性正则化是基于贝叶斯在线学习框架的。简单起见，论文使用来表示带有不确定性正则化的被保留参数。由两个新参数和通过高斯平均场近似进行控制：

其中代表保留参数的均值，而代表标准差。是控制影响的超参。中每个元素都是从标准正态分布中随机选择的标量。和可以通过反向传播进行学习。

论文中采用三种正则化项来对旧任务保留参数的更新进行限制。

首先是一项方差级别的正则化，使得不确定度低（即方差小）的权重参数可以受到较高的正则化强度。在贝叶斯在线学习框架中，我们可以很容易地用方差来对应权重的不确定度，低方差意味着低不确定度。同时，考虑到模块参数的层间影响，即当来自上一个任务的任何权重在学习新任务期间显著更新时，当前层将合并来自下一层的更改信息，使得旧任务权重显著改变，从而损害旧任务表现。形式上，表示为：

其中表示按元素对应相乘。表示 BERT 第层上所有权重的初始标准差超参数。和为层和任务的均值和方差权重。被设置用来控制学习过程的稳定性。

其次，采用来用不确定度（方差）对参数权值大小进行加权，从而帮助控制学习过程的稳定性：

这一正则化项倾向于促进稀疏性。

第三，如上所述，和旨在鼓励接近，第三项则是希望能够接近，从而进一步缓解遗忘：

最后，将这三个正则化项结合起来，形成整体的不确定性正则化：

其中是网络的层数。总体不确定性正则化损失之后会与 BERT 初始网络训练的交叉熵损失函数结合。和是控制相应正则化项重要程度的超参数。

利用不确定性正则化（三个约束），在学习新任务时，旧任务权重将谨慎而适量地进行更新。一方面，我们可以利用从旧任务中获得的知识来帮助我们学习一个更好地新任务分类器（即前向知识迁移）。另一方面，由于所有参数在学习新任务时都可以更新，旧任务也可以从新任务学习到的知识中获益（即反向知识迁移）。

网络剪枝：我们使用一种基于权重的剪枝技术，在 BERT 模型的每一层中释放一定比例的权重，同时让性能最小程度地降低。我们让与任务相关联的被释放参数（即）从回归初始值，其可以被反复修改以学习后续任务。与此同时剩余参数作为任务的参数被保留。

不同于大多数根据参数绝对值大小进行剪枝的方法，IPR 利用一种启发式方法对变分推理学习得到的的网络权值进行剪枝。具体来说，根据比例的大小对每一层的权重进行排序，鼓励模型保留参数绝对值高、不确定性低的权重，在每一轮剪枝中释放一定比例较小的权重。需要注意的是，只对保留的属于当前任务的权值进行剪枝，而不改变旧任务的权值。

网络重训练：网络剪枝会由于网络连接的突然变化而导致性能下降。当剪枝比例较高时，这一点尤其明显。为了恢复剪枝后网络的原始性能，需要对保留权重进行再训练。经过重训练过程，我们可以合并和从而得到任务到的总体保留权重。

当对第个任务执行推断时，被释放的权值将被屏蔽，以确保网络状态与在训练期间得到的相匹配。在计算过程中，被释放的参数只需以二进制开/关方式进行屏蔽，这使得矩阵乘法的实现更加容易。

如图 1 所示，初始网络训练、网络剪枝和网络重训练过程迭代执行，以学习多个新任务。算法 1 中总结了不确定性正则化迭代网络剪枝的整体学习过程。

3.5 并行残差函数

在利用迭代剪枝机制后，旧任务的保留参数被一同用于学习新任务。然而，随着新任务的不断增加，保留的参数数量会越来越多。当几乎所有的参数都被同时使用时，旧任务参数就会像惯性一样，只有很少的新参数能够自由调整，从而阻碍新任务的学习。

为了缓解这个问题，论文采用特定于任务的并行残差函数（PRF）来增加 BERT 的新参数，并帮助它保持从新任务中学习到的重要知识。具体地说，为 BERT 的每一层并行地添加一个低维多头注意层，这里使用来表示。PRF 通过映射将隐藏状态的维度从减小到小得多的维度：

其中代表 PRF 的多头注意层。和是在 BERT12 层上共享的投影参数，且不具有不确定性正则化惩罚。每个维的隐藏状态会被转换为维的表示，之后被输入到多头注意层，最后会被转换回维的隐藏状态。

总的来说，在 BERT 中只增加了大约 1.6% 的附加参数。

3.6 整体模型

与标准的 BERT 模型相比，论文将不确定性正则化迭代剪枝（IPR）方法应用于 BERT 中的线性变换层，并增加了并行的低维多头注意层，最终模型的每一层被表示为：

其中和表示经过剪枝和正则化处理的归一化后的多头注意层和全连接层。最后，模型可以和原始的 BERT 模型一样简单地通过随机梯度下降进行优化。

实验

论文在 16 个常用的情感分类数据集上进行了实验。前 14 个数据集是从 Amazon 收集的产品评论。IMDB 和 MR 为电影评论。论文将 IPRLS 与三种常用的情感分类模型：Bi-LSTM，TextCNN，BERT，以及常用的持续学习方法：PackNet（基于体系结构），Piggyback 以及 UCL（基于正则化）进行对比。

4.1 整体表现对比

论文在一般的终身/持续学习设定下进行实验，即来自 16 个不同领域的实验数据按顺序到达，每个数据集被视为一个单独的任务。在训练期间以相同的任务顺序运行所有方法。在学习完所有 16 个任务后，报告每个领域测试集的分类准确度。

从表中可以看出，传统的深度学习模型（Bi-LSTM，TextCNN，BERT）表现远逊于持续学习方法（PackNet， Piggyback，UCL，IPRLS）。比如 BERT 在最后几个任务上表现与持续学习方法相近，但在最早的几个任务上则表现很差，这是由于传统的深度模型并没有刻意保存旧任务知识，因此会不可避免地遭受灾难性遗忘。

为分析 IPRLS 利用旧任务知识提高新任务性能的能力（正向迁移），论文中还报告了 BERT 模型在每一个任务被训练后重新初始化（为每个任务学习一个单独的模型）设置下的性能（记为 Re-init）。

持续学习方法中，Piggyback 与 Re-init表现相近，但其二进制掩码只是为单独的每个任务进行学习，虽然在某种程度上，Piggyback 可以避免遗忘问题，但同时也失去了正向迁移的能力。PackNet 在早期任务性能的保护上表现突出，但却越来越难以拟合新任务，尤其在最后一个任务 MR 上仅能达到 80.25% 的准确度，远低于 IPRLS 的 84.33%。

这是因为随着旧任务数量的增长，保留的参数数量不断增加，可用于新任务的参数越来越少，使得模型适应新任务的能力降低。UCL 则相反，虽然在最后几个任务上表现优异，但旧任务表现却出现了较大程度的遗忘问题。IPRLS 则在早期和后期的任务上都有不错的表现，很好地缓解了稳定性-可塑性困境。

4.2 中间状态的可视化分析

图 2 展示了在学习完任务后，各方法在任务到上的平均准确率。可以看到，BERT 虽然相比 Bi-LSTM 和 TextCNN 有着巨大的性能优势，但在持续学习过程中，发生灾难性遗忘后表现却会一落千丈。而持续学习方法则可以在此过程中保持相对稳定的准确性。而 IPRLS 相比于其他方法更为稳定，尤其是在后面几个任务的表现上。

4.3 反向迁移

图 6 以任务为例展示了模型在学习过程中旧任务性能的变化。以第一个任务为例，可以发现 BERT 在学习第 5 个任务后准确率大幅下降，这是因为该任务和之前的任务之间有较大的冲突。

然而，IPRLS 可以在整个学习过程中保持稳定的准确率。另外，IPRLS 在学习完多个任务后，某些任务的准确率有了轻微的提高，尤其是任务 2。这表明 IPRLS 具备反向迁移的能力，即可以通过学习新任务提升旧任务表现。

4.4 前向迁移

图 3 汇报了各持续学习方法在按顺序学完任务后相较 Re-init 的准确率差值。

可以发现，PackNet 在学习任务数增加后将难以获得正向的性能收益，Piggyback 也通常无法超过 Re-init 的表现。而 IPRLS 则同时具备前向以及反向迁移能力。

4.5 其他实验

消融实验以及任务顺序对 IPRLS 的影响等可以查阅论文相关部分。

总结

IPRLS 提出了一种基于不确定性正则化的迭代剪枝方法，以提高情感分类任务在持续学习场景下的性能。通过为 BERT 的每一层添加低维并行残差函数，只需少量附加参数就可以帮助模型更好地学习特定于任务的知识。在 16 个领域情感分类数据集上的实验结果证明了 IPRLS 的有效性。

参考文献

[1] Arun Mallya and Svetlana Lazebnik. 2018. Packnet: Adding multiple tasks to a single network by iterative pruning. In CVPR. 7765–7773.

[2] Andrei A Rusu, Neil C Rabinowitz, Guillaume Desjardins, Hubert Soyer, James Kirkpatrick, Koray Kavukcuoglu, Razvan Pascanu, and Raia Hadsell. 2016. Progressive neural networks. arXiv preprint arXiv:1606.04671(2016).

[3] Manfred Opper and Ole Winther. 1998. A Bayesian approach to on-line learning. On-line learning in neural networks(1998), 363–378.

[4] Hongjoon Ahn, Sungmin Cha, Donggyu Lee, and Taesup Moon. 2019. Uncertainty-based continual learning with adaptive regularization. InNeurIPS. 4392–4402.

[5] Charles Blundell, Julien Cornebise, Koray Kavukcuoglu, and Daan Wierstra. 2015. Weight uncertainty in neural networks. arXiv preprint arXiv:1505.05424(2015).

特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！

跟着南通住建局学“朝令夕改”

SIGIR 2021 | 基于不确定性正则化与迭代网络剪枝的终身情感分类方法

导读

3.5 并行残差函数

您可能也对以下帖子感兴趣

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！

跟着南通住建局学“朝令夕改”

生成图片，分享到微信朋友圈

SIGIR 2021 | 基于不确定性正则化与迭代网络剪枝的终身情感分类方法

导读

3.5 并行残差函数

您可能也对以下帖子感兴趣