查看原文
其他

ACL 2022 | 给注意力升升温,模型摘要的有效蒸馏

werge PaperWeekly 2022-09-26



©PaperWeekly 原创 · 作者 | werge
研究方向 | 自然语言处理




OverView

生成式文本摘要主要依赖于大规模预训练的 sequence-to-sequence Transformer 模型,为了减少其计算开销,一般使用蒸馏中的伪标记方法。本文中,作者讨论了伪标记方法在获取生成式摘要上存在的问题,并展示了仅仅通过调整注意力温度(Attention temperature)即可提升学生模型生成摘要的能力。



论文标题:

Attention Temperature Matters in Abstractive Summarization Distillation

收录会议:

ACL 2022

论文链接:

https://arxiv.org/abs/2106.03441




Method
自动文本摘要是将长文档改写为较短的形式,同时仍然保留其最重要的内容,一般分为抽取式摘要和生成式摘要,前者直接从文本中抽取主题句形成摘要,而后者生成新的句子来概括文本。由于生成式摘要一般比抽取式摘要效果更好,所以本文主要研究生成式摘要的问题。
生成式摘要问题可以视为一个序列到序列(Seq2Seq)问题,一般依赖于大规模预训练模型。但是由于其推理速度较慢,很难实际部署,所以一般采用知识蒸馏方法将大模型的知识传递给小模型,从而在保持表现相当的情况下提升速度。在 Seq2Seq 模型的蒸馏中,一般采取 pseudo-labling(伪标记 [1])方法:也即先向教师模型输入所有训练集样本,并让教师模型生成 pseudo-summary(伪摘要),并将其与训练集中原有的 summary 一起用于训练学生模型。

在原有训练模型生成文本摘要时,其目标函数为最大化 log-likelihood:

其中,
分别表示原文档和生成的摘要。而伪摘要法只需加上如下的目标函数即可:

在本文中,作者提出,Seq2Seq 教师模型的注意力分布过于 sharp,导致其生成的伪摘要并不是最优的,从而进一步导致了学生模型表现不好。作者观察到,教师模型生成的伪摘要从原文档中复制的连续文本跨度比 reference summary(参考摘要)更多,并且更加倾向于总结文档的开头部分。

如下图所示,作者对模型中的 cross-attention 进行了可视化。容易看出,attention weights 形成了三条比较明显的线,这说明每当 decoder 预测下一个词的时候,模型的 attention 刚好指向文档中的下一个词,这可能就是导致伪摘要中有很多复制的连续文本的原因;同时,作者发现所有的值较大的 attention weights 都集中在输入文档的前 200 个词,这便是导致摘要倾向于文档开头部分的原因。



注意力机制是 Transformer 模型的核心部分:

其中, 均为每层 hidden states 的线性投影, 则是该注意力模块的温度,一般为 ,其中 为一个注意力头的隐藏层维度。作者认为,导致注意力分布过于 sharp 的原因就是该温度较低。如果将该温度变高,可以将分布变得更加 smooth,从而缓解这一问题。所以,作者提出了 PLATE 方法(Pseudo-labeling with Larger Attention TEmperature),在教师模型生成伪摘要时,设 ,然后再训练学生模型,但不改变学生模型的 attention temperature。



Experiments
作者选取了 CNN/DailyMail [2],XSum [3],New York Times [4] 三个数据集进行实验,实验结果如下图所示:



上图的第一大块中,作者对比了不同的大规模预训练模型,最终采用了自己 finetune 的 BART 模型做为教师模型生成伪摘要;第二大块中,作者选取了 [5] 中采用不同方法得到的学生模型表现进行了对比,其中在 CNNDM 上为 BART 结构,在 XSum 上为 BART 结构( 结构表示沿用了 BART 的结构,只是把 decoder 的层数从 层降到了 层)。
第三、四两块中,作者对比了自己蒸馏得到的 两种结构学生模型的表现,每个模型的 表示直接根据训练集中的 reference 采用 finetune 得到的模型, 表示采用了一般的 pseudo-labeling 方法得到的模型,也即没有改变注意力温度; 分别为采取不同系数增大注意力温度得到的模型, 则是采用了 针对每一个文档都随机选取一个 值训练得到的模型。

从图中可以观察到,提高了 attention temperature 后,得到的模型在三个数据集上的表现均超过了改变前的模型,甚至部分表现都超过了教师模型。

第五块中,作者采用了 self-distillation,也即教师模型和学生模型采用了相同的结构。作者发现,本文的方法在多个方面提升了模型性能。第六块中,作者还在 Transformer 上应用了提出的方法,同样观察到了性能提升。

在 Transformer 结构中,注意力机制主要包括 encoder 自注意力、decoder 自注意力以及 decoder 交叉注意力三种,作者在此基础上进行了消融实验:分别将这三部分注意力的温度改为原来的大小(也即 ),并观察学生模型在 CNNDM 验证集上的结果,如下图所示。发现 decoder cross attention 对模型影响最大,这与预期相同,因为其直接影响到选择摘要的过程。



如下图所示,作者还从模型摘要的长度和 novel n-grams 进行了探究。novel n-grmas 是指在摘要中出现,但未在原文档中出现的 n-gram。摘要长度越短,novel n-grams 越多,说明模型生成的摘要越 concise 且 abstractive,再结合之前的 Rouge 分数,说明模型生成摘要的质量越高。如下图所示可以发现,通过提高的值,可以有效提升教师模型生成摘要的能力,从而进一步提升学生模型的能力。



除此之外,根据 [6] 的结论,当模型具有高预测熵时,摘要模型更加倾向于生成而不是复制;且模型的高预测熵与高注意力熵是紧密关联的。本文中,作者通过提高平滑了注意力分布,从而提高了注意力熵,所以生成能力有所提高,这与 [6] 的结论是不谋而合的。




Conclusion
在本文中,作者提出了一种简单但有效的 pseudo-labeling distillation 方法的 PLATE 扩展,用于摘要蒸馏。在三个数据集上的实验表明,该方法可以有效提高教师模型生成摘要的能力,进一步也使学生模型产生的摘要更加简洁和抽象。



参考文献

[1] Yoon Kim and Alexander M. Rush. 2016. Sequencelevel knowledge distillation. In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, pages 1317–1327, Austin, Texas. Association for Computational Linguistics.
[2] Karl Moritz Hermann, Tomás Kocisky, Edward Grefen- ` stette, Lasse Espeholt, Will Kay, Mustafa Suleyman, and Phil Blunsom. 2015. Teaching machines to read and comprehend. In NIPS.
[3] Shashi Narayan, Shay B. Cohen, and Mirella Lapata. 2018. Don’t give me the details, just the summary! topic-aware convolutional neural networks for extreme summarization. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 1797–1807, Brussels, Belgium. Association for Computational Linguistics.
[4] Evan Sandhaus. 2008. The new york times annotated corpus. Linguistic Data Consortium, Philadelphia, 6(12):e26752.
[5] Sam Shleifer and Alexander M Rush. 2020. Pretrained summarization distillation. arXiv preprint arXiv:2010.13002.
[6] Jiacheng Xu, Shrey Desai, and Greg Durrett. 2020b. Understanding neural abstractive summarization models via uncertainty. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 6275–6281, Online. Association for Computational Linguistics.

更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍

现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·
·
·


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存