NAACL 2022 | 简单且高效!随机中间层映射指导的知识蒸馏方法
©PaperWeekly 原创 · 作者 | werge
研究方向 | 自然语言处理
skip and search problem
,不容易找到合适的内层映射方式。 论文标题:
RAIL-KD: RAndom Intermediate Layer Mapping for Knowledge Distillation
论文链接:
Introduction
ILD(Intermediate layer distillation)可以在常规蒸馏的 logits 匹配以外,进一步地增强知识转移的能力,从而显著提升学生模型性能。ILD 的主要思路是将教师模型的部分中间层和全部学生模型的中间层进行一一对应,将 layer representation 映射到同一空间,并计算损失,来指导蒸馏过程。
但是 ILD 存在skip and search problem
,由于教师模型的层数比学生模型多,所以教师模型的部分中间层会被跳过,但这些层可能是包含了重要信息的层,这就是skip problem
;如果想寻找更有用的教师模型中间层,则需要进行大量实验,这会带来额外的搜索开销,这就是search problem
。
skip problem
,而忽略了search problem
。本文作者提出了 RAIL-KD 方法,在每个 epoch
开始前,从教师模型的 个中间层中随机选取 个中间层,并分别与学生模型的 个中间层进行对应,以指导蒸馏。由于层选择是随机进行的,所以教师模型的所有中间层都有机会被选择,这样不会漏掉重要的中间层,解决了skip problem
,而随机选取并不会增加训练时的计算成本,同时也就解决了search problem
。Method
skip and search problem
研究的层映射方式、算法复杂度以及局限性。skip problem
;CKD [3] 则在此基础上,将教师模型的中间层分为 组,每一组的 representation 进行简单拼接,与学生模型的一层对应,这解决了 skip
问题,但选择分组需要额外计算,存在 search problem
。ALP-KD [1] 直接将教师模型的所有中间层作为一组,与每一个学生层计算加权注意力,来将知识传递给学生,解决了 search
问题。CODIR 方法则使用了对比学习解决 search
问题,但这两种方法都需要额外计算开销。本文提出的 RAIL-KD 方法则不会在蒸馏过程中增加任何计算成本,同时在表现上优于以前的方法。
mean-pooling representation
表示所有 个样本的平均表示:,教师模型的表示相同。分别将 和 投影到相同的向量空间,就可以计算 layerwise loss 并求和得到最终的损失函数:Concatenated RAIL-KD
:实验
dev
和 test
上的平均性能均优于当下最优的 ILD 方法,且提出的两种 RAIL-KD 方法的表现非常相似,这表明本文提出的方法对级联蒸馏和逐层蒸馏都是有效的。总结
参考文献
[1] Peyman Passban, Yimeng Wu, Mehdi Rezagholizadeh, and Qun Liu. 2021. ALP-KD: attention-based layer projection for knowledge distillation. In Thirty-Fifth AAAI Conference on Artificial Intelligence, AAAI 2021, Thirty-Third Conference on Innovative Applications of Artificial Intelligence, IAAI 2021, The Eleventh Symposium on Educational Advances in Artificial Intelligence, EAAI 2021, Virtual Event, February 2-9, 2021, pages 13657–13665. AAAI Press
[2]Siqi Sun, Yu Cheng, Zhe Gan, and Jingjing Liu. 2019. Patient knowledge distillation for bert model compression. https://arxiv.org/abs/1908.09355.
[3]Yimeng Wu, Peyman Passban, Mehdi Rezagholizadeh, and Qun Liu. 2020a. Why skip if you can combine: A simple knowledge distillation technique for intermediate layers. https://arxiv.org/abs/2010.03034.
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧