CVPR 2023 | G2SD: 让小模型也能从自监督预训练中受益的蒸馏方法
©Paperweekly 原创 · 作者 | An.
单位 | 中科院自动化所
研究方向 | 计算机视觉、模型压缩
论文标题:
Generic-to-Specific Distillation of Masked Autoencoders
https://arxiv.org/pdf/2302.14771.pdf
https://github.com/pengzhiliang/G2SD
大型视觉 Transformer(ViT)在自监督预训练机制的推动下取得了前所未有的进步。然而,由于模型容量的限制,轻量级 ViT 模型从这些预训练机制中受益较少。知识蒸馏是将大型(教师)模型的表示转移到小型(学生)模型的模型压缩方法。传统的单阶段蒸馏容易陷入特定任务知识的转移中,无法保留对模型泛化至关重要的任务无关知识。
本文提出了通用到特定蒸馏(generic-to-specific distillation, G2SD),在 MAE(Masked AutoEncoders)[1]预训练的大型模型的监督下挖掘小型 ViT 模型的潜力。在通用蒸馏中,鼓励小模型的解码器将特征预测与大模型的隐藏表示对齐,以传递任务无关的知识。在特定蒸馏中,约束小模型的预测与大模型的概率预测保持一致,以学习能提供任务性能的特定任务的特征表示。
2.1 通用蒸馏:传递任务无关知识
实验
图像分类:表 1 对比了 G2SD 和现有监督学习/自监督学习/知识蒸馏方法的性能,G2SD 在同等参数量和计算量下取得了超过它们所有方法的性能。值得注意的是,G2SD-Ti 在相近参数量下比精心设计的 MobileNet-v3 性能高出了 1.8%。
▲ 表1. ImageNet-1k 上 Top-1 准确率对比
目标检测&实例分割:如表 2 所示,在目标检测和实例分割任务中,G2SD 均取得了优于现有流行方法的性能。
▲ 表2. MS COCO 上目标检测和实例分割的结果对比
语义分割:如表 3 所示,G2SD 获得了最优分割性能。同时,G2SD-Ti 在只需要 11M 参数量的情况下,取得了和 Swin-T(59.9M)一样的性能,将轻量级 ViT 模型的性能推到了一个新的高度。
▲ 表3. ADE20K 数据集上的结果对比
消融实验:表 4 验证了两阶段蒸馏的有效性。从中可知,通用蒸馏就能使学生模型获得有竞争力的性能,而特定蒸馏进一步提升了模型性能,两个阶段均有很大贡献。
▲ 表4. 对单阶段和两阶段蒸馏的消融研究,G2SD w/o S.D是指仅进行通用蒸馏,MAE⚗是指在 MAE 的微调阶段进行特定蒸馏
其他实验:本文还就通用蒸馏阶段的损失函数设计进行了消融探究,包括选择哪个位置进行特征蒸馏(编码器特征、编码器特征相对关系、解码器特征等)、掩码比例、哪层特征( 的选择)、学生解码器的设计。具体的实验结果可参考原文。
参考文献
[3] Sungsoo Ahn, Shell Xu Hu, Andreas C. Damianou, Neil D. Lawrence, and Zhenwen Dai. Variational information distillation for knowledge transfer. IEEE CVPR, pages 9155– 9163, 2019.
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧