查看原文
其他

自监督榜首!字节跳动提出视觉预训练模型dBOT,重新审视Masked Image Modeling

让你更懂AI PaperWeekly 2022-09-26




论文标题:

Exploring Target Representations for Masked Autoencoders

论文地址:

https://arxiv.org/abs/2209.03917


字节跳动和厦门大学提出基于掩码知识蒸馏的视觉自监督框架 dBOT,在 ImageNet 微调分类上仅使用 ImageNet-1K 作为预训练数据获得 89.0% 的预测精度,斩获自监督预训练榜首:
https://paperswithcode.com/sota/self-supervised-image-classification-on-1






MIM需要什么样的预测目标?

基于 Masked Image Modeling(MIM)的视觉预训练范式近来吸引了大量关注,具体来讲,MIM 首先随机 mask 输入图像的一部分,然后利用神经网络来预测被 mask 的部分。如何对被 mask 的部分进行表示一直以来是研究人员关注的热点,并没有一个定论,比如在 BEiT [2] 中利用 DALL-E [3] 的中间表示作为预测目标,在 MAE [4] 中直接预测原始像素,MaskFeat [5] 预测 HOG 特征。

本文首先基于掩码蒸馏框架,探究不同模型的输出结果作为预测目标对图像微调分类、目标检测、语义分割性能的影响。在多阶段的掩码知识蒸馏框架(Masked Knowledge Distillation, MKD)下,所有实验的性能均趋于一致,性能方差随着阶段而减小。


通过对实验结果的观察,可以得到如下的结论:

1. 不同预测目标得到的模型性能趋于相同;

2. 通过 MKD 可以有效提升不同预测目标(teacher)的性能;

3. 一个随机初始化的模型经过多轮训练之后表现出的性能出奇好。

除了使用数值量化指标外,文章还使用两种可视化工具,来分析不同模型权重和输出的性质。使用不同网络做教师经过掩码知识蒸馏后,模型的权重和输出表现出了相似的性质。

可以得出:在多阶段掩码蒸馏下,目标表征的选择不重要。





dBOT方法提出

dBOT的多阶段训练框架可以表示为:



dBOT 将 MIM 训练分为不同阶段,在每个阶段中采用上个阶段的模型作为 MIM 的预测目标,在第一阶段采用一个随机初始化的模型作为预测目标。相比于之前的方法:

1. dBOT 使用预训练网络作为预测目标,不需要额外一个阶段的预训练。

2. dBOT 使用随机网络的多阶段策略,既保证了在每一个阶段提供稳定的视觉特征,又通过阶段间 teacher 网络的更新,保证了更强的视觉特征。

3. dBOT 一开始使用一个随机初始化的网络做 teacher,极大降低了设计上的 inductive bias。




结果和分析

在微调分类上,dBOT 使用 ViT-H 达到了 89.0% 的精度,超越 MAE 1.2%。获得了在 ImageNet-1K 上的 SOTA 性能。



在目标检测、实例分割、语义分割等密集预测任务上,相同设置下 dBOT 的性能超越了之前的视觉预训练方法。相比于 MAE 有 2~3 个点的提升。这个提升是非常显著的。



除此之外,文章还使用更强的教师网络【结构上/数据上】来探究 dBOT 的上限和泛化性。

1. 首先选取比 student 参数量更大的 teacher 来进行掩码蒸馏,在三个任务上均获得了显著的提升:



2. 其次选取在更大数据集训练的网络来作为 teacher 进行掩码蒸馏:



相比于使用参数量更大的网络作为 teacher,使用数据容量更大的网络作为teacher的效果更加显著。


参考文献

[1] Xingbin Liu, Jinghao Zhou, Tao Kong, Xianming Lin, and Rongrong Ji. Exploring Target Representations for Masked Autoencoders. arXiv preprint arXiv:2209.03917.

[2] Hangbo Bao, Li Dong, and Furu Wei. BEiT: BERT pre- training of image transformers. In ICLR, 2022.

[3] Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, and Ilya Sutskever. Zero-shot text-to-image generation. In ICML, 2021.

[4] Kaiming He, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Dolla ́r, and Ross Girshick. Masked autoencoders are scalable vision learners. In CVPR, 2022.

[5] Chen Wei, Haoqi Fan, Saining Xie, Chao-Yuan Wu, Alan Yuille, and Christoph Feichtenhofer. Masked feature predic- tion for self-supervised visual pre-training. In CVPR, 2022.



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍

现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·
·

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存