新技术:高效的自监督视觉预训练,局部遮挡再也不用担心!
关注并星标
从此不迷路
公众号ID|ComputerVisionGzq
学习群|扫码在主页获取加入方式
论文地址:https://arxiv.org/pdf/2206.00790.pdf
计算机视觉研究院专栏
作者:Edison_G
计算机视觉的自监督学习取得了巨大的进步,并改进了许多下游视觉任务,例如图像分类、语义分割和对象检测。
01
概要简介
计算机视觉的自监督学习取得了巨大的进步,并改进了许多下游视觉任务,例如图像分类、语义分割和对象检测。其中,生成式自监督视觉学习方法如MAE和BEiT表现出良好的性能。然而,它们的全局掩码重建机制在计算上要求很高。
为了解决这个问题,研究者提出了局部掩码重建(LoMaR),这是一种简单而有效的方法,它在简单的Transformer编码器上的7×7补丁的小窗口内执行掩码重建,与全局相比,提高了效率和准确性之间的权衡对整个图像进行掩码重建。
大量实验表明,LoMaR在ImageNet-1K分类上的top-1准确率达到84.1%,优于MAE 0.5%。在384×384图像上对预训练的LoMaR进行微调后,top-1准确率可以达到85.4%,超过MAE 0.6%。在MS COCO上,LoMaR在目标检测方面比MAE高0.5 APbox,在实例分割方面比MAE高0.5 APmask。LoMaR在预训练高分辨率图像上的计算效率尤其高,例如,它比MAE快3.1倍,在预训练448×448图像上的分类精度提高0.2%。这种局部掩码重建学习机制可以很容易地集成到任何其他生成式自监督学习方法中。代码将公开
02
研究背景
03
新框架分析
04
实验及可视化
Image classification results on the ImageNet-1K
Computational efficiency evaluation
High-resolution image pretraining
转载请联系本公众号获得授权
计算机视觉研究院学习群等你加入!
ABOUT
计算机视觉研究院
VX:2311123606
往期推荐
🔗
最近几篇较好论文实现代码(附源代码下载) VS Code支持配置远程同步了 基于文本驱动用于创建和编辑图像(附源代码) 基于分层自监督学习将视觉Transformer扩展到千兆像素图像 霸榜第一框架:工业检测,基于差异和共性的半监督方法用于图像表面缺陷检测 CLCNet:用分类置信网络重新思考集成建模(附源代码下载) YOLOS:通过目标检测重新思考Transformer(附源代码) 工业检测:基于密集尺度特征融合&像素级不平衡学习框架(论文下载) Fast YOLO:用于实时嵌入式目标检测(附论文下载) 计算机视觉研究院:AI部署以及工业落地学习之路(文章较长,建议收藏) 目标检测干货 | 多级特征重复使用大幅度提升检测精度(文末附论文下载)