查看原文
其他

【源头活水】VirTex:多模态预训练模型



“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。

来源:知乎—唐源民
地址:https://zhuanlan.zhihu.com/p/401081216
机构:密歇根大学
作者:Karan Desai, Justin Johnson
发布会议:CVPR 2021
面向任务:CV+NLP迁移学习,表示学习
论文地址:https://arxiv.org/abs/2006.06666
论文代码:https://github.com/kdexd/virtex

01

Motivation
使用文本特征来学习视觉特征从而达到使用较少的图像学到高质量视觉表示的目的

02

Contribution
1. 提出VirTex,一种使用语义密集的caption来学习视觉表示的预训练方法。在COCO Captions 数据集上从头开始训练卷积网络,并将其迁移到图像分类、目标检测和实例分割等下游任务上。
2. 证明自然语言可以为学习可迁移的视觉表示提供监督,其数据利用效率高于其他方法。

03

Method
给定image-caption对的数据集,作者method的目标是学习可以转移到下游视觉识别任务的视觉表示,思路如下:
1. 联调训练ConvNet(文中是ResNet-50)和Transformer
2. 固定并使用ConvNet输出vision feature在下游任务下进行测试
作者使用语言有监督训练方式设计模型的理由如下
作者认为,图像的描述信息具有语义密度(Semantic density),所以语言的约束是有利的,而且相比无监督对比学习方法和有监督分类方法,caption可以提供语义更为密集的学习信号,所以设计本文来借助textual feature使用更少的图像来学习visual feature。
模型详细展开如下:
(Language Supervised Pretraining module for pertainng)
Pretaing task: image captioning
Include Two Components: Vision backbone and textual head
Vision backbone : 常规ResNet-50
textual head:
一个双向的captioning model
这个双向的意思是图像从左到右(Forward Model)和从右到左(Backward Model)预测图像的caption。
[SOS] and [EOS]:一个固定的用于表示句子开始和结束的token
下面是其计算loss的公式:

这个loss函数的目的是学习上述参数以最大化这个对数似然估计。

04

Experiment
实验部分本文主要突出该方法提出的使用语义密集的caption对vision backbone预训练效率的提升.
本工作尝试了4个不同的下游任务,在所有任务中,不管是监督还是无监督学习,即使在极少训练样本(仅用原来图像数量的1/10)下能也能得到表现相同或者超出视觉分类型的预训练模型。
本工作的消融实验目的有三个
1. 证明选择Bicaptioning是这项工作的最优预训练任务
2. 证明采用ResNet-50
3. 证明textural head的构造L=1,head = 1024是最优的


05

Conclution
本文证明了使用语义密集的图像描述来学习视觉表示可以比在ImageNet上基于监督分类和自监督学习的方法效果更优。同时使用图像描述的方法由于无需精确标注的数据。故而可以扩展到大规模的规模的图像-文本训练(CLIP)。


06

Reference
https://blog.csdn.net/weixin_42683218/article/details/115173167

认知启发的跨模态智能研究组 (Cognition-inspired Cross-modal Intelligent Group, CogModal Group)

团队主页:

https://mmlab-iie.github.io/

知乎专栏:

https://www.zhihu.com/column/c_1284803871596797952

团队介绍:认知启发的跨模态智能研究组(Cognition-Inspired Cross-Modal Intelligent Group, CogModal Group)希望从人的认知单元、认知架构和认知机理得到启发,探究可解释、可泛化、高可靠、高可信的跨模态智能方法,进而实现对视觉及非视觉信息更加泛化的理解。

专栏内容:领域前沿解读 & 组内研究进展分享

本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。


“源头活水”历史文章


更多源头活水专栏文章,

请点击文章底部“阅读原文”查看



分享、在看,给个三连击呗!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存