“目标检测”+“视觉理解”实现对输入图像的理解及翻译(附源代码)
关注并星标
从此不迷路
公众号ID|ComputerVisionGzq
学习群|扫码在主页获取加入方式
论文地址:https://arxiv.org/pdf/2206.05836.pdf
代码地址:https://github.com/microsoft/GLIP
计算机视觉研究院专栏
作者:Edison_G
提出了GLIPv2,一种基于VL的理解模型,它服务于localization任务(例如,目标检测、实例分割)和视觉语言(VL)理解任务(例如,VQA、图像字幕)。
01
概述
在开放词汇目标检测任务上的强大的零样本和少样本自适应性能; 在 VL 理解任务上的出色grounding能力
02
背景
最近,人们普遍关注构建通用视觉系统,也称为视觉基础模型,它可以同时解决各种视觉任务,例如图像分类、物体检测,以及视觉语言 (VL) 理解。特别感兴趣的是定位任务(例如,目标检测和分割)和VL理解任务(例如,VQA和图像字幕)之间的统一。
localization预训练有利于VL任务,“localization->VLP”两阶段预训练过程是VL社区。一个长期存在的挑战是localization和理解的统一,旨在这两种任务之间互惠互利,简化预训练程序并降低预训练成本。
然而,这两种任务似乎有很大的不同:定位任务仅是视觉任务,需要细粒度的输出(例如,边界框或像素掩码),而VL理解任务强调两种模式之间的融合,需要高级语义输出。例如,答案或标题)。
03
新框架
A Unified VL Formulation and Architecture
GLIPv2统一公式的核心是分类匹配技巧,它将任何特定于任务的固定词汇分类问题重新表述为与任务无关的开放词汇视觉语言匹配问题。最好的例子是在CLIP中将图像分类重新表述为图像-文本匹配,这使模型能够直接从原始图像-文本数据中学习,并在开放词汇分类任务上实现强大的零样本结果。在GLIPv2 中,我们用视觉语言匹配点积层替换了传统单模态视觉模型中的每个语义分类线性层。
GLIPv2 Pre-training
GLIPv2使用三个预训练损失进行预训练:来自目标检测任务的视觉语言重构的phrase grounding损失Lground、来自新的区域单词级别对比学习任务的区域单词对比损失 Linter,以及标准掩码BERT中提出的语言建模损失Lmlm。
Transfer GLIPv2 to Localization and VL Tasks
我们引入了两种轻松将GLIPv2传输到各种下游任务的方法。此外,GLIPv2可以在本地化的同时执行传统的VL任务(例如VQA),有效地使我们认为的每项任务都成为“基础的VL理解”任务。
GLIPv2 pre-training losses: the intra-image alignment loss Lintra (right) takes features after VL fusion and compute loss over region-word pairs within each image-text pair; the inter-image contrastive loss (left) Linter takes features before VL fusion and compute loss over all region-word pairs across a batch of image-text pairs. Label propagation is used to determine the off-diagonal blocks of the Linter target matrix.
04
实验及可视化
转载请联系本公众号获得授权
计算机视觉研究院学习群等你加入!
ABOUT
计算机视觉研究院
VX:2311123606
往期推荐
🔗
AI助力社会安全,最新视频异常行为检测方法框架 目前精度最高效率最快存储最小的目标检测模型(附源码下载) 劲爆!YOLOv6又快又准的目标检测框架开源啦(附源代码下载) CVPR小目标检测:上下文和注意力机制提升小目标检测(附论文下载) Double-Head:检测头上再创新,提升精度(附原论文下载) 海康研究院出品:具有场景自适应概念学习的无监督目标检测(附论文下载) 新技术:高效的自监督视觉预训练,局部遮挡再也不用担心! VS Code支持配置远程同步了 改进的阴影抑制用于光照鲁棒的人脸识别 基于文本驱动用于创建和编辑图像(附源代码) 基于分层自监督学习将视觉Transformer扩展到千兆像素图像 霸榜第一框架:工业检测,基于差异和共性的半监督方法用于图像表面缺陷检测 CLCNet:用分类置信网络重新思考集成建模(附源代码下载) YOLOS:通过目标检测重新思考Transformer(附源代码) 工业检测:基于密集尺度特征融合&像素级不平衡学习框架(论文下载) Fast YOLO:用于实时嵌入式目标检测(附论文下载)