其他
MURAL:消除预训练模型的语言限制!Google提出跨语言的多模态、多任务检索模型MURAL
关注公众号,发现CV技术之美
论文链接:https://arxiv.org/abs/2109.05125v1
项目链接:未开源
通过聚合数十亿个翻译对,MURAL扩展了ALIGN模型[1]的性能和泛化性。当使用相同的编码器时,MURAL在多个数据集上的跨模态检索性能超过ALIGN。
更重要的是,MURAL大大提高了资源不足的语言的性能,这表明文本-文本学习可以克服这些语言缺乏的图像-标题样本的问题。例如,在Wikipedia Image-Text数据集上,基于8种资源不足的语言,MURAL-Base平均提高了8.1%,在微调时平均提高了6.8%。
01
02
2.1 MURAL
Weighting of i2t and t2t tasks
Task-specific projection heads
Fine-tuning: single-task vs. multi-task
2.2 Model variants
2.3 Baseline Strategies
Translate-train
Translate-test
03
3.1. Multi30k and MSCOCO
3.2. Wikipedia Image Text Results
3.3. XTD
3.4. Crisscrossed Captions
3.5. Embedding Visualization
04
作者介绍
研究领域:FightingCV公众号运营者,研究方向为多模态内容理解,专注于解决视觉模态和语言模态相结合的任务,促进Vision-Language模型的实地应用。
知乎/公众号:FightingCV
END
欢迎加入「图像字幕」交流群👇备注:cap