剑桥大学等提出MAGIC,一个即插即用、无需训练的图像-文本生成框架
本文提出了一个全新的 MAGIC (iMAge-guided text GeneratIon with CLIP) 框架。该框架可以使用图片模态的信息指导预训练语言模型完成一系列跨模态生成任务,例如 image captioning 和 visually grounded story generation。
与其他方法不同的是,MAGIC 框架无需多模态的训练数据,只需利用现成的语言模型(例如 GPT-2)和图文匹配模型(例如 CLIP)就能够以 zero-shot 的方式高质量地完成多模态生成任务。此外,不同于使用梯度更新生成模型cache 的传统方法,MAGIC 框架无需梯度更新,因而具备更高效的推理效率。
论文标题:
Language Models Can See: Plugging Visual Controls in Text Generation
作者单位:
论文链接:
代码链接:
研究背景以及目的
研究方法
2.1 无监督语言建模
2.2 MAGIC Search
实验结论
3.1 Zero-shot Image Captioning
3.1.1 实验设置
3.1.2 MS-COCO和Flickr30k实验结果
3.1.3 跨领域实验结果
此外,本文还做了跨领域的实验以进一步测试 MAGIC 的泛化能力。具体而言,本文使用在源领域(例如 MS-COCO)上得到的无监督语言模型,在目标领域(例如 Flickr30k)的测试集上进行实验。本文在该实验中对比无监督解码方法和 CLIPRe。其中 CLIPRe 的检索数据集仅来自于源领域的训练集,实验结果如下:
3.1.4 Case Study
我们通过一些例子来定性的对比 baseline 和我们的方法:
这几个例子显示出 MAGIC 不仅能够生成非常流利的文本,同时其生成文本中的信息和图片模态的关联性也更强。例如图 (a) 中,MAGIC 可以准确的生成“building”,但是 ZeroCap 却生成了“school bus”这个无关的结果。此外,图 (d) 中,虽然 ZeroCap 生成出了“boatboard”这一相关词汇,但其语句流利度低,并且存在语法错误。相比之下,MAGIC 生成的文本在通顺流畅的同时,也与图片显示的内容一致。
3.2 Visually Grounded Story Generation
除了 image captioning 任务之外,我们还将 MAGIC 框架拓展到了其他基于视觉的文本生成任务,例如 visually grounded story generation。在该任务中,给一个图片和故事标题,模型的任务是生成一个流利有趣并且与图片内容及故事标题一致的故事。
3.2.1 实验设置
本文在 ROCStories 数据集上进行了实验,并选取以下的文本解码方式作为我们的 baseline:1) Greedy search;2)Beam search;3)Top-K sampling;4)Nucleus sampling;5)Typical sampling;和 6)Contrastive search。
为了达到给 ROCStories 数据集中每一个测试样例提供一个图片信息的目的,本文使用 CLIP 模型从公开的 ConceptCaption 数据集中检索和故事标题最相关的图片。
为了有效评价模型的效果,本文采用了以下几种评价指标:
1. 自动评价指标:本文采用之前文本生成研究中的一系列评价指标
n-gram 重复率 (rep-n)
生成文本多样性 (div.)
语义一致性 (coh.):生成的故事和标题是否语义一致
图文匹配相关性 (CLIPScore)
MAUVE 分数
2. 人工评价指标:为了更精准的反映生成故事的质量,五个专业的标注员从以下几个角度对生成故事的质量进行打分(1-5 分,1 分最差,5分最好)
相关性:生成的故事是否和标题有关
流利度:生成的故事是否流利易懂
信息量:生成的故事是否多样且有趣
故事图片相关性:生成的故事是否和通过标题检索得到的图片语义一致
3.2.2 实验结果
如上图所示,MAGIC 在大多数的指标上都达到了最佳的效果,明显优于其他方法。其中 rep-n, diversity 和 MAUVE 的最佳结果说明 MAGIC 生成的故事和人类文本更加接近。并且 MAGIC 在 coherence 和图文匹配一致性分数上显著优于其他的方法,说明 MAGIC 在综合利用了图片和文本标题的信息之后可以生成和标题信息更加相关的故事内容。人工评价的效果也显示 MAGIC 生成的故事在各个角度上均达到了最好的效果。
3.2.3 Case Study
如上图所示,MAGIC 可以有效的生成出和图片有关的信息。在第一个例子中,MAGIC 生成的故事包含了详细的冰淇凌的种类和味道,除了 orange 的结果稍有差异,其他的文本都完美符合图片中的描述。在第二个例子中,contrastive search 生成的结果和故事标题间相关度较差。与之相反,MAGIC 生成的内容和图片中的信息及主题高度相关,例如:1)和朋友们在沙滩;2)打沙滩排球;3)比赛持续了两个小时;4)朋友赢下了比赛。
参考文献
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧