让机器学会看图说话：Image Caption任务最新综述

Original 张一帆 PaperWeekly 2022-07-06

收录于合集

#最新综述 27 个

#计算机视觉 128 个

©PaperWeekly 原创 · 作者 | 张一帆

学校 | 华南理工大学本科生

研究方向 | CV，Causality

Abstract

联系视觉和语言在通用人工智能中起着至关重要的作用。因此近几年来大量的工作致力于图像字幕（image captioning），这项任务简而言之就是“使用语法和语义正确的语言描述图像”。

从 2015 年开始这项任务的 pipeline 就被分为了两部分，第一阶段即对图像特征进行编码，第二阶段生成语句。这两年来，随着对物体对象区域，属性，以及物体之间的关系的开发，和对多模态连接，全注意力方法以及像 BERT 一样的早期融合方法的引入，这两个阶段都得到了极大的发展。虽然性能是提升了，但是图像字幕依然没有得到一个“最终答案”。

这篇工作旨在提供一个综合性的概述以及对现有方法的分门别类，它的分类方式大概是根据如下方面的不同：1. 视觉编码；2. 文本生成；3. 训练策略；4. 数据集；5. 评测指标。

文中定量地比较了图像字幕很多模型，以此来找出最有影响力的网络结构和训练策略方面的技术革新。除此之外，文中还讨论了大量的变体方法和他们面临的挑战。这项工作的最终目标是作为一个工具来理解现有的最先进的技术，并强调计算机视觉和自然语言处理可以找到最佳协同的未来研究方向。

论文标题：

From Show to Tell: A Survey on Image Captioning

论文链接：

https://arxiv.org/abs/2107.06912

Introduction

图像字幕即使用自然语言描述图像，使用一个图像理解模块和一个自然语言生成模块。神经科学在近几年里阐述了人类语言和视觉之间的联系。同样的，在 AI 领域能够处理图像和生成语言的架构的设计是一个非常新的问题。这些研究工作的目标是找到最有效的 pipeline 来处理输入图像，表示其内容，并在保持语言流畅性的同时产生视觉元素和文本元素之间的联系，将其转换为单词序列。

在其标准配置中，图像字幕是一个图像到序列的问题，其输入是像素。在视觉编码步骤中，这些特征被编码为一个或多个特征向量，为第二个生成步骤（称为语言模型）准备输入。这就产生了一个根据给定词汇解码的单词或子单词序列。

在这几年里，研究团体对模型进行了很大的改进：从第一个基于深度学习的建议，采用循环神经网络（RNNs），通过卷积神经网络（CNN）提取全局图像描述，之后还引进了注意力和强化学习等方法。直到最近 transformer 和注意力机制取得了巨大突破，类似于 BERT 这种 single-stream 的方法开始兴起。

与此同时，计算机视觉和自然语言处理（NLP）社区已经解决了建立适当的评估协议和评估指标的挑战，以将结果与人工生成的 ground truth 进行比较。除此之外，研究人员还研究了几个领域特定的场景和任务的变体。然而，已经取得的成果还远未确定一个最优的解决方案。

根据字幕模型固有的两阶段性质，本文开发了视觉编码和语言建模方法的分类，重点关注它们的关键突破和局限性。本文还关注了过去几年文献中遵循的训练策略，从交叉熵损失到强化学习，以及预训练范式获得的最新进展。此外，本文回顾了用于研究图像字幕的主要数据集，从领域通用的基准测试到收集的领域特定的数据集，以调查问题的某些特殊方面，并分析用于性能评估的标准和非标准指标，这些指标捕获了产生的标题质量的不同方面。

这项工作的另一个贡献是对主要图像字幕方法的定量比较，其中考虑了标准和非标准指标，并讨论了它们之间的关系，揭示了最重要的模型的性能、差异和特征。最后，本文概述了该问题的许多变体，并讨论了一些开放的挑战和未来的方向。

Conclusion and Future Direction

图像字幕是机器智能面临的一个复杂挑战，因为它包含了了计算机视觉和自然语言生成两方面的困难。虽然大多数方法保持了图像编码和语言建模步骤的分离，但类似 BERT 架构的 single-stream 趋势需要对可视化数据和文本数据进行早期融合。这种策略可以让你取得出色的表现，但通常与大规模的预训练相结合。因此，添加了预处理的标准 img2seq 方法能否达到类似的效果是值得研究的。尽管如此，基于经典两阶段范式的方法更易于解释，无论是对模型设计者还是最终用户。

文献综述和实验比较表明，在过去的几年中图像字幕的性能有所改善。然而，由于准确性、稳健性和泛化结果远不能令人满意，许多开放的挑战仍然存在。同样，忠诚、自然和多样性的要求也没有得到满足。在这方面，由于图像字幕的构思是为了改善人机交互，将用户纳入循环这种思路是有希望的。基于以上分析，我们可以追踪到图像字幕领域的三个主要发展方向，下面将进行讨论。

3.1 Procedural and architectural changes

训练方式和模型架构的转换是提升性能的关键：

Large-scale vision-and-language pre-training: 由于图像字幕模型对数据的需求很大，在标准数据集的训练可能提升有限。因此，在大范围的视觉和语言数据集上进行预训练，虽然现在没有得到很好的管理，但它也是提高字幕能力的可靠策略。此外，可以设计新的预训练策略，以自监督的方式利用现有的数据。通过重建输入预测相关性，最终提高下游任务比如图像字幕的性能。
Novel architectures and training strategies：目前，图像字幕的最佳执行范式是自底向上范式，它利用对象检测器进行图像区域编码。尽管如此，研究工作探索了一种完全基于 transformer 的范例，其中图像 patch 直接应用于变 transformer 编码器，如最近流行的 ViT：Vision Transformer。虽然这第一次尝试的性能低于大多数以前的工作，但它表明这可能是一个有价值的未来方向。其他有前途的方向包括探索 Neural Architecture Search，以及将蒸馏机制应用于自回归模型。最后，一个有希望的探索方向是培训新目标函数的设计。特别是当强化学习进行时，可以考虑基于人类反馈或互动的奖励。

3.2 Focus on the open challenges

对不同领域的泛化和生成字幕的多样性和自然性的增加是图像字幕的主要挑战之一。

Generalizing to different domains：图像字幕模型通常是在数据集上训练的，这些数据集不能覆盖所有可能的现实场景，因此不能很好地概括到不同的上下文。例如上图中，有一些定性的结果存在明显的错误，这表明在处理罕见的视觉概念时存在困难。在这个方面仍需要进一步的研究努力，构建一个一个强大的视觉概念表示。此外，图像字幕变体的发展，如新奇物体字幕或可控制字幕可以帮助解决这个悬而未决的问题。这将是在特定应用中采用图像说明的战略，如医药、工业产品描述或文化遗产。
Diversity and natural generation：图像字幕模型应该产生具有三个属性的描述：语义忠实度，即反映实际的视觉内容；自然，即读起来就像是一个人写的一样；多样性，表达不同人会描述的明显不同的概念。然而，大多数现有的方法只强调语义忠实度。虽然本文讨论了一些工作尝试使用对比学习、变分自动编码器、词性标注来促进自然和多样性，但还需要进一步研究来设计适合现实应用的模型。

3.3 Design of trustworthy AI solutions

由于其在人机交互中的潜力，图像字幕需要的解决方案是透明的和最终用户可接受的，需要的框架可以产生可解释的结果，克服偏见，能够得到充分的评估。

The need for interpretability：人们可以自然地给出解释，强调证据，对他们的预测表达信心，也认识到在得出结论之前需要更多的信息。相反，现有的图像字幕算法缺乏可靠和可解释的方法来找到产生特定输出的原因。在这方面，一种可能的策略可以基于注意力的可视化，它松散地耦合单词预测和图像区域，表明相关性。然而，目前还需要进一步的研究来阐明模型的可解释性，重点是这些模型如何处理来自不同模态或新概念的数据。
Tackling datasets bias：由于大多数视觉和语言数据集共享共同的模式和规律，记录这些模式为算法提供了一条利用虚假相关性的捷径。因此，数据集因为人类文本注释或过度表示的视觉概念而产生的有偏差（bias）是任何视觉和语言任务的主要问题。这一主题已经在语言生成的背景下进行了研究，但在图像字幕中更具有挑战性，在图像字幕中必须考虑视觉和文本数据的联合歧义。从这个意义上说，应该对图像-描述对的公平性和有偏性进行研究。在这方面，两个可能的方向需要设计特定的评估指标和关注对虚假相关性的鲁棒性。
The role of evaluation：尽管在基准数据集上具有良好的性能，但在自然场景下（数据集更自然更复杂），最先进的方法还不令人满意。一个可能的原因是所使用的评价程序及其对目前采用的训练方法的影响。图像字幕算法被训练成模仿真实句子，这与理解视觉内容并将其表达为文本是不同的任务。因此，设计合适的、可重复的评估方案和有洞察力的指标在图像字幕中仍然是一个公开的挑战。此外，由于该任务目前被定义为有监督的任务，因此受到训练数据的强烈影响，开发不需要参考字幕来评估表现的分数将是转向无监督图像字幕的关键。

特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“上海王”柯庆施之死的真相

毕业论文辅导| 你又不是伞，硕士论文|毕业论文|博士论文|课题论文不行就被硬撑了,靠谱的辅导机构才是晴雨伞！

缺人：60r/次，立结~

让机器学会看图说话：Image Caption任务最新综述

3.2 Focus on the open challenges

3.3 Design of trustworthy AI solutions

您可能也对以下帖子感兴趣

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“上海王”柯庆施之死的真相

毕业论文辅导| 你又不是伞，硕士论文|毕业论文|博士论文|课题论文不行就被硬撑了,靠谱的辅导机构才是晴雨伞！

缺人：60r/次，立结~

生成图片，分享到微信朋友圈

让机器学会看图说话：Image Caption任务最新综述

3.2 Focus on the open challenges

3.3 Design of trustworthy AI solutions

您可能也对以下帖子感兴趣