让机器学会看图说话:Image Caption任务最新综述
©PaperWeekly 原创 · 作者 | 张一帆
学校 | 华南理工大学本科生
研究方向 | CV,Causality
Abstract
联系视觉和语言在通用人工智能中起着至关重要的作用。因此近几年来大量的工作致力于图像字幕(image captioning),这项任务简而言之就是“使用语法和语义正确的语言描述图像”。
从 2015 年开始这项任务的 pipeline 就被分为了两部分,第一阶段即对图像特征进行编码,第二阶段生成语句。这两年来,随着对物体对象区域,属性,以及物体之间的关系的开发,和对多模态连接,全注意力方法以及像 BERT 一样的早期融合方法的引入,这两个阶段都得到了极大的发展。虽然性能是提升了,但是图像字幕依然没有得到一个“最终答案”。
论文标题:
From Show to Tell: A Survey on Image Captioning
论文链接:
https://arxiv.org/abs/2107.06912
Introduction
图像字幕即使用自然语言描述图像,使用一个图像理解模块和一个自然语言生成模块。神经科学在近几年里阐述了人类语言和视觉之间的联系。同样的,在 AI 领域能够处理图像和生成语言的架构的设计是一个非常新的问题。这些研究工作的目标是找到最有效的 pipeline 来处理输入图像,表示其内容,并在保持语言流畅性的同时产生视觉元素和文本元素之间的联系,将其转换为单词序列。
在其标准配置中,图像字幕是一个图像到序列的问题,其输入是像素。在视觉编码步骤中,这些特征被编码为一个或多个特征向量,为第二个生成步骤(称为语言模型)准备输入。这就产生了一个根据给定词汇解码的单词或子单词序列。
根据字幕模型固有的两阶段性质,本文开发了视觉编码和语言建模方法的分类,重点关注它们的关键突破和局限性。本文还关注了过去几年文献中遵循的训练策略,从交叉熵损失到强化学习,以及预训练范式获得的最新进展。此外,本文回顾了用于研究图像字幕的主要数据集,从领域通用的基准测试到收集的领域特定的数据集,以调查问题的某些特殊方面,并分析用于性能评估的标准和非标准指标,这些指标捕获了产生的标题质量的不同方面。
Conclusion and Future Direction
图像字幕是机器智能面临的一个复杂挑战,因为它包含了了计算机视觉和自然语言生成两方面的困难。虽然大多数方法保持了图像编码和语言建模步骤的分离,但类似 BERT 架构的 single-stream 趋势需要对可视化数据和文本数据进行早期融合。这种策略可以让你取得出色的表现,但通常与大规模的预训练相结合。因此,添加了预处理的标准 img2seq 方法能否达到类似的效果是值得研究的。尽管如此,基于经典两阶段范式的方法更易于解释,无论是对模型设计者还是最终用户。
3.1 Procedural and architectural changes
Large-scale vision-and-language pre-training: 由于图像字幕模型对数据的需求很大,在标准数据集的训练可能提升有限。因此,在大范围的视觉和语言数据集上进行预训练,虽然现在没有得到很好的管理,但它也是提高字幕能力的可靠策略。此外,可以设计新的预训练策略,以自监督的方式利用现有的数据。通过重建输入预测相关性,最终提高下游任务比如图像字幕的性能。 Novel architectures and training strategies:目前,图像字幕的最佳执行范式是自底向上范式,它利用对象检测器进行图像区域编码。尽管如此,研究工作探索了一种完全基于 transformer 的范例,其中图像 patch 直接应用于变 transformer 编码器,如最近流行的 ViT:Vision Transformer。虽然这第一次尝试的性能低于大多数以前的工作,但它表明这可能是一个有价值的未来方向。其他有前途的方向包括探索 Neural Architecture Search,以及将蒸馏机制应用于自回归模型。最后,一个有希望的探索方向是培训新目标函数的设计。特别是当强化学习进行时,可以考虑基于人类反馈或互动的奖励。
3.2 Focus on the open challenges
对不同领域的泛化和生成字幕的多样性和自然性的增加是图像字幕的主要挑战之一。
Generalizing to different domains:图像字幕模型通常是在数据集上训练的,这些数据集不能覆盖所有可能的现实场景,因此不能很好地概括到不同的上下文。例如上图中,有一些定性的结果存在明显的错误,这表明在处理罕见的视觉概念时存在困难。在这个方面仍需要进一步的研究努力,构建一个一个强大的视觉概念表示。此外,图像字幕变体的发展,如新奇物体字幕或可控制字幕可以帮助解决这个悬而未决的问题。这将是在特定应用中采用图像说明的战略,如医药、工业产品描述或文化遗产。
Diversity and natural generation:图像字幕模型应该产生具有三个属性的描述:语义忠实度,即反映实际的视觉内容;自然,即读起来就像是一个人写的一样;多样性,表达不同人会描述的明显不同的概念。然而,大多数现有的方法只强调语义忠实度。虽然本文讨论了一些工作尝试使用对比学习、变分自动编码器、词性标注来促进自然和多样性,但还需要进一步研究来设计适合现实应用的模型。
3.3 Design of trustworthy AI solutions
由于其在人机交互中的潜力,图像字幕需要的解决方案是透明的和最终用户可接受的,需要的框架可以产生可解释的结果,克服偏见,能够得到充分的评估。
The need for interpretability:人们可以自然地给出解释,强调证据,对他们的预测表达信心,也认识到在得出结论之前需要更多的信息。相反,现有的图像字幕算法缺乏可靠和可解释的方法来找到产生特定输出的原因。在这方面,一种可能的策略可以基于注意力的可视化,它松散地耦合单词预测和图像区域,表明相关性。然而,目前还需要进一步的研究来阐明模型的可解释性,重点是这些模型如何处理来自不同模态或新概念的数据。
Tackling datasets bias:由于大多数视觉和语言数据集共享共同的模式和规律,记录这些模式为算法提供了一条利用虚假相关性的捷径。因此,数据集因为人类文本注释或过度表示的视觉概念而产生的有偏差(bias)是任何视觉和语言任务的主要问题。这一主题已经在语言生成的背景下进行了研究,但在图像字幕中更具有挑战性,在图像字幕中必须考虑视觉和文本数据的联合歧义。从这个意义上说,应该对图像-描述对的公平性和有偏性进行研究。在这方面,两个可能的方向需要设计特定的评估指标和关注对虚假相关性的鲁棒性。
The role of evaluation:尽管在基准数据集上具有良好的性能,但在自然场景下(数据集更自然更复杂),最先进的方法还不令人满意。一个可能的原因是所使用的评价程序及其对目前采用的训练方法的影响。图像字幕算法被训练成模仿真实句子,这与理解视觉内容并将其表达为文本是不同的任务。因此,设计合适的、可重复的评估方案和有洞察力的指标在图像字幕中仍然是一个公开的挑战。此外,由于该任务目前被定义为有监督的任务,因此受到训练数据的强烈影响,开发不需要参考字幕来评估表现的分数将是转向无监督图像字幕的关键。
特别鸣谢
感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧