近几年(2019年以来),可控图片描述生成(Controllable Image Captioning)和可控视频描述生成(Controllable Video Captioning)主题下出现了一系列的工作,它们提出了多种多样的控制信号,包括Part-Of-Speech, Length,Regions,Object words, Abstract Scene Graphs, Semantic Roles,Questions, Mouse track等等。下面我们将结合论文出现的年份,整理这些论文使用的控制信号和提出动机。1)可控的图像描述生成[CVPR 2019] Fast, Diverse and Accurate Image Captioning Guided By Part-of-Speech控制信号:句子中单词的词性Part-of-speech动机:Image captioning是一个模糊的任务,一张图片有很多种合适的caption。为了解决这种模棱两可性,可以使用beam search来生成多句caption,但是它的计算复杂度比较高。本文先对图片生成一种有意义的summary(part-of-speech),然后再指导生成caption。[ECCV 2020] Length-Controllable Image Captioning控制信号:句子长度,句子越短内容越简洁、句子越长包含的细节(形容词词组)越多动机:句子的长度能反映一个句子中包含的信息量,可以通过控制句子的长度来控制生成比较粗糙的或者精细的句子。优势是 controllability & diversity & decode efficiency (用了non-autoregressive模型)[CVPR 2019] Show, control and tell: A framework for generating controllable and grounded captions.控制信号:视觉特征 a sequence or set of image regions (多个image regions)如下图所示动机:一图胜千言,根据不同的目标和上下文,可以有无数种方式去描绘一张图片。提出了一个新的框架,输入一系列图片区域,能够实现grounding and controllability。[CVPR 2019] Intention oriented image captions with guiding objects控制信号:a human-concerned object(单词形式),生成的句子中要包含这个object。动机现有的image captioning模型不能保证用户关注的object一定出现在生成句子中,尤其是图片中不起眼的object或者是训练集中没出现过的novel object。可以生成更 comprehensive 和 diverse 的描述,在描述 novel objects方面更有优势。[COLING 2020] Language-driven region pointer advancement for controllable image captioning.控制信号: region pointer,即指定图中几个regions + 每个region出现的次序[CVPR 2020] Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs控制信号:Abstract Scene Graph(ASG) 抽象的语义图ASG中一共包含三种抽象节点:物体(object),属性(attribute),关系(relationship)。可以自动地/人工指定一个ASG作为控制信号,例如下图中,指定该图对应的ASG中有两个object节点、一个relation节点、左边object又有两个attribute节点、右边object有一个attribute节点。生成的文本需要满足ASG的结构去具体描述该图片。动机经典的图像描述生成任务没有考虑用户感兴趣的图片内容,以及生成描述的粒度粗细。已有的可控图像描述生成任务,将图像区域或者词性等作为控制信号,只能在粗粒度的层面进行控制。为了解决这些问题,本文提出了ASG作为控制信号,能进行更细粒度、精细化的控制。[CVPR 2021] Human-like Controllable Image Captioning with Verb-specific Semantic Roles控制信号:Verb-specific Semantic Roles (VSR) 动词为中心的语义角色动机:已有的相关工作忽略了控制信号的两个原则:1)Event-compatible,即生成句子中的视觉内容要围绕同一个事件(activity);2)Sample-suitable,即控制信号要和输入的图片样例相适配。为了满足这两个原则,本文提出了一种新的控制信号VSG,定义了一个目标的事件,以及涉及到该事件中的语义角色(semantic roles)。[ACMMM 2021] Question-controlled Text-aware Image Captioning.控制信号:human language 用户提出的一个问题,句子形式动机对于一张包含很多场景文字的图片,不同的人可能对不同的文本信息感兴趣。对于视障人群来说,一种渐进式的描述方式是更容易接受的,如上图,机器先自动为他们描述一幅图的整体内容,然后他们可以根据自己的兴趣点继续提问得到更多对应的细节描述(coarse-to-fine)。相比于现有的controllable image captioning工作,使用object tokens、image regions、abstract scene graphs等作为控制信号,使用问题这种自然语言的形式,对盲人更加友好和灵活,他们不需要事先知道图片中有哪些object、regions。根据question作为控制信号,能够生成更有信息量(informative)、丰富(diverse)的描述生成[ACL 2021] Control Image Captioning Spatially and Temporally控制信号:mouse trace 鼠标轨迹用户关注图像的哪个部分,就将鼠标移到哪个部分,根据图像+鼠标轨迹生成对应的图像描述段落。动机:用鼠标控制图片描述生成,在实际应用中是一种更自然的交互方式,用户可以很容易地移动鼠标让AI Agent自动描述对应的视觉内容,尤其是能更好地帮助视觉障碍的人群。2)可控的视频描述生成[ICCV 2019] Controllable Video Captioning with POS Sequence Guidance Based on Gated Fusion Network控制信号:句子中单词词性Part-of-Speech (POS)动机:在decoder部分进行语法的控制,可以提升生成描述的质量,还可以提升diversity。[ACMMM 2020] Controllable Video Captioning with an Exemplar Sentence控制信号:exemplar sentence 样例句子输出的caption要保持和样例句子一样的句法(语法结构层面的控制)动机:输入不同的样例句子,就能生成不同的captioning输出,能增强视频描述的diversity。[ACL Findings 2021] O2NA: An Object-Oriented Non-Autoregressive Approach for Controllable Video Captioning控制信号:objects,生成的caption里面要提到desired objects动机:提出了一个更难的问题,controllable video captioning比controllable image captioning更难,希望能生成更多样的视频描述,且有更快的inference speed。