AAAI 2023 | 多模态对话的SPRING来了!无需标注就能做多模态问答预训练
©PaperWeekly 原创 · 作者 | 龙宇星
单位 | 北京邮电大学
引言
在复杂场景中,简单的指代描述(如“黑色夹克”)常常会造成相似物品间的歧义,此时我们倾向于使用详细的视觉属性和涉及背景物体的相对方位关系(如“最左边落地衣架上有竖直条纹的黑色夹克”)来无歧义地指代场景中的具体物品。
为了解决这一问题,我们提出了递增布局图(Incremental Layout Graph)和多模态问答(Multimodal Question Answering)预训练任务。我们从对话历史中抽取物品的视觉属性和方位信息来生成每一张场景图像对应的布局图,这些布局图以物品信息为节点,方位关系为边,可随新信息的加入而不断扩增。凭借递增布局图和自然语言模板即可无需人工标注,快速生成大量不同类型的多模态问答对(Question Answering Pair)用于多模态问答预训练。
论文题目:
SPRING: Situated Conversational Agent Pretrained with Multimodal Questions from Incremental Layout Graph
https://arxiv.org/abs/2301.01949
https://github.com/LYX0501/SPRING
方法
为此我们设计了递增布局图生成算法,从对话历史中抽取物体的视觉属性和方位信息,为每一张场景图像生成布局图来刻画场景物体,下图展示递增布局图的生成过程。
如图左侧所示,我们根据语言语法特点设计针对视觉属性和方位描述的正则化表达式,利用这些表达式可以从对话历史中抽取到天然对齐的数字资产视觉属性(如“pink t-shirt”)和方位描述(如“in the top row on the back display wall”)。正则化表达式中 article,positional preposition 和 punctuation 来自牛津字典,color,asset type 和 background item 来自数据集领域知识。
通过抽取到的视觉属性可以在结构化数据中查询物体 ID 和边界框信息,并以物体(包括数字资产和背景物体)作为节点,方位关系作为边形成如图中间部分所示的布局子图,关于同一场景的布局子图可以构成最右侧的完整布局图。每一张布局图都涵盖了场景图像中物体的视觉属性和相对位置关系,并可以随新加入的布局子图而不断递增。
我们定义 Q(·) 为填充问题模板的函数,A 为问题所对应的答案,Type 为视觉属性类型,ID 为数字资产 ID,I 为场景图像,BBox 为数字资产边界框坐标,t_sr 为方位关系,t_va 为视觉属性,t_bi 为背景物体,并分别介绍六种不同类型的多模态问答预训练任务。
纯视觉问答(PVQA):该任务的目的是帮助多模态对话助理建立物体 ID 和对应视觉属性之间的联系,问答对可通过布局图中数字资产节点的 ID 和视觉属性来填充 Pure Visual QA 模板生成。PVQA 任务的优化目标为
根据填充模板时在布局图上跨越的节点数量,可以自动为每个问答对生成难度标签(如跨越两个节点则难度标签为“2”)。不同类型预训练任务的输入和输出如下图所示, 黄色方框中的数字即为问答对的难度标签。
实验
我们在复杂场景下的多模态对话数据集 SIMMC1.0 和 SIMMC 2.0 响应生成任务上展开评测实验。在包括 BLEU-4,METEOR,ROUGE,CIDEr 在内的七个广泛使用的自动化评价指标上,通过我们预训练方法得到的 SPRING 多模态对话助理大幅超越原来的 SOTA 模型。
我们在 SIMMC 2.0 数据集上对原 SOTA 模型 DialVinVL,GLIMMeR 以及 SPRING 进行了人工评测,评测从 Fluency,Relevance,Correctness 以及 Informativeness 四个方面展开,按照 1~5 进行评分。
未来展望
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧