查看原文
其他

AAAI 2023|基于视觉感知的常识知识获取

社媒派SMP 社媒派SMP 2022-12-16
标题:Visually Grounded Commonsense Knowledge Acquisition录用会议:AAAI 2023作者:Yuan Yao, Tianyu Yu, Ao Zhang, Mengdi Li, Ruobing Xie, Cornelius Weber, Zhiyuan Liu, Haitao Zheng, Stefan Wermter, Tat-Seng Chua, Maosong Sun单位:清华大学,新加坡国立大学,汉堡大学,腾讯



研究动机


大规模的常识性知识库促进了许多人工智能应用,如计算机视觉、自然语言处理。常识知识的自动获取(CKE)因此成为了一个重要而具有挑战性的问题。基于文本进行常识知识的自动获取通常受限于文本中常识的稀疏性和报告偏差。相比而言,视觉感知提供了关于现实世界实体的丰富的常识知识,例如(人-可以抓握-瓶子)。在本工作中,我们提出将基于视觉感知的常识获取定义为一个远程监督的多样本学习任务(图 1),模型可以在不依赖任何图像中实体关系标注的情况下,从包含特定实体对(比如 -瓶子)的大量图片中总结出实体之间的常识关系(比如 可以抓握)。




先导实验


我们首先构建了一个常识获取基准数据集,并在此上进行了大量的先导实验来研究已有方法的效果。分析实验结果(图2),我们发现基于文本的方法和对预训练语言模型的查询表现很差(RTP, LAMA),这是因为文本中常识知识的稀疏性,通过对预训练语言模型进行微调,我们发现模型取得了较好的效果(Prompt-FT, Vanilla-FT);另外,视觉感知能够提供丰富的信息,直接基于平均归纳进行多样本学习就可以取得所测方法中最高的性能(AVG);实验结果也验证了多样本学习对于可以规模化的自动常识知识获取是必要的,因为图片关系抽取模型(VRD)尽管利用了更多的图像标注却难以取得可比的性能;目前的多样本学习算法并不能解决CKE问题,这些算法整体的性能表现还不够好(ONE, ATT, AVG)。值得注意的是,尽管在基于文本的世界知识中 ONE 和ATT取得了不错的效果,它们在CKE上的表现却非常差。我们认为这是由于常识知识相比于世界知识要更为复杂,许多细粒度的关系之间存在语义重叠(站在上方行走在上方)和上下位词冲突(在上方站在上方)的问题。




解决方案


我们设计了CLEVER框架(图3)来利用视觉语言预训练模型深度理解每一张输入图片,然后使用对比性注意力机制从这些图片中选择对于常识抽取而言有效信息丰富的实例,进而归纳出实体对之间的常识关系。
具体来说,为了对每张输入图片中的实体交互进行深度理解,我们将图片中所有物体的图像特征和对应类别名称输入给预训练视觉语言模型进行编码。在此基础上,我们将物体的图像特征输出和类别特征输出结合起来作为物体特征,之后将待抽取实体关系的两个类别的物体特征结合起来就得到了图片级别的深度理解。最后,通过应用我们设计的对比性注意力机制将所有候选的实体关系作为查询特征,我们为每一个关系类别构建了一个基于关系的图像集合注意力分布来归纳所有输入图像的特征。相比于传统的注意力机制,对比性注意力机制显式建模了正确实体关系和错误实体关系之间的对比损失,从而减轻了常识知识复杂性导致的语义重叠和上下位词冲突带来的影响。




主要实验结果


1. 相比于其他方法,CLEVER在多个指标上获得了更高的自动常识获取性能。(表1)2. 相比于基于文本的常识获取和基于预训练模型的常识获取,CLEVER抽取的常识知识在人工评测中取得了显著的优势。(图4)另外,CLEVER的常识可靠度分数与人工打分结果取得了 0.78 这样高的斯皮尔曼相关系数,证明了CLEVER的抽取结果和人类判断的一致性。3. 所提出的对比性注意力机制可以从大量图片中选择出对于常识知识获取而言更具信息量的样本,这些样本可以作为知识库中的证据从而提供更具可解释性的常识抽取结果。(图5)4. 从CLEVER抽取出的常识知识(表4)中可以看出模型能够获取许多现有知识库中不存在的常识知识。


总结:在该工作中,我们将自动常识知识获取定义为一个基于图片的远程监督的多样本学习任务,并提出了一个相应的框架来解决此问题。模型通过利用预训练视觉语言模型对每张输入图片进行深度理解,并基于提出的对比性注意力机制总结所有图片的信息从而归纳出最终的常识知识。大量实验证明了方法的有效性。



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存