ECCV 2024 | 北大提出全新多模态提示学习方法，让MLLM更懂人类

雷廷 PaperWeekly

2024-09-03

©作者 | 雷廷

单位 | 北京大学王选所

只用提示词，多模态大模型就能更懂场景中的人物关系了。

北京大学最新提出多模态提示学习（Conditional Multi-Modal Prompt, CMMP）方法，利用提示词工程技术教会多模态大模型理解区域级的人物交互关系。

论文题目：

Exploring Conditional Multi-Modal Prompts for Zero-shot HOI Detection

项目主页：

https://sites.google.com/view/eccv24-cmmp/

论文链接：

https://arxiv.org/abs/2408.02484

代码链接：

https://github.com/ltttpku/CMMP

在这个过程中，最难的部分在于教会模型识别未见过的人物交互类型。要知道，大多数现有研究都集中在封闭环境，一旦变成更接近现实的开放环境，模型就懵逼了！比如下图，先前的检测器在平衡已见和未见类别时遇到了困难，导致调和平均值较低，并且在未见类别上的表现较差。相比之下，CMMP 方法有效解决了这一平衡问题，大幅提升了性能，并为未见类别建立了新的最佳性能。

至于 CMMP 方法如何解决未见类别，一句话：在特征提取过程中使用视觉空间线索，帮助识别未见的人物-物体交互概念，并通过条件提示学习提高对未见类别的泛化能力。

总之，CMMP 方法提供了一种新的范式，可以微调多模态大模型，使其具备泛化的区域级人物交互关系检测能力。以上研究来自北大王选计算机技术研究所，相关论文已被顶会 ECCV 2024 接收。

零样本人物交互检测新框架

团队提出了一种使用 CMMP 进行零样本 HOI（Human-Object Interaction）检测的新框架。

具体来说，CMMP 将零样本人物交互检测分为两个子任务：

交互性感知的视觉特征提取
可泛化的交互分类

然后为每个子任务分别提出了解耦的视觉和文本提示，以消除它们之间的依赖性并缓解错误传播。条件视觉提示（）用于将空间和交互性感知的知识注入图像编码器，并通过实例级视觉先验（）和交互的全局空间模式（）进行约束。条件语言提示（）通过正则化损失受人设计的提示（）的约束。

交互性感知的视觉特征提取

团队采用的多模态模型的图像编码器最初通过对大规模图像-文本对进行对比学习预训练（CLIP），其能力可能仅限于理解图像级的一阶语义。为了使图像编码器能够区分图像中所有的人物交互性，团队提出将不同粒度的先验知识整合到条件视觉提示中，使其理解为人物交互关系检测任务定制的区域级二阶语义。

具体来说，研究人员将实例级信息作为先验知识融入条件视觉提示中。给定输入图像，首先使用预训练的物体检测器获取所有实例级先验知识，包括边界框、置信度分数和检测到的实例的语义编码。

此外，为了鼓励每个实例意识到其潜在的交互对象，团队将训练集中交互的全局空间模式（Global Spatial Pattern）与实例级先验知识（Instance-level Visual Prior）结合。具体来说，对于每个标注的交互人物对，研究人员首先计算其一元和二元空间特征。随后，使用K-means聚类算法确定聚类中心，并将其用作交互人物对的代表性空间模式。

全局空间交互模式提供了一种类别无关的代表性空间配置，作为理解已见和未见人物交互概念之间交互性的桥梁。最终，研究人员将结合后的知识通过轻量级适配器融入到图像编码器中。

可泛化的交互分类

为了在学习人物交互检测任务特定表示的同时保留 CLIP 的可泛化通用知识，团队在文本分支中采用了带有一致性约束的语言感知提示学习（Language-aware Prompt Learning）。

该约束确保已见和未见类别的学习原型（Prototype）之间保持合理的分离边界，不会彼此过度偏离。具体来说，对于每个动作类别，研究人员首先使用人工设计的提示对其进行格式化。利用可学习的上下文词充当已见和未见类别语义之间的桥梁。类别的最终表示通过将可学习的上下文词与上述句子的词向量拼接，然后通过文本编码器获得。

为了进一步利用多模态模型文本编码器本身学习到的特征空间并提高对未见类别的泛化能力，研究人员提出使用人工设计的提示来指导可学习语言提示的特征空间。该约束确保已见和未见类别的原型之间保持合理的分离边界，不会彼此过度偏离。团队应用正则化对比学习损失来减少特征表示与人工设计语言提示的特征表示之间的差异。

训练CMMP

基于交互性感知的特征图和预训练物体检测器提取的人和物体的边界框，团队首先应用 ROI-Pooling 来提取不同区域的特征。然后，将不同区域提取的特征进行融合，并通过交互分类器进行最终的交互类别预测。整个模型在交互分类训练中使用了 focal loss，同时还应用了语言正则化损失。

实验结果

通过利用 ViT-L/14 骨干网来扩展 CMMP 以匹配 CLIP4HOI 的 FLOPs，新方法在所有划分中都取得了最佳性能。这表明团队的模型在视觉特征的空间关系提取和交互分类的原型学习方面具有卓越的能力。

此外，先前的方法在已见和未见类别之间表现出严重的性能差异，表明其缺乏泛化能力。而本研究的模型能够在很大程度上缓解这一问题，并且在泛化到以前未见的交互类别方面具有很高的潜力，这证实了带有约束的多模态提示的有效性。完整实验请参考原论文。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

修改于

继续滑动看下一个

PaperWeekly

向上滑动看下一个

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

中国紫砂博物馆出品！2025紫砂五福杯：五福云集，宜藏宜礼！

央视罕见表扬，美哭3亿人：璀璨中国史，正在走向全世界

亲密关系中，比“不爱了”更残酷的，是这3种相处模式

ECCV 2024 | 北大提出全新多模态提示学习方法，让MLLM更懂人类

零样本人物交互检测新框架

实验结果

您可能也对以下帖子感兴趣

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

中国紫砂博物馆出品！2025紫砂五福杯：五福云集，宜藏宜礼！

央视罕见表扬，美哭3亿人：璀璨中国史，正在走向全世界

亲密关系中，比“不爱了”更残酷的，是这3种相处模式

生成图片，分享到微信朋友圈

ECCV 2024 | 北大提出全新多模态提示学习方法，让MLLM更懂人类

零样本人物交互检测新框架

实验结果

您可能也对以下帖子感兴趣