ICLR 2024 | 量化和增强模态偏好影响下的多模态鲁棒性

杨泽群 PaperWeekly

2024-08-23

©作者 | 杨泽群

单位 | 人大高瓴GeWu-Lab

论文题目：

Quantifying and Enhancing Multi-modal Robustness with Modality Preference

论文链接：

https://arxiv.org/abs/2402.06244

代码链接：

https://github.com/GeWu-Lab/Certifiable-Robust-Multi-modal-Training

概述

尽管多模态学习能够很好的整合来自不同源的信息，其仍然不可避免地容易受到各种扰动的影响。为了提高模型的鲁棒性，我们分析多模态学习中的影响鲁棒性的关键部分，包括单模态表示的边缘大小和模态间的可靠整合。通过理论分析，我们发现较大的单模态表示边缘和更可靠的模态整合对于提高鲁棒性至关重要。

进一步地，我们探讨了多模态模型对特定模态的偏好如何限制了模型的鲁棒性，并可能导致对特定模态的攻击特别有效（如下图所示）。为了解决这一问题，我们提出了一种名为 Certifiable Robust Multi-modal Training (CRMT) 的训练过程。CRMT 通过减轻模态偏好的影响，并明确调整关键组成部分，从而可以可信地提高模型的鲁棒性。

此外，我们实验验证了 CRMT 方法在面对单模态和多模态攻击时的性能和鲁棒性的显著提升。此外，CRMT 方法还可以轻松扩展以增强其他鲁棒训练策略，显示了其可信度和灵活性。

▲ 图1 在 Kinetics Sounds 数据集上，不同多模态训练方法在不同半径下 ℓ_2-PGD 攻击下的准确性。结果表明，对于两个模态攻击效果差异明显，而对于特定模态 #a 的攻击效果更好（左图），而我们的方法（右图）可以显著缓解这一问题。

多模态鲁棒性定义与分析

学习框架

本文考虑了一个通用的 K 分类问题，其中输入样本由两个模态组成，即，并且有一个真实的标签。为了整合这两种模态的信息，最常用的方法是联合学习 [1]。

在这个范式中，每种模态数据首先通过一个模态特定的编码器转换成一个表示向量。这些表示向量随后被 concatenate，并通过一个线性分类器进行分类，分类器由权重矩阵和偏置参数化，其中我们有：

其架构的具体形式如下图左所示：

▲ 图2. 左图为传统多模态联合学习框架，而右图为我们的框架，其将正交性引入每个单模态分类器中。

多模态鲁棒性评估

在实际应用中，模型可能会遇到各种扰动，例如数据攻击或模态缺失。为了评估模型在这些扰动下的鲁棒性，需要定义一个量化指标。本文使用了鲁棒性半径的概念 [2]，它表示将样本从正确分类变为错误分类所需的最小扰动大小。具体来说，对于一个正确分类的样本，鲁棒半径是最小的范数扰动，使得经过扰动后的样本被分类到与真实标签最近的错误类别。

其中，其条件指点落在多模态决策平面上。鲁棒半径可以反应模型对扰动的敏感程度，同时，一个高鲁棒性的模型应该具有较大的鲁棒性半径，意味着即使在面对扰动时也能保持稳定的性能。

多模态鲁棒性分析

在前文的发现中，我们观察到了两个模态的鲁棒性差异；在这里我们引入单模态间隔作为指标来区分不同模态。

间隔理论

给定单模态编码器和分类器，真实标签和其他标签之间（特征空间上）的间隔定义为：

因此，考虑上述决策边界，其可以写成下式：

我们观察到该多模态决策边界可以描述为扰动样本的不同单模态间隔与因子的结合，以及常数项。我们通过描述间隔的 Lipschitz 常数，可以刻画出上面所说的鲁棒半径。

根据上文定义，可以得到关于多模态鲁棒半径的下界：

基于上面的界，我们可以推断多模态鲁棒性依赖于三个主要因素：单模态表示边缘、整合系数和偏置差。我们发现鲁棒半径随单模态表示边缘呈正比例关系；而整合系数则需要同时考虑与单模态边缘和Lipschitz常数以提高鲁棒性；而当样本受到扰动时，偏置差项只依赖于类别和而不是具体的样本，其保持不变（不考虑）。

因此，我们分析发现更大的单模态边缘和更合理的模态整合是实现鲁棒性的两个关键。在接下来的部分中，我们将分析在模态偏好情况下，这两个关键组成部分如何变化，从而影响多模态模型的鲁棒性。

对于模态偏好的分析

模态偏好是广泛存在的现象 [3,4]，在多模态学习中，模型非常容易偏好某一个模态，并被其主导。当模型在一个偏好的模态中学到足够可靠的信息时，它就难以从其他模态中学习更多信息，导致其他模态的单模态表示间隔变窄，限制了多模态模型的鲁棒性。

其次，模态偏好导致模型决策高度依赖特定模态，这意味着在模态整合时，偏好的模态会有更大的整合系数，可能放大单模态边缘在多模态决策中的变化。如果模型偏好的是一个易受攻击的模态，那么对这个偏好但易受攻击的模态的扰动会导致多模态边缘的变化更大，这在决策中会被进一步放大。

为了量化这种易受攻击性，文章定义了一个新的指标，当模型偏好易受攻击的模态时，这个指标会出现显著的不平衡。因此，多模态鲁棒性高度依赖于具有较大易受攻击性指标的模态。这表明，只需针对易受攻击的模态进行攻击就足以使模型失效。

此外，还提供了在单模态攻击情况下多模态鲁棒性的下界，表明不同单模态扰动的下界具有相同的分子，即易受攻击性指标，但分母不同。在偏好的模态上，该易受攻击性指标较大，这样会影响对该模态的扰动下界，使得对这种偏好模态的攻击更加有效，这也解释了之前讨论的观察结果。

方法介绍

直观而言，我们只需要增大单模态表征间隔和调整模态的整合系数就可以实现良好的鲁棒性。然而，在多模态学习中，这二者在模型中是耦合的，因此难以进行直接的调控。因此我们在分类器中引入了正交性 [5]，从而可以将二者拆解开来，以便实现针对性的调整。

如图 2 右所示，我们令为单位正交向量，其相互正交；并且引入权重来引导模型关注更可信的模态。因此，单模态表示的学习和模态的整合可以解耦。在这里，第类对应的分数可以表示为：

其同样能够再此基础上定义间隔，Lipschitz 常数并推导出鲁棒半径的下界。

在这基础上，我们采用两步的策略，对于影响鲁棒性的两个因素进行针对性的调节：

第一步，对于单模态的间隔进行针对性的调控和提升，其目标为：

第二步，调整模态的整合系数，其目标为最小化鲁棒半径的下界。

实验结果

我们在 Kinetics-Sounds，UCF101 和 VGGSound 三个数据集上进行了实验。在这里，我们选取了两种类型的对比方法：第一组方法解决由模态偏好引起的不平衡问题，包括梯度混合（GB）、即时梯度调制（OGM）和原型模态重平衡（PMR）。第二组方法专注于提高多模态鲁棒性，包括多模态对抗训练（MMAT）、多模态混合（Mixup）和最小相似性+指数记忆（MSEFM）。

我们的方法可以扩展到不同的训练策略，分别表示为与联合训练结合的可证明鲁棒多模态训练（CRMT-JT）、与对抗训练结合的 CRMT（CRMT-AT）和与混合训练结合的 CRMT（CRMT-Mix）。在多模态攻击方法方面，我们沿用了以往的工作，选择了 FGM 和 -PGD 作为两种攻击手段；而对于单模态攻击而言，我们还加入了模态缺失作为攻击方法。

实验结果如下面的图和表所示：

▲ 表1. 多模态对抗准确率的测试，显示出基于 CRMT 的方法可以提高性能和鲁棒性。

▲ 表2. 在 KS 数据集上针对不同单模态攻击方法的性能比较

▲ 表3. 将我们方法应用于基于Transformer的多模态融合方法的实验

▲ 图3. 我们方法在易受攻击指标上的改进，验证了我们方法缓解不同模态鲁棒性差异大的原因。

总结和思考

本文主要探究了多模态模型在不同模态攻击时其鲁棒性不同的现象，并且从模态偏好的角度来进行了解释，并发现单模态表征间隔和多模态整合系数是两个影响模型鲁棒性的重要因素。此外，我们还改进了多模态架构，并设计了算法以可信地提升了多模态模型的鲁棒性。

总的来说，本文在联合学习的框架下，对于多模态模型在不同单模态的鲁棒性不同的现象进行了发现和解决。然而，在更复杂的多模态融合架构基础上，如何能设计更强的，结合多模态特点的攻击以及实现更好的多模态鲁棒性，这仍然是一个开放性的问题。其中，在复杂架构下对单一模态进行针对性的评估和调控可能会是一个主要的难题。

参考文献

[1] Y. Huang, J. Lin, C. Zhou, H. Yang, and L. Huang, “Modality competition: What makes joint training of multi-modal network fail in deep learning?(provably),” in International Conference on Machine Learning. PMLR, 2022, pp. 9226–9259.

[2] Y. Tsuzuku, I. Sato, and M. Sugiyama, “Lipschitz-margin training: Scalable certification of perturbation invariance for deep neural networks,” Advances in neural information processing systems, vol. 31, 2018.

[3] I. Gat, I. Schwartz, and A. Schwing, “Perceptual score: What data modalities does your model perceive?” Advances in Neural Information Processing Systems, vol. 34, pp. 21 630–21 643, 2021.

[4] N. Wu, S. Jastrzebski, K. Cho, and K. J. Geras, “Characterizing and overcoming the greedy nature of learning in multi-modal deep neural networks,” in International Conference on Machine Learning. PMLR, 2022, pp. 24 043–24 055.

[5] L. Huang, X. Liu, B. Lang, A. Yu, Y. Wang, and B. Li, “Orthogonal weight normalization: Solution to optimization over multiple dependent stiefel manifolds in deep neural networks,” in Proceedings of the AAAI Conference on Artificial Intelligence, vol. 32, no. 1, 2018.

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

继续滑动看下一个

PaperWeekly

向上滑动看下一个

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

为了这部描述从“反右”到“文革”的禁片，田壮壮付出了十年不能拍片的代价

关于字节基建

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

中国紫砂博物馆出品！2025紫砂五福杯：五福云集，宜藏宜礼！

ICLR 2024 | 量化和增强模态偏好影响下的多模态鲁棒性

多模态鲁棒性定义与分析

学习框架

本文考虑了一个通用的 K 分类问题，其中输入样本由两个模态组成，即，并且有一个真实的标签。为了整合这两种模态的信息，最常用的方法是联合学习 [1]。

在这个范式中，每种模态数据首先通过一个模态特定的编码器转换成一个表示向量。这些表示向量随后被 concatenate，并通过一个线性分类器进行分类，分类器由权重矩阵和偏置参数化，其中我们有：

多模态鲁棒性评估

实验结果

总结和思考

您可能也对以下帖子感兴趣

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

为了这部描述从“反右”到“文革”的禁片，田壮壮付出了十年不能拍片的代价

关于字节基建

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

中国紫砂博物馆出品！2025紫砂五福杯：五福云集，宜藏宜礼！

生成图片，分享到微信朋友圈

ICLR 2024 | 量化和增强模态偏好影响下的多模态鲁棒性

多模态鲁棒性定义与分析

学习框架

本文考虑了一个通用的 K 分类问题，其中输入样本 由两个模态组成，即 ，并且有一个真实的标签 。为了整合这两种模态的信息，最常用的方法是联合学习 [1]。

在这个范式中，每种模态数据首先通过一个模态特定的编码器 转换成一个表示向量。这些表示向量随后被 concatenate，并通过一个线性分类器进行分类，分类器由权重矩阵 和偏置 参数化，其中我们有：

多模态鲁棒性评估

实验结果

总结和思考

您可能也对以下帖子感兴趣

本文考虑了一个通用的 K 分类问题，其中输入样本由两个模态组成，即，并且有一个真实的标签。为了整合这两种模态的信息，最常用的方法是联合学习 [1]。

在这个范式中，每种模态数据首先通过一个模态特定的编码器转换成一个表示向量。这些表示向量随后被 concatenate，并通过一个线性分类器进行分类，分类器由权重矩阵和偏置参数化，其中我们有：