从ICML 2022看域泛化(Domain Generalization)最新进展
©PaperWeekly 原创 · 作者 | 张一帆
单位 | 中科院自动化所博士生
研究方向 | 计算机视觉
DNA
论文链接:
目前绝大多数 DG 方法都基于一个不切实际的假设,即训练时的 hypothesis space 包含一个最优分类器,因此源域与目标域的的联合损失可以降到最小。这个假设对神经网络来说是非常难以满足的。当对源数据进行训练时,分类器倾向于只记住所见训练数据的鉴别特征,而忘记任何其他信息,包括那些可能是 target domain 分类所需要的的信息。训练过程中目标数据的不可达性意味着深度分类器的假设空间倾向于支持低源域风险的子空间,而不一定支持低目标域风险的子空间。总之,理想分类器可能脱离训练阶段假设空间。
解决这个问题的一个方法是 classifier ensemble,即对分类器进行集成。本文从理论和实验角度讨论了 ensemble 与 DG 任务的 connection。
理论上,本文首先引入一个剪枝的 jensen - shannon(PJS)损失,证明了 ρ 集合(由 quasi-posteriorρ 加权的平均分类器)在目标域上的 PJS 损失受 Gibbs 分类器的在源域的平均平方根风险的限制,即前者被后者 bound。通过对分类器集合的多样性进行约束,得到了一个更紧密的 DG bound。根据这个 bound,本文提出了 diversified neural averaging(DNA)method。
论文链接:
本文的关键思想是找到一种有效的训练样本加权方式,以便在加权训练数据上对大型模型进行标准的经验风险最小化训练,从而获得更好的 OOD 泛化性能。
为了防止模型依赖于 spurious correlation,对其进行正则化是最常用的方法,常见的策略包括 distributionallyrobust optimization(DRO)以及 IRM。DRO 的目标是在与原始训练分布一定距离内的一组分布中优化最差情况的性能,而 irm 则试图学习一种丢弃虚假特征的不变表示。
DRO 和 IRM 由于在小模型和数据集上具有良好的性能。但是应用于过参数化的深度神经网络中却不太理想,其中主要的原因是过参数化的 DNN 可以很容易地将 DRO 或 IRM 的正则化项降至零,同时仍然依赖于伪特征,即所谓的 over-fitting。
另一条研究路线是基于包括重要性抽样在内的重新加权,即首先对样本进行重新加权,然后再加权样本上根据 ERM 进行训练。因为加权的过程与 DNN 的模型大小无关,因此这类方法不像 DRO 和 IRM 那样存在模型过参数化导致过拟合的漏洞。然而,这些基于重加权的方法中的需要更严格的先验知识,比如域注释,才能很好地执行,这使得它们在实践中与基于正则化的方法相比缺乏竞争力。
SparseIRM
论文标题:
Sparse Invariant Risk Minimization
https://proceedings.mlr.press/v162/zhou22e.html
IRM 是这两年流行起来的一种 OOD 问题的新范式,IRM 的关键思想是学习从多个环境中提取的数据集上的不变特征表示,基于这种表示,人们应该能够学习在所有这些环境中工作良好的通用分类器。由于模型在这些现有环境中取得了一致的良好性能,可以预期在具有看不见的分布转移的新环境中也具有良好的泛化能力。然而 IRM 大多数时候只在小数据集或者小模型上有用,对于过参数化的神经网络而言往往表现不佳。
本文从理论上证明,当过参数化时,与 ERM 可以有良好或更好的泛化性不同, IRM 甚至在简单的线性情况下也可能失败。可以预见,在过度参数化的深度神经网络中,IRM 很容易崩溃,因为参数比简单的线性模型多得多。
本文提出了一个简单而有效的稀疏不变风险最小化(SparseIRM)范式来解决上述矛盾。其中关键思想是利用全局稀疏性约来防止伪特征(spurious correlation)在整个 IRM 过程中泄漏到我们所研究的子模型中。该范式成功地在整个训练过程中通过稀疏约束对伪特征和随机特征设置了障碍,从而获得了更好的泛化性能。
具体来说,在训练过程中,由于稀疏性约束导致所使用的子网络很小,不能包含所有的虚假和随机特征,因为这些特征的数量总是明显大于不变性特征。因此,网络需要识别和关注不变特征,使损失函数最小化。文章通过一个简单的线性情况的理论分析提供了对这一现象的理解。
实证结果表明,该方法可以以较小的速度减小模型的大小,显著提高推理效率甚至性能上的损失可以忽略不计。这使得在计算和内存预算有限的设备上部署现代 dnn 成为可能。现有的大多数方法都是针对在 I.I.D. 场景下由 ERM 训练的神经网络开发的。这项工作将稀疏性引入到 IRM 训练中,以提高泛化性能。。
该方法核心思想是在整个训练过程中采用稀疏性约束作为防御,以防止虚假和随机特征泄露到我们所研究的子网中。相比于传统的先训练模型再做稀疏化,本文训练时同时进行不变风险最小化和稀疏训练。直观上,在训练过程中,由于稀疏性约束,我们所工作的子网太小,无法包含所有的虚假和随机特征,因为这些特征的数量总是明显大于不变特征。因此,为了实现更小的损失,网络必须识别和关注不变特征。本文采用了最新的稀疏训练方法来解决稀疏不变风险最小化问题。
即将 mask 建模为一个高维的伯努利分布然后使用带 Gumbel-Softmax 的 SGD 对其进行优化。
SDAT
论文链接:
目前已有工作关注于寻找一个局部平滑的最小值点,Sharpness Aware Minimization(Sharpness-aware minimization for efficiently improv-ing generalization)方法使用如下损失来完成这个目标:
近期各个顶会上都涌现出了非常多的 OOD,DG 问题相关的文章,由于 ICML 对理论的喜爱,这些发表于 ICML 的文章绝大多数有着不错的理论性质,而且并不是一些老套的 A+B 的工作,都有不错的 intuition。
四篇文章用了四种不同的工具,总的来看大家都在找不同的切入点来解决 OOD 问题,实际上目前大多数研究可能都与 OOD 有着千丝万缕的联系,还有更多的研究空间等待探索。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧