本文简要介绍CVPR 2022录用论文“Long-Tailed Recognition via Weight Balancing”的主要工作。该论文针对的是长尾识别的问题,作者从平衡模型对不同类别的权重这个角度入手,分析了L2-normalization、weight decay和MaxNorm三种正则化方法,并提出了一种简单的长尾识别方法。实验结果表明,该方法在一些长尾识别的基准数据集上接近或超过了SOTA的方法。
在现实世界中,数据往往呈现长尾分布,如图1所示,长尾分布是指头部的小部分类别有大量的训练样本,这些类别被称为常见类,而尾部的大部分类别只有少量的训练样本,这些类别被称为稀有类。若按常规的方法在长尾分布的数据上训练,那么得到的模型则会偏向常见类,而在稀有类上的识别较差。因此有许多研究关注长尾识别任务,是指在长尾分布的数据上进行训练,而期望在各个类别上都有较高的识别精度。长尾识别方面,之前的一些做法大致包括:(1)平衡数据的分布;(2)平衡各类别损失或梯度[2];(3)采用迁移学习的方法,学习常见类的特征,利用这些特征学习稀有类分类器[3];(4)集合专家模型[4];(5)对比学习预训练[5]。
本文的动机源于实验现象:使用常规的方法在长尾分布的数据上进行训练,得到的模型对于常见类的权重偏大(如图2所示,横轴代表类别,纵轴代表模型对该类别的权重)。基于这个实验现象,本文的核心想法即是使用一些参数正则化的方法去平衡模型的权重。
为了平衡模型权重,作者首先分析了三种正则化的方法:
L2-normalization
L2-normalization的表达式如下:
式子左边表示模型的训练目标,找到一组参数,使得目标函数F最小;式子右边表示模型训练的限制条件,其中的表示模型分类器部分与类别k相关联的Filter,则式子右边含义是在训练过程中限制的范数为1,使得模型对于各类别的权重平衡。作者也按照的[3]方法,对按常规方法训练好的模型,对其分类器参数做后处理L2-normalization:
作者也发现直接后处理L2-normalization的做法,提高了模型对稀有类的识别但是牺牲了对常见类的识别。也指出后处理L2-normalization类似于τ-normalization:
相比于L2-normalization,τ-normalization要更加灵活一点,可以调节τ使得不同类别的归一化权重不同,也取得了更好的长尾识别性能,说明L2-normalization对平衡权重来说过于严格。
Weight Decay
Weight Decay的表达式如下:
其中是模型的Weight Decay的超参数,越大表示Weight Decay的影响越大。Weight Decay的作用是在训练过程中,每次更新参数时都对模型参数进行衰减,且越大的参数受到的衰减越大。故Weight Decay可以限制模型参数不过大,故作者认为这也是一种平衡权重的方法。作者也提到,在长尾识别方面,之前的研究没有正确地调节Weight Decay的参数。
MaxNorm
MaxNorm的表达式如下:
MaxNorm的作用是限制模型归一化权重在一个半径为的二维球中,对上式,训练过程中可以通过投影梯度下降(Projected Gradient Descent)的方法优化:
Pipeline
基于以上分析与后续实验的结果,作者提出了一种简单的长尾识别方法,由下两个阶段组成:
(1)特征学习:使用Cross Entropy Loss并设置一个合适的Weight Decay参数,训练网络;
(2)分类器学习:在一阶段学到的特征的基础上,用Class-balanced Loss,设置一个合适的Weight Decay参数,并使用MaxNorm训练分类器。作者首先使用Resnet32在CIFAR100-LT数据集上进行消融实验,实验结果如表1所示,分析表1结果可以得到以下结论:
(1)直接对训练好的模型的分类器参数做后处理τ-normalization,也可以提升长尾识别性能,说明了平衡的权重的重要性;
(2)仅仅调Weight Decay,就可以获得很大的提升;
(3)使用CBloss,也就是类别平衡的Loss也是很重要的;
(4)作者探究的三种正则化方法都是有效的;
(5)效果最好的是CBloss、Weight Decay和Maxnorm一起使用。表1 消融实验结果
表2 在CIFAR100-LT上与其他方法的对比
表3 在ImageNet-LT和INaturalists上与其他方法的对比
本文在CIFAR100-LT、ImageNet-LT[6]和INaturalists[7]上与其他方法进行了对比,实验结果如表2、表3所示。在CIFAR100-LT数据集上,本文的方法达到了SOTA;而在ImageNet-LT和INaturalists上,本文的方法比常规的方法要好,但是不如集合专家模型、对比学习预训练的方法,但本文的方法相对于SOTA的方法要简单一点。本文启发于:观察到模型对于常见类的权重偏大这一现象,虽然该现象并不是作者首先发现的,之前的研究也有提出一些解决办法,但没有把这个现象当成研究的重点。而本文重点从平衡不同类别的权重入手,分析了L2-normalization、Weight Decay和MaxNorm这三种正则化方法。实验部分也证明了正确使用这些正则化方法可以大大提升长尾识别的性能,其中最让人惊讶的就是作者发现简单调节Weight Decay参数就可以获得很好的效果。基于分析与实验,作者也提出了一个简单的两阶段方法,在一些长尾分布的数据集上验证了其有效性。论文地址: https://arxiv.org/pdf/2203.14197.pdf源码地址: https://github.com/ShadeAlsha/LTR-weight-balancing[1] Zhang Y, Kang B, Hooi B, et al. Deep long-tailed learning: A survey[J]. arXiv preprint arXiv:2110.04596, 2021.[2] Cui Y, Jia M, Lin T Y, et al. Class-balanced loss based on effective number of samples[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019: 9268-9277.[3] Kang B, Xie S, Rohrbach M, et al. Decoupling representation and classifier for long-tailed recognition[J]. arXiv preprint arXiv:1910.09217, 2019.[4] Cai J, Wang Y, Hwang J N. Ace: Ally complementary experts for solving long-tailed recognition in one-shot[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 112-121.[5] Cui J, Zhong Z, Liu S, et al. Parametric contrastive learning[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 715-724.[6] Liu S, Garrepalli R, Dietterich T, et al. Open category detection with PAC guarantees[C]//International Conference on Machine Learning. PMLR, 2018: 3169-3178.[7] Van Horn G, Mac Aodha O, Song Y, et al. The inaturalist species classification and detection dataset[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 8769-8778.
原文作者:Shaden Alshammari, Yu-Xiong Wang, Deva Ramanan, Shu Kong
撰稿:施永鑫
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: eelwjin@scut.edu.cn)。