NeurIPS 2022 | 带噪多标签学习:基于标签相关性的噪声转移矩阵估计
收录会议:
论文链接:
代码链接:
▲ 图1 带噪多标签学习的图像示例[1]
在通用的带噪分类学习中,噪声转移矩阵可以用于表示从干净标签到带噪标签的转移关系 [4,5]。而在带噪多标签学习的场景中,分配给实例的多个类别标签可能同时被破坏(如图1)。也就是说,实例的每个类别的真实标签和带噪标签的关系可以用一个噪声转移矩阵来表示。
噪声转移矩阵已被用于建立一系列具有统计一致性的噪声鲁棒算法 [4,5,6]。这些算法的主要优点是它们可以保证随着带噪样本数量的增加消除从带噪数据中学习到的分类器与从干净数据中学习到的最优分类器之间的差异。但是这些算法的有效性严重依赖于转移矩阵的准确性。为此,一系列转移矩阵的估计方法在带噪分类学习中被提出 [4,5,7],而在带噪多标签学习中转移矩阵的估计仍然具有挑战性。
因此,直觉上来说,我们可以利用标签相关性的失配来识别和估计噪声转移矩阵,从而避免已有估计方法中所需要的锚点或精确拟合带噪类后验。
方法介绍
最近,Liu 等人 [8] 基于 Kruskal 的可识别性结果在带噪分类场景中得到了一些关于标签噪声转移矩阵的可识别性的定理。受此启发,我们在带噪多标签场景中也得到一些利用标签相关性的实例无关的转移矩阵的可识别性结果。
3.2 阶段一:样本选择
最近,深度网络的记忆效应 [10] 在带噪分类学习中受到了广泛关注。该效应指的是深度网络将首先记忆带干净标签的训练数据然后才记忆带有错误标签的数据。先前的工作 [11,12] 利用这一特性在带噪分类学习中进行样本选择来得到一些很可能具有干净标签的样本。
我们采用均值平均精度(mAP)、总体 F1 度量(OF1)和类别平均 F1 度量(CF1)作为分类性能的评估度量。为了利用估计得到的转移矩阵进行鲁棒的带噪多标签学习,我们将转移矩阵的估计方法与具有统计一致性的 Reweight 算法 [6] 相结合。参与比较的基线算法有以下三种:
(1)用于干净数据的多标签学习算法:Standard,AGCN 和 CSRA
(2)通用的带噪分类学习算法:GCE 和 CDR
(3)鲁棒的带噪多标签学习算法:WSIC、Reweight-T-max、Rewight-T-97%、Reweight-DualT-max、Rewight-DualT-97%
从下表我们可以知道,经过在不同数据集和带噪场景下的多次实验,我们的方法(Reweight-Ours)在 OF1 和 CF1 的评估度量上显著优于其他基线。这也侧面验证了,更准确的转移矩阵可以帮助具有统计一致性的噪声鲁棒算法取得更好的分类性能。
结论
参考文献
[1] Cosmin Octavian Pene, Amirmasoud Ghiassi, Taraneh Younesian, Robert Birke, and Lydia Yiyu Chen. Multi-label gold asymmetric loss correction with single-label regulators. ArXiv, 2021.
[2] Weiwei Liu, Xiaobo Shen, Haobo Wang, and Ivor W. Tsang. The emerging trends of multi-label learning. TPAMI, 2021.
[3] Ming-Kun Xie and Sheng-Jun Huang. CCMN: A general framework for learning with class-conditional multi-label noise. TPAMI, 2022.
[4] Xiaobo Xia, Tongliang Liu, Nannan Wang, Bo Han, Chen Gong, Gang Niu, and Masashi Sugiyama. Are anchor points really indispensable in label-noise learning? In NeurIPS, 2019.
[5] Giorgio Patrini, Alessandro Rozza, Aditya Krishna Menon, Richard Nock, and Lizhen Qu. Making deep neural networks robust to label noise: A loss correction approach. In CVPR, pages, 2233–2241, 2017.
[6] Tongliang Liu and Dacheng Tao. Classification with noisy labels by importance reweighting. TPAMI, 2016.
[7] Yu Yao, Tongliang Liu, Bo Han, Mingming Gong, Jiankang Deng, Gang Niu, and Masashi Sugiyama. Dual T: reducing estimation error for transition matrix in label-noise learning. In NeurIPS, 2020.
[8] Yang Liu, Hao Cheng, and Kun Zhang. Identifiability of label noise transition matrix. ArXiv, 2022.
[9] Stéphane Boucheron, Gábor Lugosi, and Pascal Massart. Concentration inequalities - a nonasymptotic theory of independence. In Concentration Inequalities, 2013.
[10] Devansh Arpit, Stanisław Jastrz˛ebski, Nicolas Ballas, David Krueger, Emmanuel Bengio, Maxinder S Kanwal, Tegan Maharaj, Asja Fischer, Aaron Courville, Yoshua Bengio, et al. A closer look at memorization in deep networks. In ICML, 2017.
[11] Eric Arazo, Diego Ortego, Paul Albert, Noel E. O’Connor, and Kevin McGuinness. Unsupervised label noise modeling and loss correction. In ICML, 2019.
[12] Junnan Li, Richard Socher, and Steven C. H. Hoi. DivideMix: learning with noisy labels as semi-supervised learning. In ICLR, 2020.
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」