【源头活水】DeepMind自监督新作

人工智能前沿讲习 2022-05-21

收录于合集 #源头活水 308个

“问渠那得清如许，为有源头活水来”，通过前沿领域知识的学习，从其他研究领域得到启发，对研究问题的本质有更清晰的认识和理解，是自我提高的不竭源泉。为此，我们特别精选论文阅读笔记，开辟“源头活水”专栏，帮助你广泛而深入的阅读科研文献，敬请关注。

来源：知乎—江山如画

地址：https://zhuanlan.zhihu.com/p/360608116

https://arxiv.org/pdf/2103.10957.pdf

首先从上图中可以看到效果，DetCon在COCO detection的准确率已经远超SimCLR，并且随着迭代次数的增加，已经超过了监督的方法。与以往该方向文章不同，之前的文章无论是SimCLR、BYOL、MoCo等均是提出了一个相对较心的方法，对过去方法的继承有限，包括Barlow虽然也是提出了全新的loss设计，但是在网络架构上与之前方法比较是有不同的（比如对称设计要比不对称的效果好）。

DetCon并没有去推翻过去的设计，而是在其他方法的基础上引进了新的loss设计思想，对baseline进行提升，而实验证明，这种小改动是卓有成效的。一言以蔽之，过去的方法是对输出batch中的image计算整图的相似度，DetCon则是利用语义先验信息，将每个image分割成不同的区域，对区域计算相似度：

以前的方法，同一张图的不同view要最大化相似度，不同图要最小化相似度。这样的处理存在一个隐患，即同一张图的不同view很可能本就应该具有不一样的特征，比如随机crop之后包含信息会有所不同，虽然InfoMin中提到了sweetpoint，在随机crop的时候需要考虑到主要的语义信息完整性，比如一只狗在草地上奔跑的图片，按照InfoMin的思想，两的view均需要狗呈现为图像中的主体，然后背景要尽可能具有最大的差异化。

按照之前的方法下图中的两个view需要具有较大的相似性，但是view1中的飞盘在view2中并不存在，该部分应该不具有相似性。所以对图像分成多个区域，包含相同语义的区域使其相似度最大化（狗或者草地），不同语义的区域使其相似度最小化，比如飞盘。这样做的好处：

一个是上面提到的能够减少计算相似度时候正负样本之间的误操作（正样本可能存在负样本元素，而来自不同图片的feature也有一定的概率是正元素）。

第二个就是在数据有限的情况下能够提供大量的负样本——一个图像分割成16个区域，则相当于负样本提升了16倍。

而实验也能够证明无论是SimCLR还是BYOL的baseline，其计算复杂度的增加都是有限的（16各区域代替整体计算FLOPS增加不到2%，考虑到对比loss的复杂度，DetCons增加的5.3%，DetConb增加11.6%，mask的先验处理只需要计算一次，所以其对应的计算量可以忽略），但是达到同样效果的epoch则大大减少，所以综合来讲，该方法训练的更快，并且最终能够达到的精度更高。

同时我们注意到一点，如果对于先验的mask有16块变成一块，则为baseline方法。该方法的大体流程如下：

与baseline方法的区别就是相同语义mask的部分拉近，不同mask的部分推远，替代了全图的拉近和推远。那么该方法是否能够work的关键就是，先验的mask如何获得？

主要实验了上图的几种方法，第二列完全按照空间位置划分，效果是比较差的，当时用一个简单的FH方法进行先验分割之后，效果则有了明显的提升，提高分割模型的效果到MCG，效果提升不是非常明显，当然人工标注的先验分割是最好的（已经用到了人工标注了，“自监督”就不知真正的自监督了）。

从实验中也证明，先验的mask分割方法不需要非常准确，FH方法已经能够达到十分可观的提升了。所以相当于用一非监督的分割方法去训练DetCon，最后得到的网络能够给出比监督方法还好的分割结果，对原始的分割效果进行提升，那么是不是这样一直循环迭代下去，能够循序渐进的提升模型效果呢？文章并没有给出答案，而是作为一个开放性的问题在Discussion中提及。

文章的思路比较简单，最后总结一下为：

方法：

1、用自监督（或者任何其他）方法给出先验额mask分割；

2、计算loss时，拉近相同mask的feature，推远不同mask的feature。从image级别的操作，变成了object级别的操作。

优点：

1、计算时间大大降低。

2、模型泛化效果大大提升。

阅读笔记：

本文目的在于学术交流，并不代表本公众号赞同其观点或对其内容真实性负责，版权归原作者所有，如有侵权请告知删除。

“源头活水”历史文章

请点击文章底部“阅读原文”查看

分享、在看，给个三连击呗！

中美友好合作故事——十万名中国弃婴长大了

中美友好合作故事——十万名中国弃婴长大了

中美友好合作故事——十万名中国弃婴长大了

看个病要排队两年，癌症都被拖成晚期

中共中央批准：作出对高朋逮捕决定

【源头活水】DeepMind自监督新作

ResRep：剪枝SOTA！用结构重参数化实现CNN无损压缩（ICCV）

通过样本有效估计高维连续数据互信息

Knowledge In PLM: 语言模型可以作为一种知识库吗？

DeepEMD : 小样本学习中的可微EMD

DPR一种高效的开放域问答检索技术

Few-shot Object Detection via Feature Reweighting

行人重识别：一个模型打天下

FSOD with Attention-RPN and Multi-Relation Detector

美文赏析：大佬对变分蒸馏的跨模态行人重识别的工作

通过对比学习提升OOD检测

将线性门控机制应用于卷积结构

CVPR 2021 | CLD: 通过挖掘实例与聚类间关系进行无监督特征学习

CTRL，定向生成模型

Deep InfoMax损失函数小记

更多源头活水专栏文章，

请点击文章底部“阅读原文”查看

您可能也对以下帖子感兴趣

中美友好合作故事——十万名中国弃婴长大了

中美友好合作故事——十万名中国弃婴长大了

中美友好合作故事——十万名中国弃婴长大了

看个病要排队两年，癌症都被拖成晚期

中共中央批准：作出对高朋逮捕决定

生成图片，分享到微信朋友圈

【源头活水】DeepMind自监督新作

更多源头活水专栏文章，

请点击文章底部“阅读原文”查看

您可能也对以下帖子感兴趣