“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。
地址:https://zhuanlan.zhihu.com/p/360608116
https://arxiv.org/pdf/2103.10957.pdf
首先从上图中可以看到效果,DetCon在COCO detection的准确率已经远超SimCLR,并且随着迭代次数的增加,已经超过了监督的方法。与以往该方向文章不同,之前的文章无论是SimCLR、BYOL、MoCo等均是提出了一个相对较心的方法,对过去方法的继承有限,包括Barlow虽然也是提出了全新的loss设计,但是在网络架构上与之前方法比较是有不同的(比如对称设计要比不对称的效果好)。DetCon并没有去推翻过去的设计,而是在其他方法的基础上引进了新的loss设计思想,对baseline进行提升,而实验证明,这种小改动是卓有成效的。一言以蔽之,过去的方法是对输出batch中的image计算整图的相似度,DetCon则是利用语义先验信息,将每个image分割成不同的区域,对区域计算相似度:以前的方法,同一张图的不同view要最大化相似度,不同图要最小化相似度。这样的处理存在一个隐患,即同一张图的不同view很可能本就应该具有不一样的特征,比如随机crop之后包含信息会有所不同,虽然InfoMin中提到了sweetpoint,在随机crop的时候需要考虑到主要的语义信息完整性,比如一只狗在草地上奔跑的图片,按照InfoMin的思想,两的view均需要狗呈现为图像中的主体,然后背景要尽可能具有最大的差异化。按照之前的方法下图中的两个view需要具有较大的相似性,但是view1中的飞盘在view2中并不存在,该部分应该不具有相似性。所以对图像分成多个区域,包含相同语义的区域使其相似度最大化(狗或者草地),不同语义的区域使其相似度最小化,比如飞盘。这样做的好处:一个是上面提到的能够减少计算相似度时候正负样本之间的误操作(正样本可能存在负样本元素,而来自不同图片的feature也有一定的概率是正元素)。第二个就是在数据有限的情况下能够提供大量的负样本——一个图像分割成16个区域,则相当于负样本提升了16倍。而实验也能够证明无论是SimCLR还是BYOL的baseline,其计算复杂度的增加都是有限的(16各区域代替整体计算FLOPS增加不到2%,考虑到对比loss的复杂度,DetCons增加的5.3%,DetConb增加11.6%,mask的先验处理只需要计算一次,所以其对应的计算量可以忽略),但是达到同样效果的epoch则大大减少,所以综合来讲,该方法训练的更快,并且最终能够达到的精度更高。同时我们注意到一点,如果对于先验的mask有16块变成一块,则为baseline方法。该方法的大体流程如下:与baseline方法的区别就是相同语义mask的部分拉近,不同mask的部分推远,替代了全图的拉近和推远。那么该方法是否能够work的关键就是,先验的mask如何获得?主要实验了上图的几种方法,第二列完全按照空间位置划分,效果是比较差的,当时用一个简单的FH方法进行先验分割之后,效果则有了明显的提升,提高分割模型的效果到MCG,效果提升不是非常明显,当然人工标注的先验分割是最好的(已经用到了人工标注了,“自监督”就不知真正的自监督了)。从实验中也证明,先验的mask分割方法不需要非常准确,FH方法已经能够达到十分可观的提升了。所以相当于用一非监督的分割方法去训练DetCon,最后得到的网络能够给出比监督方法还好的分割结果,对原始的分割效果进行提升,那么是不是这样一直循环迭代下去,能够循序渐进的提升模型效果呢?文章并没有给出答案,而是作为一个开放性的问题在Discussion中提及。1、用自监督(或者任何其他)方法给出先验额mask分割;2、计算loss时,拉近相同mask的feature,推远不同mask的feature。从image级别的操作,变成了object级别的操作。
本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。
“源头活水”历史文章
更多源头活水专栏文章,
请点击文章底部“阅读原文”查看
分享、在看,给个三连击呗!