48篇CVPR2020优秀论文解读集锦：分图像处理/目标检测/动作识别等14个方向

极市平台 2021-09-20

加入极市专业CV交流群，与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流！
同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流。关注 极市平台 公众号，回复 加群，立刻申请入群~

在本次CVPR2020接收结果公布后，出现了许多优秀的论文解读，为方便大家阅读，极市特开设此帖，希望可以实时跟进和汇总CVPR2020 的优秀论文解读，以下是近期全部解读文章，由于微信的限制，后续更新将会陆续发布在极市开发者社区：

http://bbs.cvmart.net/articles/1539（可以点击阅读原文直接跳转）

图像处理

1. 让合成图像更真实，上交大提出基于域验证的图像和谐化

由于截至目前还没有公开的大规模图像和谐化数据库，本文构建并公布了由四个子数据库组成的图像和谐化数据库。并且，本文提出了域验证 (domain verification) 的概念，尝试了基于域验证的图像和谐化算法。

神经网络搜索（NAS）

2. 如何同时保证NAS的效率和有效性?基于知识蒸馏的分块监督神经网络搜索算法

本文解决了目前 NAS 方法面临的两个最大问题：效率和有效性问题。基于知识蒸馏的思想，引入教师模型来引导网络结构搜索的方向。利用来自教师模型不同深度的监督信息，将原本端到端的网络搜索空间在深度上分块，实现对网络搜索空间独立分块的权重共享训练，大大降低了权重共享带来的干扰。在不牺牲权重共享的高效率的同时，也保证了对候选子模型的评估准确性。

3. 何恺明团队最新力作RegNet：超越EfficientNet，GPU上提速5倍，这是网络设计新范式

本文结合了手动设计网络和神经网络搜索 (NAS)的优点进行了新的网络设计：和手动设计网络一样，其目标是可解释性，可以描述一些简单网络的一般设计原则，并在各种设置中泛化；又和NAS一样，能利用半自动过程，来找到易于理解、构建和泛化的简单模型。在类似的条件下，性能还要优于EfficientNet，在GPU上的速度还提高了5倍。

人脸识别

4. 给Deepfake 假脸做 X-Ray，新模型把换脸图打回原形

本文从另一个角度，找到一种通用的生成换脸图像的方法。新模型 Face X-Ray 具有两大属性：能泛化到未知换脸算法、能提供可解释的换脸边界。要获得这样的优良属性，诀窍就藏在换脸算法的一般过程中。如下所示，大多数换脸算法可以分为检测、修改以及融合三部分。与之前的研究不同，Face X-Ray 希望检测第三阶段产生的误差。

5. 人脸识别Loss新突破：旷视提出Circle Loss，革新深度特征学习范式

本文提出用于深度特征学习的Circle Loss，从相似性对优化角度正式统一了两种基本学习范式（分类学习和样本对学习）下的损失函数。通过进一步泛化，Circle Loss 获得了更灵活的优化途径及更明确的收敛目标，从而提高所学特征的鉴别能力。

6. Data Uncertainty Learning in Face Recognition

论文地址：https://arxiv.org/abs/2003.11339

本文提出把数据不确定性估计理论应用于人脸识别领域的Data Uncertainty Learning（DUL）算法。DUL算法的两种训练模式可与各种主流人脸识别方法的损失函数有效结合使用，进一步提升模型在低质量人脸验证和人脸检索任务中的表现。其次，DUL算法对训练集中的噪声数据具有一定的鲁棒性，可有效缓解脏样本对模型训练产生的不利影响；最后，DUL算法针对每张图像所预测的方差，与该张图像的质量呈明显正相关，未来有利于无监督学习范式下的视频帧质量推图，人脸高风险验证预警等具体应用方向。

目标检测

7. 腾讯推出超强少样本目标检测算法，公开千类少样本检测训练集FSOD

论文提出了新的少样本目标检测算法，创新点包括Attention-RPN、多关系检测器以及对比训练策略，另外还构建了包含1000类的少样本检测数据集FSOD，在FSOD上训练得到的论文模型能够直接迁移到新类别的检测中，不需要fine-tune。

8. 北航提出跨域目标检测SOTA新方法，解决domain shift问题

由于domain shift问题，将现成的检测器应用于未知的域会导致性能显著下降。为了解决这个问题，本文提出了一种新颖的从粗到精的特征自适应方法来进行跨域目标检测。

9. MS COCO上达SOTA，目标检测实用trick：ATSS

论文指出one-stage anchor-based和center-based anchor-free检测算法间的差异主要来自于正负样本的选择，基于此提出ATSS(Adaptive Training Sample Selection)方法，该方法能够自动根据GT的相关统计特征选择合适的anchor box作为正样本，在不带来额外计算量和参数的情况下，能够大幅提升模型的性能。

10. 48mAP！目标检测新网络CentripetalNet，超越现有Anchor-free网络

本文提出一种使用向心偏移来对同一实例中的角点进行配对的CentripetalNet向心网络。比传统的嵌入方法更准确地匹配角点。同时又设计了一个交叉星可变形卷积网络来适应特征。除了检测，通过为作者的CentripetalNet安置一个mask预测模块来探索anchor-free检测器上的实例分割。在MS-COCO test-dev上，CentripetalNet不仅以48.0的mAP胜过所有现有的anchor-free检测器，而且以40.2的mAP达到了与最新实例分割方法相当的性能。

11. COCO 51.2mAP，商汤提出解偶检测分支新方法TSD

目前很多研究表明目标检测中的分类分支和定位分支存在较大的偏差，论文从sibling head改造入手，跳出常规的优化方向，提出TSD方法解决混合任务带来的内在冲突，从主干的proposal中学习不同的task-aware proposal，同时结合PC来保证TSD的性能，在COCO上达到了51.2mAP。

12. Exploring Categorical Regularization for Domain Adaptive Object Detection

论文地址：https://arxiv.org/abs/2003.09152

通过整合检测backbone上的一个图像层面的多标签分类器，本文可以通过分类方式的弱定位能力，获得对应于类信息的稀疏且关键的图像区域。同时，在实例层面，本文把图像预测和实例预测之间的类一致性作为一个正则化因子，以自动搜索目标域的硬对齐实例。大量不同域迁移方案的实验表明，相较原始的域自适应Faster R-CNN检测器，本文方法取得显著的性能提升。

13. Detection in Crowded Scenes: One Proposal, Multiple Predictions

论文地址：https://arxiv.org/abs/2003.09163

本文提出一种简单而有效的基于候选框的物体检测方法，尤其适用于密集物体检测。相较先前一个候选框预测一个结果,本文方法一个候选框可预测多个结果。设计损失函数时，鉴于同一候选框的预测无关于输出顺序，因此网络需要保证排列不变性，本文设计了EMD Loss以保证网络的排列不变性。后处理阶段类似于NMS：如果两个预测框来自同一候选框，则预测框皆保留；如果两个预测框重叠高于一定阈值，则移除置信度较低的预测框。本文使用mAP、mMR、mJI作为评价指标，并在CrowdHuman数据集上相较于基准方法分别涨点4.9%、1.5%、2.5；同时在Citypersons和稀疏数据集COCO上，本文方法均有1%的性能提升。

图像分割

14. 大场景三维点云语义分割新框架RandLA-Net，已开源

提出了一种针对大规模三维点云场景的轻量级、高效点云语义分割算法，与当前的大多数基于FPS等计算代价高的采样策略的算法不同，本文尝试使用简单高效的随机采样来显著地减少计算量以及内存消耗，并且引入了局部特征聚合模块持续地增大每个点有效的感受野，以确保大多数有效的信息不会因为随机采样而丢失。

15. Strip Pooling：语义分割新trick，条纹池化取代空间池化

从之前语义分割的研究事实证明，空间池化可有效捕获用于场景分析等像素级预测任务的远程上下文信息。本文在传统的N×N型Spatial pooling的基础上，提出了一种考虑狭长卷积核（1×N或N×1）的strip pooling策略。并基于Strip pooling，进一步研究了Spatial pooling体系结构设计。

16. 针对语义分割的动态路径选择网络

本文提出了针对语义分割任务的的动态路径选择（Dynamic Routing）网络，可根据每个图像中物体尺寸的分布情况，动态生成与这些数据相关的网络传播路径。一系列消融实验展示了本文动态网络相对于静态架构的优势。在Cityscapes和PASCAL VOC 2012数据集上的实验也证明了本文方法的有效性，模型以小得多的计算成本在性能上取得了与当前最佳工作相当的表现。

17. SAT：优化解决半监督视频物体分割问题

本文探索半监督条件下如何高效利用视频时空特性解决视频物体分割（VOS）的问题，并提出一个全新的Pipeline，称之为状态感知跟踪器（State-Aware Tracker/SAT），它可在高精确的结果下同时实现实时分割。速度方面，SAT利用时空平滑一致性，把目标作为一个tracklet时空整体对待。精度方面，SAT通过两个反馈回路实现分割状态的感知与自适应，一个反馈通过状态估计得到稳定的tracklet序列，另一个通过状态更新全局特征构建更鲁棒的全局表达。SAT在DAVIS2017验证集上取得优异表现，39 FPS J&F平均值达到0.723，效率和精度之间实现极佳的均衡。

3D方向

18. 基于于3D关键点投票网络的单目6DoF位姿估计算法(已开源)

本文提出一种新颖的基于单张 RGBD 图像的物体6D位姿估计算法；不同于现有的直接回归位姿参数的方法，它开创性地提出用深度神经网络检测 3D 关键点来解决单目 6D 位姿估计这个问题。

19. 更高质量的点云补全：上海交通大学团队提出点云分形网络

本文提出点云分形网络（PF-Net：Point Fractal Network），采用了类似分形几何的思想，同样以不完整点云作为输入，但是仅输出缺失部分点云，并且较好地保留了某个物体的个体特征。

20. 阿里达摩院新研究，首次实现3D物体检测精度与速度兼得

本文提出一个通用、高性能的检测器，在自动驾驶领域权威数据集KITTI BEV(鸟瞰)上，检测速度达到25FPS ，一举占据榜首，与排名第二的方案相比，减少了一半多，同时精度也远超其他的单阶段检测器。可以说首次实现3D物体检测精度与速度兼得。

21. HVNet：3D物体检测新框架，在KITTI获最高mAP

本文提出了一种新的基于点云的三维物体检测的统一网络：混合体素网络(HVNet)，通过在点级别上混合尺度体素特征编码器(VFE)得到更好的体素特征编码方法，从而在速度和精度上得到提升。与多种方法相比，HVNet在检测速度上有明显的提高。在KITTI 数据集自行车检测的中等难度级别（moderate）中，HVNet 的准确率比PointPillars方法高出了8.44%

22.少量样本即可有效迁移，北大提出信息融合模型MetaFuse

在预测 2D 坐标过程中，融合多个视角的信息可有效解决遮挡等问题。但是目前方法中，融合模型的参数依赖于特定相机对，难以泛化到新的环境。针对这一问题，本文提出将原有的融合模型分解为（1）所有相机共享的通用模型（2）针对特定相机的轻量变换矩阵。并且使用元学习算法，在大规模多相机数据中进行预训练，从而最大化模型的泛化能力。

23. 告别灰白和朦胧，老照片也能玩转3D，新SOTA效果惊艳

本文开发出了一种语境感知分层深度修复技术，它利用基于学习的修复模型来迭代地合成新的颜色和深度信息，并借助标准图形引擎将这些老照片渲染成3D照片。

24. 港中文&港科提出3D目标检测新框架：3DSSD

本文主要从point-based的研究入手，考虑如何解决掉以前的point-based的方法的瓶颈，即时间和内存占有远远大于voxel-based的方法，从而作者设计了新的SA模块和丢弃了FP模块到达时间上可达25FPS，此外本文采用一个anchor free Head，进一步减少时间和GPU显存，提出了3D center-ness label的表示，进一步提高了精度。

图像分类

25. 多任务图像分类新SOTA，北航、商汤等提出网络二值化新算法IR-Net

本文提出了一种旨在优化前后向传播中信息流的实用、高效的网络二值化新算法 IR-Net。不同于以往二值神经网络大多关注量化误差方面，本文首次从统一信息的角度研究了二值网络的前向和后向传播过程，为网络二值化机制的研究提供了全新的视角。同时，该工作首次在 ARM 设备上进行了先进二值化算法效率验证，显示了 IR-Net 部署时的优异性能和极高的实用性，有助于解决工业界关注的神经网络二值化落地的核心问题。

GAN

26. Attentive Normalization for Conditional Image Generation

论文地址：https://arxiv.org/abs/2004.03828

本文根据输入特征图的内部语义相似度把其软划分为若干区域，并分别归一化不同区域。该操作增强了具有语义对应关系的遥远区域之间的一致性。相较自注意力生成对抗网络（Self-Attention GAN），本文的注意力归一化无需测量所有位置的相关性，从而可直接应用于大尺度特征图而没有太大计算负担。本文根据语义标签的条件图像生成和图像修复的大量实验，证明本文提出的模块在客观和视觉评估方面的有效性。

27. DaST: Data-free Substitute Training for Adversarial Attacks

论文地址：https://arxiv.org/abs/2003.12703

机器学习模型存在对抗性样本攻击的可能性。黑盒攻击模式下，当前的替身攻击（Substitute Attacks）需要使用预训练模型生成对抗性样本，再通过样本迁移性攻击目标模型。但是实际任务中，获得这样的预训练模型很困难。本文提出一种替身模型训练方法——DaST，无需任何真实数据即可获得对抗性黑盒攻击的替身模型。DaST利用专门设计的生成对抗网络（GAN）训练替身模型，并且针对生成模型设计多分支架构和标签控制损失，以处理GAN生成数据分布不匀的问题。然后，使用GAN生成器生成的样本训练分类器（即替身模型），样本的标签为目标模型的输出。

行人重识别

28. 跨模态行人重识别：共享与特异特征变换算法cm-SSFT

本文关注的任务是红外线-RGB跨模态行人重识别。主要解决了以往大部分跨模态行人重识别算法一般都只关注shared feature learning，而很少关注Specific feature的问题。

29. CVPR 2020 | 旷视研究院提出新方法，优化解决遮挡行人重识别问题

对齐是遮挡行人重识别中的重要一步，当对齐两张图像的两组局部特征时，本文将其视为一个图匹配，提出跨图嵌入对齐层（CGEA）同时学习和嵌入拓扑信息，直接预测相似度得分。CGEA不仅充分利用图匹配所习得的对齐信息，还通过一个鲁棒的软对齐代替敏感的硬对齐。最后，本文在遮挡、半身行人数据集上均取得SOTA性能，验证了该方法的有效性。

动作识别/姿态估计

30. 知识驱动的行为理解（HAKE）

本文花费一年半时间准备了超过10万张动作图像的part知识库HAKE，并提出了Activity2Vec模型。同ImageNet训练backbone一样，利用PaStaNet训练的Activity2Vec，可以很好地把大量part知识迁移到新任务上，在大型的行为数据上取得了非常好的效果提升。

31. PVN3D：基于3D关键点投票网络的单目6DoF位姿估计算法

本文提出一种全新的基于单张RGBD图像的物体6D位姿估计算法。不同于现有的直接回归位姿参数的方法，本文开创性提出用3D关键点解决单目6D位姿估计问题。具体而言，本文首先提出一个深度霍夫投票网络，以检测目标物体的3D关键点，接着用最小二乘法拟合物体的6D位姿参数。

超分辨率

32. 华南理工,MSRA, 百度联合放大！让超分性能大幅度提升的对偶回归网络

目前大部分基于神经网络的单图像超分辨率(SISR)的传统做法是利用低分辨率图像(LR)和高分辨率图像(HR)对，学习一个非线性映射函数以实现LR到HR的映射。这种做法存在SISR属于ill-posed问题和真实的LR和HR的图像对(pair)很难获取两个主要问题。本文针对这两个问题，通过对偶学习(Dual Learning)，建立了个由LR->HR->LR闭环对偶回归(Dual Regression)模型。

小样本

33. DPGN: Distribution Propagation Graph Network for Few-shot Learning

论文地址：https://arxiv.org/abs/2003.14247

现有大部分基于图网络的元学习方法通常是在建模样本层面之间的单点关系，本文做进一步扩展，以1-vs-N的方式，显式地建模从一个样本到所有其他样本在分布层面的关系，提出一个针对小样本学习的全新方法—— DPGN（Distribution Propagation Graph Network），可在每个小样本学习任务中同时传递单点和分布层面的关系。

OCR

34. UnrealText: Towards Stronger Scene Text Detector By Synthesizing Images from 3D Virtual World

论文地址：https://arxiv.org/abs/2003.10608

本文引入一种高效的图像合成方法——UnrealText，它可以通过3D图形引擎，渲染出逼真的图像。3D合成引擎把场景和文字作为一个整体进行渲染，以实现逼真的外观，并且借助精确的场景信息（比如，法向量甚至是物体网格）实现更优的文字区域候选。

视觉常识/其他

35. 华为GhostNet，超越谷歌MobileNet，已开源

本文引入了一种新的Ghost模块，通过使用较少的参数来生成更多的特征。在不改变输出特征映射大小的情况下，与普通卷积module相比该Ghost模块所需的参数总数和计算复杂度相比减少了。结果表明，所提出的Ghost模块在保持相似识别性能的同时，能够降低通用卷积层的计算成本，在移动设备上快速推理的各种任务上，Ghost网络可以超过MobileNet3等最新的高效深层模型。

同样是GhostNet的另一篇深度的解读：

36. 深度解读轻量网络GhostNet：不用训练、即插即用的CNN升级组件究竟如何实现？

本文分为三个部分，第一部分是论文阅读，对论文中要点进行讲解。第二部分是代码实验部分，对论文中提出的部分实验进行代码实验，包含模型训练，参数量计算，特征图可视化。第三部分是下一步工作，提出一些失败及未实现的想法，来实现不需要训练的即插即用Ghost module。

37. 最新最完善的场景图生成 (SGG)开源框架，集成目前最全metrics，已开源

本文选择了facebookresearch/maskrcnn-benchmark框架作为基础，在其基础上搭建了Scene-Graph-Benchmark.pytorch。该代码不仅兼容了maskrcnn-benchmark所支持的所有detector模型，且得益于facebookresearch优秀的代码功底，更大大增加了SGG部分的可读性和可操作性。目前框架提供的各种baseline模型，有着当之无愧的State-of-The-Art SGCls和SGGen结果。

38. 化繁为简，弱监督目标定位领域的新SOTA - 伪监督目标定位方法(PSOL)

论文提出伪监督目标定位方法(PSOL)来解决目前弱监督目标定位方法的问题，该方法将定位与分类分开成两个独立的网络，然后在训练集上使用Deep descriptor transformation(DDT)生成伪GT进行训练，整体效果达到SOTA，论文化繁为简，值得学习。

39. 输入数据量减半！何恺明Mask R-CNN精度提升，阿里达摩院实习生立功

本文的核心要义是省略图像压缩/解压缩中计算量最大的步骤，直接利用频域特征来进行图像推理，减少系统中模块之间的数据传输量，从而提升系统性能。结果显示：不仅输入的数据量更小，而且深度神经网络在图像分类/分割任务上的精度大大提升。

40. 华为开源只有加法的神经网络，实习生领衔，效果不输传统CNN

加法器网络的核心在于：用L1距离代替欧氏距离。在这种新的定义下，反向传播中用到的求偏导数运算也变成了求减法。梯度下降的优化过程也被叫做符号SGD（signSGD）。而在图像分类的实际任务中，AdderNet的表现已经接近了传统CNN的结果。

41. 双边分支网络BBN：攻坚长尾分布的现实世界任务

本文揭示了再平衡方法解决长尾问题的本质及不足：虽然增强了分类器性能，却在一定程度上损害了模型的表征能力。针对其不足，本文提出了一种针对长尾问题的新型网络框架——双边分支网络（BBN），以兼顾表征学习和分类器学习。

42. 长尾数据特征学习新方法：为尾部样本构造特征云

本文提出了为尾部类别构造云、用“特征云”来充实尾部类的方法。鉴于GAN的训练与调用非常消耗资源，本工作给出了更巧妙、高效的解决：直截了当地聚焦到了特征空间，在学到的特征空间中，为尾部ID增加一些虚拟的样本。

43. 一个全新角度：通过量化知识来解释知识蒸馏

本研究旨在从一个新的角度解释知识蒸馏算法，即通过量化神经网络所建模的“知识量”分析神经网络的性能。本研究核心在于通过定义并量化神经网络中层特征的“知识量”，从神经网络表达能力的角度来解释知识蒸馏算法的成功机理。

44. 目标检测+分割均实现SOTA！厦大提出协同学习网络

本文首次提出单阶段的协同学习网络来同时解决指向性目标检测（Referring Expression Comprehension）和指向性目标分割（Referring Expression Segmentation）两个任务，而且在性能超越了 SOTAs 的条件下，达到了实时检测和协同检测的目的。

45 参数量减半，北大开源全新高效空域转换模块，还原图像逼真细节

本文提出了一种全新的空域转换模块Global-Flow Local-Attention。这一模块将光流和注意力机制结合起来，通过首先提取源图像与目标图像之间的整体相关性，得到全局的光流图。然后利用光流图，采样局部的特征块以进行局部的注意力操作。

46. 一行代码提升迁移性能，中科院计算所研究生一作

在迁移学习任务中，一直存在这样的问题：目标域由于没有标签，常常导致分界面附近混淆较多的数据。本文提出了一种新的解决方法：批量核范数最大化。在典型的标签不足场景下(如半监督学习等)，BNM可以有效地提升学习效果。

47. 场景去遮挡新方法：港中文首次提出自监督新框架，已开源

对于场景去遮挡的问题，过去的工作未能使用无监督的方法进行解决，而如果采用有监督，amodal mask的标注又是十分困难的。本文运用了一个非常新颖和优秀的思路，采用无监督的方法为这一问题做出很好的解答。

48. Learning Human-Object Interaction Detection using Interaction Points

论文地址：https://arxiv.org/abs/2003.14023

本文提出一种新型人-物交互检测算法，可直接把人-物交互关系检测为一系列的交互点，进一步预测朝向人和物体中心的交互向量；接着，这些交互点可以配对组合人与物体的检测结果，以生成最终的交互预测。据知，本文首次提出了把人-物交互检测拆分为关键点检测和组合问题。

-END-

推荐阅读：

极市独家福利

40万奖金的AI移动应用大赛，参赛就有奖，入围还有额外奖励

添加极市小助手微信（ID : cv-mart），备注：研究方向-姓名-学校/公司-城市（如：目标检测-小极-北大-深圳），即可申请加入目标检测、目标跟踪、人脸、工业检测、医学影像、三维&SLAM、图像分割等极市技术交流群，更有每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、行业技术交流，一起来让思想之光照的更远吧~

△长按添加极市小助手

△长按关注极市平台，获取最新CV干货

觉得有用麻烦给个在看啦~

: ， . Video Mini Program Like ，轻点两下取消赞 Wow ，轻点两下取消在看

反向激励，在加速这个社会的黑化

官媒发声：反对调休的声音不能装聋作哑！这不是放假，是“假放”（五一假期）

券商大佬卸任，曾任多家券商及公募基金一把手！

有些秘密注定只被少数人知道.....2024我们不再错过

豪放女乘客扯掉裤子当场“硬要”，的哥乖乖“束手就擒”……

生成图片，分享到微信朋友圈