自己觉得挺有意思的目标检测框架，分享给大家（源码论文都有）

还有一个技术就是距离度量学习(DML)。已成功地应用于目标分类，无论是在训练数据丰富的标准体系中，还是在每个类别仅用几个例子表示的few-shot场景中。有研究者提出了一种新的DML方法，在一个端到端训练过程中，同时学习主干网络参数、嵌入空间以及该空间中每个训练类别的多模态分布。将提出的DML架构作为分类头合并到一个标准的目标检测模型中，证明了新方法在处理few-shot目标检测问题上的有效性。

在目标检测，有研究者提出了一种灵活而通用的方法来实现这些任务。其通过提出基于RoI（感兴趣区域）特征而不是完整图像特征的元学习来扩展Faster/Mask R-CNN。使Faster/Mask R-CNN变成元学习器来完成任务。

具体来说，引入了一个Predictor-head Remodeling Network (PRN)共享Faster/Mask R-CNN的主干网络。PRN接收包含few-shot目标及其边界框或masks的图像，以推断它们的类注意力向量。这些向量对RoI特征采取通道方式的软注意力，重塑那些R-CNN Predictor-head以检测或分割与这些向量所代表的类别一致的目标。

技术基础

在few-shot检测实验中，引入了新的检测类别。这是通过使用从为这些类别提供的少量训练示例(k个用于k-shot检测的示例)的前景RoI中计算的嵌入向量来替换所学习的代表(对应于旧类别)来实现的。还研究了微调新提出的模型的效果和baseline的few-shot学习。下图概略地说明了few-shot检测方法。

提出了一种新的子网结构，用于联合训练嵌入空间和该空间中的混合分布集，每个类别都有一个(多模态)混合。该体系结构对基于DML的目标分类和few-shot目标检测都有较好的改善作用；其次，提出了一种基于DML分类器头的目标检测器的设计方法，该方法能够识别新的类别，并将其转化为一种few-shot检测器。检测器训练批次通常被限制在每个GPU一个图像，不允许在类别内容方面进行批次控制。这种控制是目前任何使用情景训练的few-shot学习者所需要的。这反过来又使得在端到端训练的检测器中使用这些方法具有挑战性。在新提出的方法中，代表集充当“内部存储器”，在训练批次之间传递信息。

Few-shot目标检测旨在从极少数以前unseen类的注释示例中快速检测新目标，已经引起了社区的重大研究兴趣。大多数现有方法都采用 Faster R-CNN 作为基本检测框架，但由于缺乏针对数据稀缺场景的定制考虑，它们的性能往往不能令人满意。

就好比上面的框架，仔细研究了传统的Faster R-CNN，并从两个正交的角度分析了它的矛盾，即多阶段（RPN 与 RCNN）和多任务（分类与定位）。为了解决这些问题，我们提出了一种简单而有效的架构，名为Decoupled Faster R-CNN (DeFRCN)。

下期我们可以详细分析下旷视的DeFRCN！

新框架

首先，查询集图片经过特征提取网络和RPN网络（与Faster/Mask R-CNN中相同）得到感兴趣区域的特征图zi。然后支持集图像和对应的真实标签图经过预测器重建模网络（PRN）得到每个类别对应的类别注意力向量（class-attentive vectors），PRN网络的主体部分与Faster/Mask R-CNN的特征提取网络结构相同且权重共享，得到对应特征图后，通过逐元素Sigmoid函数得到对应的注意力向量vc。最后将RPN网络输出的感兴趣区域特征图zi和PRN网络输出的注意力向量vc通过逐通道相乘的方式进行融合，最后再利用Faster/Mask R-CNN中预测头得到对应个检测图或分割图。

假设PRN表示为：

给定属于图像xi的每个RoI特征zˆi,j，它：

上面公式意味着PRN在原理上将h(·, θ)重构为h(·, Dmeta; θ)。它直观、应用灵活，并允许与其Faster/Mask R-CNN对应物进行端到端联合训练。

Meta R-CNN中元优化过程的说明性实例

RePMet的结构中提出一种子网结构和相应的损失，使我们能够训练一个DML嵌入与多模态混合分布用于计算类后验在产生的嵌入空间。然后这个子网成为一个基于DML的分类器头部，它可以附加在分类器或检测主干的顶部。需要注意的是，DML子网是与生成功能的主干一起训练的。上图描述了所提出的子网的体系结构。

Network architectures used. (a) Network for DML based classification. (b) Network for few-shot detection; its backbone is FPN+DCN with deformable ROI-align.

实验可视化结果

© THE END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

计算机视觉研究院主要涉及深度学习领域，主要致力于人脸检测、人脸识别，多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架，我们这次改革不同点就是，我们要着重”研究“。之后我们会针对相应领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！

扫码关注

计算机视觉研究院

公众号ID｜ComputerVisionGzq

学习群｜扫码在主页获取加入方式

往期推荐

🔗

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

公益慈善｜“翼行天下一生守护”慈善项目捐赠仪式圆满举行！

何炅突然高调官宣喜讯，网友恭喜：30年了，终于等到这一天！

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

自己觉得挺有意思的目标检测框架，分享给大家（源码论文都有）

您可能也对以下帖子感兴趣

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

公益慈善｜“翼行天下 一生守护”慈善项目捐赠仪式圆满举行！

何炅突然高调官宣喜讯，网友恭喜：30年了，终于等到这一天！

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

生成图片，分享到微信朋友圈

自己觉得挺有意思的目标检测框架，分享给大家（源码论文都有）

您可能也对以下帖子感兴趣

公益慈善｜“翼行天下一生守护”慈善项目捐赠仪式圆满举行！