编者按:现有的物体理解方法几乎都是基于边界框的表示方法,难以描述物体更加细粒度的几何信息。在即将召开的 ICCV 2019上,微软亚洲研究院的团队发表论文 “RepPoints: Point Set Representation for Object Detection”,介绍了一种基于点集来替代边界框的物体表示新方法,能够学习到更丰富、更自然的物体表示。
视觉理解任务通常以物体为中心,例如微软 Kinect 中的人体姿态估计与跟踪、自动驾驶中的避障等等。在深度学习时代,这些任务通常遵循这样的范式:在图像中先定位物体的边界框,再从边界框中抽取特征,最后基于边界框里抽取的特征进行物体的识别和推理。
现有的物体理解方法几乎都是基于边界框的表示方法,这主要是由于边界框具有如下的实用特点:一是它们很容易标注而且没有歧义,二是这种表示易于提取物体特征(例如基于规格化采样的 RoIAlign 算法)。
尽管如此,基于边界框的物体表示方法也有一些缺点。例如,边界框所表达的几何信息比较粗糙,这种方式不能描述人体姿态等更加细粒度的信息。此外,基于网格点的特征提取由于网格点不一定位于有意义的物体区域而导致其不够精确。如图1左所示,边界框中不少特征是从背景而不是从前景物体提取出来的。
图1:基于边界框的物体表示和特征提取(左),基于RepPoints的物体表示和特征提取(右)
在即将召开的 ICCV 2019上,微软亚洲研究院的团队发表论文 “RepPoints: Point Set Representation for Object Detection”,介绍了一种基于点集来替代边界框的物体表示新方法。如图2右所示,这种新的表示方法有潜力适应物体姿态或形状的变化,称为代表性点集(RepPoints)。RepPoints 能自适应地分布在物体重要的局部语义区域,并能表征物体的几何外延,从而提供了一个对物体更加细致的几何描述,同时这些点也能用于提取对识别有用的图像特征。
图2:RepPoints (绿色的点集) 可以从物体中心点的特征通过一个3x3大小的卷积回归得到
RepPoints 工作的方式很简单。给定靠近物体中心的源点(图2中以红色标记点),将一个 3x3 的卷积应用于这个点的图像特征上,回归出多个目标点和中心源点的偏移值,这些目标点共同构成代表性点集(RepPoints)。如图2所示,与边界框的表示方法相比,这样有望实现更精确的关键点检测。此外,源点是从图中均匀采样的,而不需要像在基于边界框的技术中那样采用一些 anchor 框。RepPoints 的学习由两项监督信息驱动,分别是几何定位和物体识别。如图3所示,上半支显示的是几何定位的监督部分,先将网络得到的点集转换成矩形伪框,伪框和真实框的差异可作为监督信号驱动 RepPoints 的学习。下半支显示的是物体识别的监督部分,这部分驱动 RepPoints 学到对物体识别有用的位置。图3:RepPoints 的学习通过两部分监督得到基于RepPoints,无需Anchor的物体检测器
将多阶段物体检测方法中的边界框表示,包括锚点(anchor)、候选框(proposal)和输出边界框,全部用 RepPoints 的表示替换后,就得到了一种基于 RepPoints 的物体检测器。如表1所示,在 COCO 物体检测基准数据集上,将物体表示方法从边界框更改为 RepPoints 时,RepPoints 获得了约2 mAP的性能提升。如表2所示,基于 RepPoints 的目标检测器(记作 RPDet)取得了 46.5 的单模型性能,是目前最好的无锚点(anchor-free)检测器之一。表1:RepPoints 和边界框两种物体表示方法在 COCO 物体检测上的比较表2:基于 RepPoints 的无锚点检测器(RPDet)的性能总体来讲,学习像 RepPoints 这样更丰富、更自然的物体表示方法是物体检测领域值得探索的方向。除了物体检测外,RepPoints 作为对物体的一种新的表示方法,也有望改进其他物体感知任务,例如物体分割等。目前 RepPoints 已公布论文和开源代码,如果您想了解更多细节,请查看:论文地址:https://arxiv.org/abs/1904.11490GitHub:https://github.com/Microsoft/RepPointshttps://www.zhihu.com/question/322372759https://www.jiqizhixin.com/articles/2019-04-30-7https://cloud.tencent.com/developer/article/1424704你也许还想看:
感谢你关注“微软研究院AI头条”,我们期待你的留言和投稿,共建交流平台。来稿请寄:msraai@microsoft.com。