尺度不变网络提升人群计数性能（附Github地址）

Original: 52CV君我爱计算机视觉 2019-06-22

(欢迎关注“我爱计算机视觉”公众号，一个有价值有深度的公众号~)

人群计数是通过计算机视觉计算人群数量，在公共安全和城市规划中有非常重要的应用。今天分享的文章通过改进网络对该任务的尺度不变性，显著提高了人群计数算法性能。

文章来自几天前arXiv新上论文《Stacked Pooling: Improving Crowd Counting by Boosting Scale Invariance》，作者信息：

在计算机视觉中尺度不变是经常被讨论的话题，与其相关最著名的算法就是大名鼎鼎的SIFT（尺度不变特征变换）了。该论文作者通过观察发现，在人群计数这一领域，图像不同区域通过resize到相同大小，在尺度上具有高度的视觉相似性。请看下面这幅图：

来自同一幅图像和不同的图像经过resize,子图内的人物大小、人群密度、层叠关系视觉上很相似。
由于神经网络中池化层直接关系到网络的尺度变化，所以本文作者希望改进池化层，提高人群计数的算法性能。

作者在vanilla pooling基础上发明了两种池化层变种，multi-kernel pooling 和 stacked pooling。
multi-kernel pooling图示：

stacked pooling图示：

为验证所提的池化层的有效性，作者们使用VGG-13网络的各种变形来进行人群计数。网络的变化包括卷积核大小，网络宽度、深度等，如下图所示：

作者在ShanghaiTech-A数据集上验证multi-kernel pooling在高密度组比vanilla pooling要好，而在整个ShanghaiTech-B数据集上multi-kernel pooling都是更好的。

使用stacked pooling方法的各种网络变种都在ShanghaiTech数据集上比vanilla pooling好，且具有明显的性能提升。

在WorldExpo’10数据集上大部分场景也取得了更好的效果。

代码主页：
https://github.com/siyuhuang/crowdcount-stackpool

OpenCV深度学习文本检测示例程序（EAST text detector）

MaskFusion:惊艳的结合实例感知、语义分割、动态追踪的SLAM系统

(欢迎关注“我爱计算机视觉”公众号，一个有价值有深度的公众号~)

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

中央批准朱军同志职务调整

三联，刺痛了多少中国人

戴上这手表，不止优雅，蛇年好运连连来

古琴养身：为什么弹古琴的女人会更有气质？99%的人都不知道！