关于全卷积神经网络的思考

mileistone 极市平台 2021-09-19

加入极市专业CV交流群，与6000+来自腾讯，华为，百度，北大，清华，中科院等名企名校视觉开发者互动交流！更有机会与李开复老师等大牛群内互动！
同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流。关注 极市平台 公众号，回复 加群，立刻申请入群~

作者：mileistone（媒智科技算法工程师）
来源：https://zhuanlan.zhihu.com/p/89954785
本文已由作者授权转载，未经允许，不得二次转载

图1 全卷积网络图解

最近一个月先后想明白了目标检测和图像分类、语意分割和图像分类之间的联系。

通过论文《Single-Stage Multi-Person Pose Machines》和《PolarMask: Single Shot Instance Segmentation with Polar Representation》，进一步找到了图像分类、语意分割、图像分类、多人姿态估计和实例分割之间的共同点。

即这些任务对应的模型大部分是全卷积神经网络，例如单阶段目标检测、语意分割等等，即使不是全卷积神经网络的图像分类模型，只要将最后一层fc换成1x1的conv，也就转换为了全卷积神经网络。

所有的任务都可以统一为一个全卷积神经网络，该全卷积神经网络输出的特征图如同昆虫的复眼，每个grid为一只眼睛，每只眼睛所看到的东西不一样，但是每只眼睛的视野范围相同（即，每只眼睛的感受野大小相同），每只眼睛单独工作，互不影响。具体可见图1，图像输入到全卷积网络中，输出的特征图大小为4*4，中间2*2个眼睛，每个眼睛看到的是图像不同的部位。

然后每只眼睛会判断：1、它看到了什么物体（类别）；2、这个物体有什么特点（属性，可选项）。

以图像分类为例子，每只眼睛（因为使用了global average pooling，图像分类只有一只眼睛）会判断它看到了什么物体（类别）。

以语意分割为例子，每只眼睛会判断它看到了什么物体（类别）。

以目标检测为例子，每只眼睛会判断它看到了什么物体（类别），这个东西的x offset、y offset、w、h分别是多少（属性）。

以实例分割为例子，每个眼睛会判断它看到了什么物体，以该眼睛所在的地方为中心，该物体的36条极线分别有多长（属性）。

其他基于CNNs的计算机视觉任务可依次类推。

总结一句话就是：基于CNNs的任务的核心是全卷积神经网络，全卷积神经网络输出的特征图像昆虫的复眼，每个grid都是一只眼睛，每只眼睛的感受野相同，但是看到的内容不同，每只眼睛独立判断它看到了什么东西，这个东西有什么属性。

根据这一点，我们能更好的理解业界为了解决某种计算机视觉任务而设计的模型，当面对业界还没有研究过的计算机视觉任务时，我们也能自己设计出模型。

-End-

*延伸阅读

CV细分方向交流群

添加极市小助手微信（ID : cv-mart），备注：研究方向-姓名-学校/公司-城市（如：目标检测-小极-北大-深圳），即可申请加入目标检测、目标跟踪、人脸、工业检测、医学影像、三维&SLAM、图像分割、OCR、姿态估计等极市技术交流群（已经添加小助手的好友直接私信），更有每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流，一起来让思想之光照的更远吧~

△长按添加极市小助手

△长按关注极市平台

觉得有用麻烦给个在看啦~

: ， . Video Mini Program Like ，轻点两下取消赞 Wow ，轻点两下取消在看

反向激励，在加速这个社会的黑化

俄乌打仗，中国损失惨重，高达数千亿美元，未来损失不可估量

重磅突发！中国银行，中国工商银行、建设银行、中信银行、兴业银行，停止接受来自俄罗斯的人民币付款！

强制购买公墓，湖北随州太随意

钢琴《偏偏喜欢你》：有些人一旦遇见，便一眼万年

关于全卷积神经网络的思考

卷积神经网络中十大拍案叫绝的操作！

卷积神经网络的复杂度分析

流形上的卷积

您可能也对以下帖子感兴趣

反向激励，在加速这个社会的黑化

俄乌打仗，中国损失惨重，高达数千亿美元，未来损失不可估量

重磅突发！中国银行，中国工商银行、建设银行、中信银行、兴业银行，停止接受来自俄罗斯的人民币付款！

强制购买公墓，湖北随州太随意

钢琴《偏偏喜欢你》：有些人一旦遇见，便一眼万年

生成图片，分享到微信朋友圈

关于全卷积神经网络的思考

卷积神经网络中十大拍案叫绝的操作！

卷积神经网络的复杂度分析

流形上的卷积

您可能也对以下帖子感兴趣