在物体检测任务上进行预训练的实验分析
©PaperWeekly 原创 · 作者|费玥姣
学校|西湖大学博士生
研究方向|视频预测
本工作主要将在物体检测上进行预训练的 CNN 模型在不同的视觉任务上的结果进行分析:
在大的数据集(包括 OpenImagesV4, ImageNet Localization and COCO)预训练检测器,再将特征用到分类、分割、小数据集检测上(比如 PASCAL-VOC, Caltech-256, SUN-397, Flowers-102)。
OD 预训练对于小数据集的 OD 有很好的效果 OD 预训练有利于分割但是不利于分类 检测中的图像特征和分类中的更接近,但是反之不是 神经元可视化反应分割网络更注重整体而分类网络更注重细节
简介
对于多种视觉任务如物体检测、图像分割、图片分类等,通常会在大型数据集上进行预训练,实验证明预训练往往能帮助模型获得更好的结果,更快收敛。
3.1 物体检测的Finetune:
检测预训练在 PASCAL-VOC 上 finetune 后,在不同 IoU 阈值上都有提升。
3.2 语义分割
Baseline:还是 Deformable ConvNets 作为 Backbone 模型,在 PASCAL-VOC 2012 进行语义分割 finetune,结果发现有 3 个点的提升:
进行了 trimap experiment 判断这个提升是否是由于边缘像素点的分割效果更好造成的。trimap experiment 计算针对距离边缘长度为 x 的像素分类精确度,anti-trimap experiment计 算除去边缘的像素分类精确度。
发现随着边缘区域的增大,两种预训练模型的 IoU 之间的差别不变,对于远离边缘的像素点来说也是一样,因此得出结论分割模型的好坏不是由于边缘像素分类精确度造成的。
3.3 图像分类
为了研究为什么会产生这样的现象,这里将图片分类的预训练模型中的特征提取出来进行分析。
用 k-means 聚类,检查在 OpenImages 的 embedding 里是同一个 cluster 的图片对,在 ImageNet Cls 的 embedding 里是否是一个 cluster 中的,反之亦然,得到的结果如下,在 OpenImages 特征空间中相似的图片,在 ImageNet Cls 中更可能相似,而反之不是这样。
3.4 可视化
Mask-out可视化:用一个 60x60 的空白遮罩在图像中移动,得到遮罩在不同位置的输出正确类别的置信度。下图可见在 ImageNet-CLS 中的许多位置(如狗和骆驼的头部)分类得分接近于零,而在 OpenImage 中不是。
更多阅读
#投 稿 通 道#
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。
📝 来稿标准:
• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志
📬 投稿邮箱:
• 投稿邮箱:hr@paperweekly.site
• 所有文章配图,请单独在附件中发送
• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。