南开大学提出最新边缘检测与图像分割算法,精度刷新记录(附开源地址)
参加 2018 AI开发者大会,请点击 ↑↑↑
作者 | 刘云、程明明、胡晓伟、边佳旺等
译者 | 刘畅
整理 | Jane
出品 | AI科技大本营
近日,南开大学媒体计算实验室提出的最新边缘检测和图像过分割(可用于生成超像素)被 IEEE PAMI 录用。研究的第一作者也发微博称:“这是第一个在最广泛使用的图像分割数据集 BSD500 上 F-Measure 评价值超越数据集本身人工标注平均值的实时算法。图像分割效果也刷新了精度记录。其算法也已经开源。”
先对各位作者进行简单的介绍:
一作 刘云,目前在实验室内攻读博士学位,他的博导也是程明明老师。从刘博士发布过的论文成果列表中可以看到,他在 CVPR、ICCV、ECCV 上都有投过论文。
论文的第二作者——程明明老师。2012 年博士毕业于清华大学,之后在英国牛津从事计算机视觉研究,并于 2014 年回国任教,2016 年起任南开大学教授,国家“万人计划”青年拔尖人才,首批天津市杰出青年基金获得者。其主要研究方向包括:计算机图形学、计算机视觉、图像处理等。已在 IEEE PAMI, ACM TOG 等 CCF-A 类国际会议及期刊发表论文 30 余篇。
三作 胡晓伟。四作 边佳旺,目前就职于华为 media computing Lab。这四位作者都来自于南开大学媒体计算实验室。另外三位作者为 Le Zhang(南洋理工大学,ADSC)、Xiang Bai(华中科技大学,HUST)、唐金辉(南京理工大学,NUST)
下面 AI科技大本营就为大家分析讲解这个算法。先把相关介绍和开源地址分享给大家:
https://mmcheng.net/zh/rcfedge/
http://mftp.mmcheng.net/Papers/19PamiEdge.pdf
https://github.com/yun-liu/rcf
在计算机视觉领域,边缘检测属于一个经典问题。在近期的研究中,卷积神经网络(CNN)方法已经显著的推动该领域的发展。现有的方法,由于使用特定层数的卷积神经网络,可能无法成功提取复杂的数据模型,其中这些数据会随着图像尺度和纵横比进行变化。在本文中,我们提出了一种使用更丰富的卷积特征(Richer convolution features, RCF)的精准边缘检测方法。
RCF 方法将所有卷积特征封装成一种更具判别性的表达,这样就可以很好地利用丰富的特征层次结构,并且该方法也可以通过反向传播进行训练。RCF 方法充分利用目标的多尺度和多级信息来实现图像到图像(image-to-image)的预测。
程明明老师在他的微博中分享说:”这里面最核心的是 Richer feature: 每个 stage 里面的所有 conv 层都是有用的,而不是传统只要每个 stage 的最后一个 conv 层。这是很通用的技巧,基本上干什么任务都用得着,而且改几行代码就能实现。“
(来源:程明明老师的个人微博)
使用 VGG16 网络,我们的方法在几个公共数据集上有最好的性能(state-of-the-art)。在BSDS500基准数据集上进行测试评估时,F-Measure 分数(F-measure) 我们取得了 0.811 的成绩 ,并同时获得了8 FPS的速度。此外,快速版的 RCF 方法取得了 0.806 分和 30 FPS 的速度。为了证明所提出方法的多功能性,我们还将 RCF 检测的边缘应用于图像分割问题。
我们构建了一个基于 VGG16 的简单神经网络,以得到 conv3_1,conv3_2,conv3_3,conv4_1,conv4_2 和 conv4_3 这几层每层的输出。通过上图,可以清楚地看到卷积特征逐渐变得粗糙,并且中间层 conv3_1,conv3_2,conv4_1 和 conv4_2包含许多有用的精确细节,而这些细节没有在其他层中出现。
上图展示的是 RCF 网络架构。网络的输入是具有任意大小的图像,而网络的输出是具有相同大小的边缘检测图。我们将每个卷积层的层次特征组合成一个整体框架,而其中的所有参数都是可以训练学习的。由于 VGG16 中卷积层的感受野大小彼此不同,因此我们的网络可以学习多尺度,包括低尺度和对象级的信息,而这些信息将有助于边缘检测。
上图是该多尺度算法的管道图。调整原始图像的大小以构建图像金字塔。然后将这些多尺度图像输入到 RCF 网络中进行正向传递。接着,我们使用双线性插值将结果边缘检测图恢复为原始大小。对这些边缘图进行简单平均计算就可以输出高质量边缘图。
在 BSDS500 数据集上的评估结果
上图是超过 50 年的边缘检测方法性能总结。 我们的方法是第一个比人类注释器获得更好 F-Measure 分数的实时系统。
--【完】--
2018 AI开发者大会
AI技术年度盛会即将开启!11月8-9日,来自Google、Amazon、微软、Facebook、LinkedIn、阿里巴巴、百度、腾讯、美团、京东、小米、字节跳动、滴滴、商汤、旷视、思必驰、第四范式、云知声等企业的技术大咖将带来工业界AI应用的最新思维。
如果你是某个AI技术领域的专业人才,或想寻求将AI技术整合至传统企业业务当中,扫码填写大会注册信息表,我们将从中挑选出20名相关性最高的幸运读者,送出单场分论坛入场券。大会嘉宾阵容和议题,请查看文末海报。
此外,如果你想与所有参会大牛充分交流沟通,点击阅读原文购票,使用优惠码:AI2018-DBY 购买两日通票,立减999元;此外大会还推出了1024定制票,主会+分会自由组合,精彩随心。
推荐阅读
机器学习未来十年:你需要把握的趋势和热点
一个正经的机器学习项目:关于那些羞羞的不可描述的动作分析
影响 5000 万开发者,GitHub 与 CSDN 掌舵人对话技术社区未来
区块链vs.DAG, 区别到底是什么? 一文读懂烧脑的数据结构之争
YC陆奇发起知乎第一问:怎样的环境才能让更多AI创业公司成功?
点击「阅读原文」,查看大会更多详情。2018 AI开发者大会——摆脱焦虑,拥抱技术前沿。