计算机视觉中的深度学习专题简介
The following article is from 中国科学杂志社 Author 中国科学信息科学
自从2012年深度学习算法在图像分类任务中取得举世瞩目的成绩后, 深度学习逐渐取代了传统的统计学习成为计算机视觉的主流框架和方法, 呈现出巨大的优势, 在世界范围引起学术界和工业界的广泛关注. 基于深度学习的计算机视觉 (特别是视觉智能感知与决策) 已经是我国《新一代人工智能发展规划》的重要研究内容, 在智能驾驶、无人系统、机器人、人机交互、视频监控、生物特征识别等领域发挥着越来越重要的作用. 然而, 为了满足智能视觉感知与决策等计算机视觉系统在处理复杂不可控等场景下的高性能、高效率、高智能等具有现实意义的技术要求, 还需要在深度学习理论和算法上持续进行更多创新性工作.
Feature context learning for human parsing
Huang, Tengteng; Xu, Yongchao; Bai, Song; Wang, Yongpan; Bai, Xiang
Uncertainty-optimized deep learning model for small-scale person re-identification
Zhao, Cairong; Chen, Kang; Zang, Di; Zhang, Zhaoxiang; Zuo, Wangmeng; Mia, Duoqian
Irregular scene text detection via attention guided border labeling
Chen, Jie; Lian, Zhouhui; Wang, Yizhi; Tang, Yingmin; Xiao, Jianguo
提出了一种注意力导引的模型, 在文本区域加权边界处的标签化中发挥了重要作用, 得到了较好的不规则场景文本检测效果.
RPNET: attention region proposal network for 3D object detection
Ye, Yangyang; Zhang, Chi; Hao, Xiaoli
提出了一种基于注意力机制的候选区域选择网络 (RPN), 具备利用形状统计信息的作用, 提高了从点云数据中检测三维物体的能力. 需要指出的是, 虽然严格地讲基于点云数据的物体检测并未直接利用视觉数据, 但该任务和计算机视觉具有密切的联系, 具有相互促进的作用, 且在智能驾驶等任务中二者通常会进行协同感知. 因此, 将基于点云数据的三维物体检测列入本专题的范畴.
在端到端深度卷积神经网络框架下, 上述论文分别从注意力机制 (Ye等, Chen等)、上下文利用 (Huang等) 和采样策略 (Zhao等) 等不同角度, 分别解决或缓解了分割不一致性、小样本重识别、不规则场景文本检测、形状先验信息缺失等问题, 显著提升了不同计算机视觉任务的性能.
点 “阅读原文” 下载文章PDF全文