计算机视觉中的深度学习专题(2020)简介
The following article is from 中国科学杂志社 Author 中国科学信息科学
深度学习技术在许多研究领域都取得了巨大的成功, 尤其在计算机视觉领域取得了显著的进展. SCIENCE CHINA Information Sciences从2019 年起持续组织出版“Special Focus on Deep Learning for Computer Vision" (计算机视觉中的深度学习专题), 旨在报道利用深度学习解决重要视觉任务的新思路.
Progressive rectification network for irregular text recognition
Yunze GAO, Yingying CHEN*, Jinqiao WANG & Hanqing LU
Ordinal distribution regression for gait-based age estimation
Haiping ZHU, Yuheng ZHANG, Guohao LI, Junping ZHANG* & Hongming SHAN
FACLSTM: ConvLSTM with focused attention for scene text recognition
Qingqing WANG, Ye HUANG, Wenjing JIA, Xiangjian HE, Michael BLUMENSTEIN, Shujing LYU & Yue LU*
提出了一种命名为ConvLSTM文本识别模型, 能够从二维空间直接识别场景文本. 在此基础之上, 该方法引入了注意力机制和字符中心位置来进一步对文本识别精度进行了提升.
CGNet: cross-guidance network for semantic segmentation
Zhijie ZHANG & Yanwei PANG*
提出了一个新的网络框架CGNet, 能够同时进行语义分割、边缘检测和显著性检测三种视觉任务. 在边缘检测与显著性检测子网络的引导下, CGNet的语义分割性能能获得显著提升.
05SynthText3D: synthesizing scene text images from 3D virtual worlds
Minghui LIAO, Boyu SONG, Shangbang LONG, Minghang HE, Cong YAO & Xiang BAI*
提出了一种通过三维虚拟世界产生场景文本图像的特别思路. 通过三维虚拟环境产生的文本图像数据具有理想的视觉效果, 涵盖了透视变换、光照与遮挡等多种变化, 可用于训练更鲁棒的文本检测模型.
06Preserving details in semantics-aware context for scene parsing
Shuai MA, Yanwei PANG*, Jing PAN & Ling SHAO
通过嵌入丰富低层语义信息来改进语义分割网络的空间解码过程. 该方法能够更精确地获取语义分割所需要的细节特征.
此外, 4篇短文也带来了在不同视觉任务中的积极进展. Gao等提出了一种判别式自动编码器, 能够学习得到更加鲁棒的特征表示. Wang等探讨了跨模态商品图像搜索中的注意力机制. Cui等研究了基于单步检测网络的小目标定位问题. Wang等介绍了如何有效利用三维混合形状信息来提升人脸表情识别精度.
您可能还感兴趣:计算机视觉中的深度学习专题简介
观点与争鸣 | 探究平均准确度AP指标的缺陷及其影响