论文推荐|Look More Than Once:An Detector for Text of Arbitrary Shape
由于场景文字检测在现实生活中应用广泛,因此该领域受到了学术界和工业界的广泛关注。近年来,多种场景文字检测方法已经取得了巨大的进步并实现了不错的检测性能。但是,由于卷积神经网络的感受野和例如矩形框或四边形等简单的目标表达方式的限制,过去的场景文字检测方法在检测较长的文字行或不规则形状的文字行时常常无法得到较好的检测结果。
Fig 1. Overall architecture.
Fig 1是LOMO的整体网络结构。LOMO整体网络结构可以分成四个部分,包括主干网络、DirectRegressor (DR)、Iterative Refinement Module (IRM)和Shape Expression Module (SEM)。LOMO以ResNet50 [1]和FPN [2]作为主干网络,其中主干残差网络的第二、三、四和五阶段的特征图以FPN的形式有效的融合在一起。然后,LOMO用一个类似EAST [3]和Deep Regression [4]的回归网络作为DirectRegressor分支,其每个像素点都预测文字或文字行四边形。
由于感受野的限制,DirectRegressor在检测长文字行时往往检测不全完整的文字行。为解决该问题,论文设计了一个Iterative Refinement Module,通过迭代修正来自DirectRegressor的文字行候选框,使预测框能逐渐覆盖完整文字行。此外,对于不规则文字行,四边形的候选框会包含较多背景区域。
为了得到更加紧致的文字行表达,论文设计了一个Shape Expression Module,通过学习文字行的几何特性,比如文字行区域、文字行中心线和文字行边界偏差(中心线到上下边界的距离)来重构文字行目标的形状表达。
Fig 2是论文Iterative Refinement Module(IRM)的详细网络结构。IRM的网络结构设计继承了基于区域的目标检测方法的精髓,把整个目标检测任务视为仅有包围框的回归任务。受通用目标检测模型Faster R-CNN [5]的启发,把DirectRegressor生成的检测框作为候选框,经过RoI transform层将不规则四边形转换成矩形。
IRM的设计切入点是在固定大小的感受野下,更靠近文字行角点的位置可以感知更加准确的边界信息。因此,对于RoItransform层之后的特征图,用卷积层和Sigmoid激活函数自适应学习4个角点注意力图。角点注意力图的数值表示该位置对应角点坐标偏差回归的贡献权重。IRM可以根据每次迭代的收益来决定是否继续迭代,直到IRM的输出能够覆盖完整文字行。
Fig 3是论文Shape Expression Module(SEM)的详细网络结构。受Mask R-CNN [6]的启发,本文提出了一个基于候选框的SEM来解决形状不规则文字行的检测问题。SEM是一个带有RoItransform层的全卷积网络,对RoItransform层后的特征图进行两次上采样操作,然后通过学习文字行的三种不同属性,包括文字行区域(Text Region)、文字行中心线(Text Center Line)和边界偏差(Border Offsets)来重构不规则文字行的精确形状表达。
TABLE 1. Ablations for refinement times (RT) of IRM.
TABLE 1验证了IRM对长文字行检测的显著优势,随着迭代次数的增加,IRM的检测性能也会提高。为了兼顾性能与效率,本文将迭代次数设置为2。TABLE 2体现了SEM对不规则文字行检测的巨大收益,验证了本文设计的文字行表达方式可以灵活紧凑地表达不规则文字行。
由TABLE 3、TABLE 4、TABLE 5来看,本文所提方案在ICDAR2017-RCTW,SCUT-CTW1500, Total-Text, ICDAR2015以及ICDAR2017-MLT数据集上取得了state-of-the-art的结果。
Fig 4是LOMO不同模块在不同数据集上的检测结果可视化,Fig 4验证了IRM在检测长文字行时可以覆盖更完整的文字区域,SEM可以更加准确地检测不规则文字行。(更详细的内容请参考原文,链接附后)。
LOMO论文地址:https://arxiv.org/pdf/1904.06535.pdf Mask R-CNN论文地址:https://arxiv.org/pdf/1703.06870.pdf ResNet论文地址:https://arxiv.org/pdf/1512.03385.pdf Deep Regression论文地址:https://arxiv.org/pdf/1703.08289.pdf Feature Pyramid Network论文地址:https://arxiv.org/pdf/1612.03144.pdf Faster R-CNN论文地址:https://arxiv.org/pdf/1506.01497.pdf EAST论文地址:https://arxiv.org/pdf/1704.03155.pdf
撰稿:梁柏荣
编排:高 学
审校:殷 飞
发布:金连文
免责声明:(1)本文仅代表撰稿者观点,个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
[CVPR2019 Oral] 一种基于RNN自适应文字区域表示的自然场景图像中任意形状文字检测方法 CAAI AIDL 演讲实录丨金连文:“场景文字检测与识别:现状及展望” [IJCAI 2019] BDN:一种利用顺序无关定位盒分解的任意方向场景文本检测方法(有源码) [TPAMI 2019] Mask TextSpotter:An End-to-End Trainable Neural Network [CVPR 2019] Character region awareness for Text Detection (有源码) [Github] 史上最全场景文字检测资源合集 [Github] 史上最全场景文字识别资源汇集 [Github] 史上最全端到端场景文本检测识别资源合集 [AAAI 2019] DeRPN: 一种基于维度分解的候选区域提取网络(有源码) [ECML 2018] PAL:结合注意力和对抗机制的手写数学公式识别 [PR 2019] MORAN:一种基于像素级不规则文本纠正的识别新方法(有源码) [CVPR 2018] FOTS:Fast Oriented Text Spotting with a Unified Network
征稿启事:本公众号将不定期介绍一些文档图像分析与识别领域为主的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。请发Word版的图文介绍材料到:xuegao@scut.edu.cn
(扫描识别如上二维码加关注)