论文推荐|[AAAI 2020] TextScanner:依序阅读分类的鲁棒场景文本识别
本文简要介绍AAAI 2020录用论文TextScanner: Reading Characters in Order for Robust Scene Text Recognition。该论文分析了现有的场景文本方法,包括基于RNN注意力的方法以及基于语义分割的方法的局限性,针对上述方法存在的不足之处提出改进。
图1 本文方法的对比结果
场景文本识别任务在近几年得到很大的关注,现有的场景文本识别的方法主要分为两种,一种是基于RNN Attention的方法[1][2],通过对编码后的图片特征序列使用注意力机制来对准字符同时进行解码;一种是基于语义分割的方法[3][4],通过全卷积网络(FCN)输出分割图,利用连通域来确定字符的位置以及通道信息来确定字符的类别。
如图1所示,基于RNN注意力的方法在复杂背景或者弯曲文本的情况下,不能准确的定位到字符的位置,同时由于RNN的循环记忆机制,中间字符定位错误将会影响后续字符的识别,即“Attention Drift”问题,如图1第二行所示。基于分割的方法需要我们设定固定的阈值来得到二值化图,该二值化操作容易导致过分割或者欠分割的问题,如图1第三行所示。针对上面存在的问题,作者提出将字符定位以及分类由两个并行的分支来独立优化,避免对各自的干扰,对比的实验效果如图1所示。
图2 TextScanner框架图
本文提出的TextScanner框架包含两个分支,一个分支为字符分类分支,每个像素包含多通道的类别输出结果;另一个分支为几何属性分支,用来预测字符的位置以及顺序。字符中心的定位需要字符级别的标注作为监督信息,然而现实场景中缺少字符的标注数据。针对这个问题作者提出互监督机制,可以利用序列标注的信息来让分类分支以及几何分支互相监督。
Class Branch分支从Backbone网络提取特征图后,经过3x3,1x1的卷积核后,输出特征图尺度为HxWxC, 其中C代表的是所有的类别个数。
Geometry Branch分支从Backbone提取特征后,经过一个Sigmoid激活函数,输出特征图尺度为HxW,得到Localization Map。同时将Backbone提取的特征经过图3 的金字塔型的网络,得到Order Segmentation Map, 输出特征图尺度为HxWxN,其中N为预定义的文本行最长字符数。
通过上面两个分支的输出,我们分别得到Classification Map, G以及Order Map, H, 通过如下的公式计算第k个字符的所有类别的概率
图3 Geometry Branch中的FPN结构
图4 互监督在第一个字符时的可视化说明
现实场景中的数据缺少字符级别的标注,论文提出的方法先在合成数据集上预训练,在预训练模型的基础上,基于提出的互监督机制在真实的文本行数据上微调。假设给定的序列识别结果为T,对于第k个字符,我们可以得到它的顺序k以及对应的字符T(k)。将真实场景的文本行图片输入到预训练后的模型后分别得到Order Segmentation H, Localization Map Q以及 Character Segmentation G,如图4所示,对于第1个字符,从H中取出对应顺序为1的字符区域,和Q中的区域进行点乘,同理从G中取出识别结果为T(k)的区域,和Q中的区域进行点乘,分别得到两个特征图
训练过程,先利用合成数据来预训练模型,数据中通过预设置的高斯核生成字符区域的高斯图,获得字符的监督信息,接着在真实数据集上进行微调,训练的损失由四部分组成,为
表1 TextScanner和其它方法的对比
图5 可视化的效果图
表2 MLT2017数据集上的对比实验
表3 消融实验: 不同设置下性能对比
表1对比了论文的方法在常用的文本行数据集上的对比,本文的方法主要有两方面的优点,(1)本文基于分割的思路,保证得到的预测结果与视觉特征相关性更高,同时避免了RNN循环建模带来了误差累积的影响;(2)本文提出的Order Map从左到右扫描字符,符合正常的阅读顺序,同时提高了模型的性能,如图5所示列出了可视化的效果。
为了探索TextScanner在中文数据集上的有效性,表2给出了在MLT17数据集上对与CRNN[5],ASTER[6]的对比效果,相比之下TextScanner有很大的提高,主要得益于论文中将解码过程中的定位和分类独立出来,避免了Attention方法在中文字符等复杂结构下解码错误。
表3对Geometry Branch以及Order Map的效果做了消融实验,同时加上这两个设置达到的性能是最佳的,特别的在不规则数据集IC15以及SVTP上能够分别提高7.4%及10.2%。
本文分析了现有的文本行识别方法,包括基于attention解码方法及基于分割的识别方法,提出将分类分支和几何属性分支独立优化,保证字符顺序的预测不会受到分类错误的影响;同时论文提出了互监督机制,使得字符顺序的输出结果能够在微调阶段监督分类分支的结果。
论文通过实验证明了该方法在现有的文本行数据集上的性能,对于困难的文本行数据也能有很好的处理能力。
TextScanner论文地址:https://arxiv.org/pdf/1912.12422.pdf
CRNN论文地址: https://arxiv.org/pdf/1507.05717.pdf
ASTER论文地址: https://ieeexplore.ieee.org/document/8395027
原文作者:ZhaoyiWan, Minghang He, Haoran Chen, Xiang Bai, Cong Yao
编排:高 学
审校:殷 飞
发布:金连文
论文回顾|[ICDAR 2019] DeepSignDB:大规模联机签名数据集 论文推荐|[CVPR 2020]UnrealText:基于虚拟场景的真实场景文本图像合成 论文推荐|[CVPR 2020]增广学习:面向文本行识别的网络优化协同数据增广方法 论文推荐|[IEEE TPAMI 2020] TE141K:用于文字风格转换的大规模艺术文字数据库 论文推荐|[CVPR2020] SwapText: Image Based Texts Transfer in Scenes 论文推荐|[CVPR 2020]: 基于深度关系推理图网络的任意形状文本检测(有源码) 论文推荐|[PR 2020] 汉字层次学习的自由基分析网络 论文推荐|[AAAI 2020] GTC: CTC引导训练实现有效准确的场景文本识别 论文推荐|[AAAI 2020] 用于算术习题自动批改的结构文本精确识别方法 10篇与文档图像分析识别相关的AAAI 2020论文(附下载链接)
欢迎加入中国图象图形学学会!(附入会攻略)
(扫描识别如上二维码加关注)