论文推荐 | Character region awareness for Text Detection (有源码）

Original 马伟洪 CSIG文档图像分析与识别专委会 2022-07-11

本文简要介绍CVPR2019文字检测论文”Character region awareness for Text Detection”。

一、研究背景

场景文本检测的方法，大致可以分为基于回归的方法（例如TextBox、EAST、DMPNet、DirectReg等）、基于分割的方法（PixelLink、SSTD、TextSnake、PSENet等）、端到端检测方法（FOTS, TextBox++、Mask TextSpotter)、部件或字符级检测的方法（例如CTPN、SegLink、WordSup）等几大类。

本论文提出的模型CRAFT是一种基于字符级检测的方法。论文提出了一个新的文本检测器思路，网络的输出包括像素级的区域置信度，以及预测像素级字符连接的置信度输出。其中区域置信度用来得到单字的输出, 字符连接用来对输出的单字进行组合, 经过简单的后处理得到最后的文本行检测结果。由于现有的场景文本数据集都是基于文本行的标注, 训练数据缺少字符级别的标注，因此论文中提出了一种有效的半监督训练方法，并不需要字符级标注监督信息。

二、方法概述：标注生成

Fig1.

CRAFT是一种基于pixel级别回归的方法, 因此需要对于图中的每个像素生成标注。

具体的做法是论文中对于区域置信度(region score)以及连接置信度(affinity score)通过生成以文本框为中心的高斯区域，由于字符大多是任意四边形框, 直接生成任意四边形的高斯区域花费时间更长, 论文中通过直接对矩形的2D高斯图作投影变换, 得到映射后的任意四边形高斯区域。其中连接置信度(affinity score)的四边形区域则通过相邻两个字符的中心来连接(如图1所示)，通过这种方法我们可以得到更大的文本连接区域, 更有利于网络学习回归。

三、方法概述：Weakly-Supervised Learning

Fig2.Weak-supervised learning

由于已有的数据集大多缺少单字符的标注, 实验中通过合成数据集以及半监督的训练方法来训练网络, 先通过合成数据来强监督得到预训练模型, 对于真实数据, 通过上图的流程, 来提取行中的单字作为伪GT来半监督训练。

具体的做法如图2所示，从数据集中将文本行提取出来, 送入网络得到字符的region score, 再利用分水岭(watershed)算法来区分开不同的字符, 从而得到每个文本行的字符框, 最后利用相反的操作得到字符框在原图的区域。

由于通过这种方法得到的伪GT不一定足够准确, 现有的数据集也有标注识别的结果, 通过识别结果我们可以知道文本行的单字符个数, 因此结合字符个数来判断伪GT的置信度,作为loss回传的比例。Loss回传比例的计算公式如下所示，其中l(w) 表示GT文本行长度，lc(w)表示通过上述方法得到的预测长度。

四、方法概述：Overall training pipeline

Fig3. model pipeline

图3即为模型的整个训练流程，其中backbone网络伪Vgg-16, 分割的网络类似于U-net的网络结构. 先利用合成数据训练，再结合真实数据一起训练, 其中伪GT的生成方式如上所述, 通过伪GT来监督真实数据的训练, 伪GT在回传时结合识别标注的字符个数, 作为loss回传的置信度, 通过这种半监督的训练方法, 最后得到文本行的confidence map。

模型训练的Loss包括以下两个部分，为region score以及affinity score的损失累加，再乘以伪GT的置信度，作为回传的Loss。

通过后处理，可以实现对任意形状（例如曲线）文本的检测。如下图所示为生成多边形检测框的后处理示意图。

五、实验结果

Fig4. Experiment results

CRAFT 方法在数据集IC13, IC15, IC17, MSRA-TD500都取得很高的性能指标（图4）, 尤其在IC13上领先最多。在TotalText及SCUT-CTW1500两个曲线文本检测数据集上也取得了目前为止最好的实验结果（见下表）。

六、总结

CRAFT有以下几个特点：

由于论文中不直接预测文本行, 而是得到字符级别的region score, 因此CRAFT可以实现对多方向以及任意形状文本的检测。此外CRAFT对于不同尺度的文本也有较好的鲁棒性。
对于一些一笔连成的文本例如阿拉伯语, 论文中半监督的训练方法可能存在一定困难, 因为不能通过字符的间距来区分开得到单字符。
从效果来看，对于单字间隔较大的文本行，通常字符连接(affinity score)更难回归出来，效果不一定够理想。

参考资料

论文地址: https://arxiv.org/abs/1904.01941v1
模型前向代码地址: https://github.com/clovaai/CRAFT-pytorch

论文原作者: Youngmin Baek, Bado Lee, Dongyoon Han, Sangdoo Yun, and Hwalsuk Lee

公众号文章作者：马伟洪

编排：高学

发布：金连文

（长按识别上图二维码加关注）

噩耗传来！她的遗体被找到

事关收入，赶紧确认！！！

万年县委书记毛奇案，又有新消息！

不生娃不买房，李健自曝消失3年真相：永远不要和人性较劲

三联，刺痛了多少中国人

论文推荐 | Character region awareness for Text Detection (有源码）

您可能也对以下帖子感兴趣

噩耗传来！她的遗体被找到

事 关 收 入 ，赶 紧 确 认 ！！！

万年县委书记毛奇案，又有新消息！

不生娃不买房，李健自曝消失3年真相：永远不要和人性较劲

三联，刺痛了多少中国人

生成图片，分享到微信朋友圈

论文推荐 | Character region awareness for Text Detection (有源码）

您可能也对以下帖子感兴趣

事关收入，赶紧确认！！！