[ACM MM 2021] | RecycleNet:一种重叠的文本实例的恢复方法
一、研究背景
在现实场景中,发票和试卷,通常会出现文本间相互重叠的现象。如图1所示,“开票日期”和上面的数字重叠在一起,给文字识别带来了挑战。为了识别重叠的文本,如下图2所示,对于一张题目和手写重叠的图片,作者尝试了三种不同的解决方案并分析了他们各自的缺点。经过分析和观察,作者发现重叠文本实例的恢复是一个多像素多用途的问题,也就是说重叠的像素应该归属于多个实例。因此,如果重叠的像素能够被定位且回收到相关的实例上,那么这些实例就能够被重建而且不丢失任何笔画。
图 2 识别重叠文本的不同方案。
其中(A)基于CTC的方法需要单行的文本检测器,而(B)基于注意力的方法不需要,但是他们都不能准确识别文本重叠的区域。(C)基于分割的方法虽然能够提取文字的mask,但是文本重叠的区域仍然有笔画的丢失。(D)RecycleNet能够提取并恢复重叠的文本,并且保留了完整的笔画。
二、方法介绍
图 3 整体框架
网络的整体框架如图3所示,RecycleNet包含了两个子网络:第一个阶段是轮廓提取网络(E-Net),第二个阶段是轮廓优化网络(P-Net)。下面将详细介绍这两个子网络。
2.1 轮廓提取网络(E-Net)
E-Net的目标是提取输入图片上的文本实例,关于轮廓提取网络的设计,作者分别尝试了如图4中的不同方案。分别是根据颜色特征,采用颜色聚类的方法去分离文本实例;采用One-hot标签的语义分割的方法;采用Multi-hot标签的语义分割方法。通过对比,作者发现采用了Multi-hot标签进行分割的方法最优。
图 4 不同重叠文本恢复方法的性能对比。从左到右的每一列分别表示:(1)上图是原始的图片,下图是通过两类颜色聚类方法所提取的实例;(2)One-hot标签的语义分割结果,上图是分割的Mask,下图是提取的实例;(3)Multi-hot标签的语义分割结果,上图是分割的Mask,下图是提取的实例;(4)P-Net的结果。其中(3)和(4)的上图所表示的红色像素是重叠位置的像素。
其中
2.2 轮廓优化网络(P-Net)
尽管E-Net显著提升了提取重叠文本的性能,但是仍然有笔画因遮挡而丢失的问题。作者通过研究笔画的特点,发现了非重叠的笔画都是清晰的,而丢失的笔画通常是这些清晰笔画的延伸。因此对于某个存在笔画丢失的文本实例,通过膨胀它当前的边界,如果膨胀后的边界和其它的实例有新的交叉像素,那么这些新的重叠区域就有可能是丢失的笔画。基于这样的发现,作者设计了P-Net来实现这个目标。P-Net由膨胀卷积
此外,E-Net和P-Net的损失函数采用的是二分类的交叉熵损失函数BCE loss,在训练时E-Net和P-Net先分开进行训练,随后再联合一起训练。
三、主要实验结果及可视化效果
论文使用的训练集是合成数据,合成数据包含了两种类型的标注,分别是每个文本实例的Mask和重叠部分的Mask,以及每个文本实例的字符序列标注。作者总共合成了100万张图片,其中每张图片上随机合成1-4个文本实例。作者还提供了一个测试集OverlapText-500,该数据来源于真实的金融文档和数学练习题,包含了500张人工标注的图片,标注的方式和训练集一致。
图 6 RecycleNet在真实场景下的可视化效果。(1)原始的输入图片。(2)输入图片的Mask标签。(3)RecycleNet输出的Mask。(4)RecycleNet最终的输出结果。图中的红色像素表示重叠的部分,非重叠部分用其他颜色表示。
表1是E-Net的消融实现。从8-10行可以看出,作者对比了文本重叠程度对性能的影响,发现在两个文本重叠的情况下,重叠程度15%和50%的性能比较接近,而重叠程度达到90%时,网络有一定的效果。此外,从倒数三行可以看出,作者对比了文本重叠数量对性能的影响,发现随着文本重叠数量的增加,性能会下降。而文本重叠数量为3时,文本区域的MIoU只有40.33%。
表2 轮廓优化网络(P-Net)的消融实验
表2是P-Net的消融实验,作者首先对比了E-Net和P-Net联合训练,以及单独训练的结果。从3-4行可以看出,两个网络联合训练的效果更好。此外,作者还对比了膨胀卷积参数的选择对性能的影响,发现最佳的选择是5x5的高斯卷积核。
表3 Recycle Net对识别性能的提升
表3作者采用了基于CTC和基于Attention的识别网络来验证Recycle Net的有效性,并且对比了RecycleNet不同阶段的输出结果对识别性能的影响。值得注意的是RecycleNet要求检测网络能够输出独立的文本实例或者一组重叠的文本实例,而通常的检测网络是用来提取单一的文本,因此如果采用一般的检测器,需要把重叠的检测结果拼在一起作为RecyleNet的输入,表3的倒数第二行验证了该方法的有效性。
四、总结
五、相关资源
参考文献
原文作者: Yiqing Hu, Yan Zheng, Xinghua Jiang, Hao Liu, Deqiang Jiang, Yinsong Liu, Bo Ren, Rongrong Ji
撰稿:黄宇浩
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
[ICDAR 2021]RF-Learning:基于特征互助的自然场景文字识别方法
[竞赛冠军方法分享] | PRCV 2021表格识别技术挑战赛--分阶段表格识别方案
论文推荐|[AAAI 2022]文本Gestalt: 基于笔画感知的场景文本图像超分辨率重构
竞赛冠军方法分享 | 基于多模态GCN和句子排序的POI生成方案
论文推荐|[ICDAR 2021]基于局部和全局金字塔掩模对齐的复杂表格结构识别(有源码)
论文推荐|[NeurIPS2021] 一个大规模开放域视频文本数据集和基于transformer的端到端文本识别算法(有源码)
论文推荐|[ACM'MM 2021] MAYOR: 再思考基于Mask R-CNN的密集任意形状自然场景文本检测
论文推荐|[ICCV 2021] 面向表格结构识别的表格图重构网络(有源码)
论文推荐|[ICCV 2021] 联合视觉语义推理:文本识别的多级解码器
论文推荐|[ICCV 2021] 面向未见单词识别:基于错误蒸馏的迭代式文本识别器
欢迎加入中国图象图形学学会!(附入会攻略)
扫描二维码,关注我们: