@所有雄安人!一定要看!

@所有雄安人!一定要看!

广西冯波律师涉黑案|冯母:我儿长在风波亭畔,冤在柳侯祠前

以项目论英雄,凭实绩排座次!日照这场专题会议传递强烈信号!

涿州,原来有这么多人需救援!

生成图片,分享到微信朋友圈

自由微信安卓APP发布,立即下载! | 提交文章网址
查看原文

[ACM MM 2021] | RecycleNet:一种重叠的文本实例的恢复方法

黄宇浩 CSIG文档图像分析与识别专委会 2022-07-11
本文简要介绍ACM MM 2021录用论文:“RecycleNet An Overlapped Text Instance Recovery Approach”的主要工作。该工作针对重叠文本的识别问题,提出了一种分离并恢复重叠文本的方法RecycleNet。该网络能够作为即插即用的模块,进一步提升现有识别系统的性能。此外,该论文提出了一个新的数据集OverlapText-500,为推动重叠文本恢复和识别的研究提供帮助。

一、研究背景



图 1 真实场景中重叠的文本:如图所示现有的识别方法不能直接识别重叠的文本,然而RecycleNet能够分离重叠的文本实例,使得重叠的文本也能够识别。

在现实场景中,发票和试卷,通常会出现文本间相互重叠的现象。如图1所示,“开票日期”和上面的数字重叠在一起,给文字识别带来了挑战。为了识别重叠的文本,如下图2所示,对于一张题目和手写重叠的图片,作者尝试了三种不同的解决方案并分析了他们各自的缺点。经过分析和观察,作者发现重叠文本实例的恢复是一个多像素多用途的问题,也就是说重叠的像素应该归属于多个实例。因此,如果重叠的像素能够被定位且回收到相关的实例上,那么这些实例就能够被重建而且不丢失任何笔画。 

图 2 识别重叠文本的不同方案。

其中(A)基于CTC的方法需要单行的文本检测器,而(B)基于注意力的方法不需要,但是他们都不能准确识别文本重叠的区域。(C)基于分割的方法虽然能够提取文字的mask,但是文本重叠的区域仍然有笔画的丢失。(D)RecycleNet能够提取并恢复重叠的文本,并且保留了完整的笔画。

为了实现重叠文本的提取和恢复,作者设计了一个两阶段的网络RecycleNet。在第一个阶段,网络关注于文本像素的分割,对于重叠和非重叠的像素,作者都采用了Multi-hot的标签。在第二个阶段,网络关注于重叠文本的恢复,它利用了第一阶段的分割结果作为输入,最后输出恢复好的文本实例。

二、方法介绍



图 3 整体框架

网络的整体框架如图3所示,RecycleNet包含了两个子网络:第一个阶段是轮廓提取网络(E-Net),第二个阶段是轮廓优化网络(P-Net)。下面将详细介绍这两个子网络。

2.1 轮廓提取网络(E-Net)

E-Net的目标是提取输入图片上的文本实例,关于轮廓提取网络的设计,作者分别尝试了如图4中的不同方案。分别是根据颜色特征,采用颜色聚类的方法去分离文本实例;采用One-hot标签的语义分割的方法;采用Multi-hot标签的语义分割方法。通过对比,作者发现采用了Multi-hot标签进行分割的方法最优。 

图 4 不同重叠文本恢复方法的性能对比。从左到右的每一列分别表示:(1)上图是原始的图片,下图是通过两类颜色聚类方法所提取的实例;(2)One-hot标签的语义分割结果,上图是分割的Mask,下图是提取的实例;(3)Multi-hot标签的语义分割结果,上图是分割的Mask,下图是提取的实例;(4)P-Net的结果。其中(3)和(4)的上图所表示的红色像素是重叠位置的像素。

具体地,给定一张带有N个文本实例的输入图片(实验中N的数量设置为4),那么它的Multi-hot标签可以表示为,其中P上的每个元素都采用N-hot进行编码。因此E-Net的预测结果定义如下: 

其中是全卷积网络(实验中采用了U-Net[1])。最后作者根据阈值β(实验中β为0.5),选取预测概率的结果,其中表示该像素属于实例k的概率。

2.2 轮廓优化网络(P-Net)

尽管E-Net显著提升了提取重叠文本的性能,但是仍然有笔画因遮挡而丢失的问题。作者通过研究笔画的特点,发现了非重叠的笔画都是清晰的,而丢失的笔画通常是这些清晰笔画的延伸。因此对于某个存在笔画丢失的文本实例,通过膨胀它当前的边界,如果膨胀后的边界和其它的实例有新的交叉像素,那么这些新的重叠区域就有可能是丢失的笔画。基于这样的发现,作者设计了P-Net来实现这个目标。P-Net由膨胀卷积和全卷积网络构成,其中膨胀卷积是一种数学形态学操作,而全卷积网络采用了和E-Net相同的U-Net结构。

具体地,P-Net利用了E-Net输出的分割图,其中表示的是实例的分割图。首先我们将膨胀卷积作用在每个实例的分割图上,得到了 
然后我们将实例i膨胀后的像素和膨胀前的像素分别定义为,两者相减可以得到通过膨胀产生的像素,如下式所示: 
类似地对于其他实例j,我们把它所包含的像素定义为,如果有重叠,那么实例j有可能偷走了实例i的一部分像素,我们需要给实例i添加上这一部分像素。因此我们可以根据这样的规则去更新实例i的分割图,更新的规则如下所示: 
经过上述的膨胀卷积操作后,我们可以得到膨胀后的分割图,然后将拼接在一起,输入到U-Net中得到最终的预测结果,过程如下所示: 

此外,E-Net和P-Net的损失函数采用的是二分类的交叉熵损失函数BCE loss,在训练时E-Net和P-Net先分开进行训练,随后再联合一起训练。 

图 5 P-Net中的膨胀操作

三、主要实验结果及可视化效果



论文使用的训练集是合成数据,合成数据包含了两种类型的标注,分别是每个文本实例的Mask和重叠部分的Mask,以及每个文本实例的字符序列标注。作者总共合成了100万张图片,其中每张图片上随机合成1-4个文本实例。作者还提供了一个测试集OverlapText-500,该数据来源于真实的金融文档和数学练习题,包含了500张人工标注的图片,标注的方式和训练集一致。

 图 6 RecycleNet在真实场景下的可视化效果。(1)原始的输入图片。(2)输入图片的Mask标签。(3)RecycleNet输出的Mask。(4)RecycleNet最终的输出结果。图中的红色像素表示重叠的部分,非重叠部分用其他颜色表示。

表1 轮廓提取网络(E-Net)的消融实验 

表1是E-Net的消融实现。从8-10行可以看出,作者对比了文本重叠程度对性能的影响,发现在两个文本重叠的情况下,重叠程度15%和50%的性能比较接近,而重叠程度达到90%时,网络有一定的效果。此外,从倒数三行可以看出,作者对比了文本重叠数量对性能的影响,发现随着文本重叠数量的增加,性能会下降。而文本重叠数量为3时,文本区域的MIoU只有40.33%。

表2 轮廓优化网络(P-Net)的消融实验 

表2是P-Net的消融实验,作者首先对比了E-Net和P-Net联合训练,以及单独训练的结果。从3-4行可以看出,两个网络联合训练的效果更好。此外,作者还对比了膨胀卷积参数的选择对性能的影响,发现最佳的选择是5x5的高斯卷积核。

表3 Recycle Net对识别性能的提升 

表3作者采用了基于CTC和基于Attention的识别网络来验证Recycle Net的有效性,并且对比了RecycleNet不同阶段的输出结果对识别性能的影响。值得注意的是RecycleNet要求检测网络能够输出独立的文本实例或者一组重叠的文本实例,而通常的检测网络是用来提取单一的文本,因此如果采用一般的检测器,需要把重叠的检测结果拼在一起作为RecyleNet的输入,表3的倒数第二行验证了该方法的有效性。

表4 RecycleNet对端到端检测识别性能的提升 
表4作者验证了RecycleNet对端到端检测识别网络的性能提升,因为端到端检测识别没有中间的检测结果,所以作者首先用RecycleNet对测试集中的重叠文本进行分离,然后再合成到空白的背景上,最后输入到端到端的检测识别器中,可以发现使用RecycleNet处理后,端到端检测识别的性能都有提升。此外,实验中对比所用的模型,都来源于它们各自的预训练模型。

四、总结



本文提出了一种重叠文本实例的恢复方法RecycleNet,它通过回收重叠的像素,来自动地提取和重建所有重叠的实例。RecycleNet并行于现有的文本检测识别系统,可以作为即插即用的模块提升识别的性能。此外论文还提供了一个新的开放数据集OverlapText-500(注:论文暂未提供下载链接),以便为后续的研究提供真实的训练及测试数据。

五、相关资源



论文地址:https://dl.acm.org/doi/abs/10.1145/3474085.3481536

参考文献



[1] O. Ronneberger, P. Fischer, and T. Brox, “U-net: Convolutional networks for biomedical image segmentation,” in International Conference on Medical image computing and computer-assisted intervention, pp. 234–241, 2015.

原文作者: Yiqing Hu, Yan Zheng, Xinghua Jiang, Hao Liu, Deqiang Jiang, Yinsong Liu, Bo Ren, Rongrong Ji


撰稿:黄宇浩

编排:高 学
审校:连宙辉
发布:金连文

 


免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。


往期精彩内容回顾

欢迎加入中国图象图形学学会!(附入会攻略)


征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: eelwjin@scut.edu.cn)。


扫描二维码,关注我们:



文章有问题?点此查看未经处理的缓存