查看原文
其他

论文推荐|[ECCV2020] 可以看清吗? 使用角度监督进行内容感知纠正

张家鑫 CSIG文档图像分析与识别专委会 2022-07-11

本文简要介绍ECCV2020录用论文“Can You Read Me Now? Content Aware Rectification using Angle Supervision”的主要工作。该论文主要针对移动设备拍摄的文档图像进行几何校正,进而获得平整的文档图像,增强文档图像可阅读性的同时提升下游任务的效果。

图1 本文方法效果

一、研究背景



文档是如今记录和传播信息的常用载体。对大量纸质文档进行数字化并利用OCR系统自动化地提取文档中的信息具有很大的应用价值。传统数字化方法利用平面扫描仪,但是设备昂贵且笨重。现如今随着移动设备的普及,人们经常用其内置摄像头来充当数字化工具。但这种拍摄得到的文档图像通常含有折叠、弯曲、褶皱等问题,再加上拍摄角度、环境光照、文档内容的复杂多变,使得现有的OCR系统在这类图像上不能有很好的效果。近期有研究[1][2]利用深度学习方法来矫正文档几何的形变,但是他们更关注文档的边界信息,而没有把注意力放在文档的内容上面。本文提出利用角度信息进行监督,实现对文档图像的可感知内容的几何矫正。

二、方法原理简述



 图2 网络整体框架图

图2是这篇文章所提方法的整体结构,本文采用两个网络级联的两阶段方式,第一个网络进行多任务输出,预测得到输入图像的3维坐标(3D Coordinate)、形变的角度值(Warp Field Angle Values),曲率(Curvature)。第二个网络以第一个网络输出的3维坐标作为输入,输出得到反向映射图(Backward Map),利用反向映射图可以直接从输入的形变文档图中采样得到矫正后的文档图。

3维预测网络:第一个网络采用Unet结构。其为输入图的每一个像素都预测了一个3维坐标,同时还预测曲率值以及形变角度值,其中3维坐标图将作为第二网络的输入。三个输出都有相应的Ground-truth作为监督信息。

反向映射预测网络:第二个网络的任务是将第一个网络预测得到的3维坐标图转化成反向映射图。反向映射图为输出图的每个像素指定一个2维的向量,以该向量为坐标值,在形变文档图中采样,即可得到矫正后的平整文档图像。该网络基于DenseNet。

形变角度监督:本文采用的训练数据是基于[1]中的方法合成的,为了对上述输出的形变角度,作者在[1]方法基础上得到了形变角度的Ground-truth。

从反向映射图得到形变角度:如图3右边所示,对于反向映射图中一个像素点,以其为坐标原点,为其指定两个无穷小的向量,分别作为x轴和y轴,构成一个直角坐标系,再将这个直角坐标系映射回形变图,得到图3左边的结果,坐标系x轴y轴方向都发生了改变,分别计算两个轴的形变角度得到,由此就从反向映射图中得到了一个通道数为2的形变角度图。

从前向映射图(将平整文档图映射到形变文档图)得到形变角度以及相应的形变量值(Magnitude Values):方法与从反向映射图中得到形变角度类似,但这里是基于前向映射图,且为了得到形变量值,这里不直接计算形变角度,而是先得到x轴顶点和y轴顶点分别在两个方向上的偏移量,即,再利用4个形变量来计算形变角度以及形变量值。具体而言,该像素点在x和y方向上的形变角度以及形变量值可以由下式计算得到: 

3维预测网络对于该形变角度的预测采用预测其偏移量的方式,而不是直接预测形变角度,Ground-truth中的形变量值则可以用作一种置信度或者是损失函数的权重:形变量值越大,其形变程度应该也越大。此外,作者认为文档中的文字部分是矫正过程应该关注的重点区域,这里应用了一个文字的掩膜(Text Mask),从而希望网络能够更关注于这些重点区域。 

图3 形变角度计算方法示意图

曲率图监督:曲率图的Ground-truth基于[3]中的方法在3D Mesh上应用Laplace-Beltrami算子得到。曲率图突出反映了形变文档图中的非平整区域,这是形变角度和3维坐标无法突出表示的。

最终,作者采用以下损失函数对网络进行优化: 

其中分别为网络预测的3维坐标图、曲率图以及反向映射图。对应的则为相应的Ground-truth,为文字掩膜。

三、主要实验结果及可视化结果



 表1 形变角度监督消融实验 

表2 进一步的消融实验 

表3 与DewarpNet在的定量比较结果 

图4 与DewarpNet的可视化对比结果,左边一列为输入图,中间列为DewarpNet 

从表1中可以看到,本文提出的利用形变角度来进行监督的几种方法(形变角度信息的监督、形变量值作为置信度、文字掩膜指导网络关注于重点区域)是具有有效性的。进一步地,表2中也证明了曲率图的引入也有利于调高网络的性能;同时,端到端联合训练的方式也有利于进一步提高性能。

从表3与DewarpNet的定量比较可以看出,该方法对几种指标都有不同程度的提升,其中最明显是编辑距离指标。图4展示了一些可视化比较的结果,可以看到这几个例子也是优于DewarpNet的。

四、总结及讨论



本文提出了一个内容可感知的文档图像矫正方法,通过优化角度、3维坐标、曲率、反向映射图的损失函数,训练得到的模型可以输出获得反向映射图,从而对形变文档进行矫正。本文同时考虑了全局和局部的监督信息,使得网络能够同时关注到两者。经过本文方法矫正得到的文档图像大大提高了OCR相关的指标和性能,改善了其可视化效果。实验表明我们的方法在合成数据和真实数据上都具有优越性。

五、相关资源



  • Can You Read Me Now? Content Aware Rectification using Angle Supervision论文地址: https://link.springer.com/content/pdf/10.1007%2F978-3-030-58610-2_13.pdf
  • DewarpNet 论文地址:

    https://openaccess.thecvf.com/content_ICCV_2019/papers/Das_DewarpNet_Single-Image_Document_Unwarping_With_Stacked_3D_and_2D_Regression_ICCV_2019_paper.pdf

参考文献



[1] Das, S., Ma, K., Shu, Z., Samaras, D., & Shilkrot, R. (2019). DewarpNet: Single-image document unwarping with stacked 3D and 2D regression networks. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 131-140).
[2] Ma, K., Shu, Z., Bai, X., Wang, J., & Samaras, D. (2018). Docunet: document image unwarping via a stacked U-Net. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 4700-4709).
[3] Sorkine, O. (2005). Laplacian mesh processing. Eurographics (STARs), 29.

原文作者Amir Markovitz, Inbal Lavi, Or Perel, Shai Mazor, Roee Litman
撰稿:张家鑫编排:高 学

审校:殷 飞

发布:金连文



免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。 


往期精彩内容回顾

欢迎加入中国图象图形学学会!(附入会攻略)


征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。


扫描二维码,关注我们:D



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存