查看原文
其他

论文推荐|[ACM TOG 2019]基于块分割及卷积神经网络模型的文档矫正与光照消除方法 (有源码)

张家鑫 CSIG文档图像分析与识别专委会 2022-07-11


本文简要介绍ACM Transactions on Graphics 2019录用论文“Document Rectification and Illumination Correction using a Patch-based CNN”的主要工作。本文主要关注手机摄像头进行文档数字化过程中存在纸张几何形变、相机方向导致的透视形变、光照不均导致的阴影等问题。利用3维建模软件由平整文档图像合成了含有上述问题的畸变图像,生成过程中得到的Flow和平整文档图像作为Ground-truth。论文提出先对文档图像进行切分,以Patch为单位利用一个深度学习网络进行训练,从而降低了数据的复杂度,同时也利于进行数据增广。同时提出一个新颖的拼接方法:在梯度域对网络输出的每个Patch的Distortion Flow进行拼接得到整图的Distortion Flow,再得到矫正后的图像。此外,本文还提出一个独立的光照矫正网络,网络可以去除矫正后图像的阴影,进一步提高文档图像的阅读质量和OCR的准确性。在利用单一图像进行矫正的研究中,本文方法取得了最好的结果。


图1 本文方法效果图

一、研究背景

随着高质量移动摄像头的普及,利用手持设备对文档进行数字化变得越加容易了,但是这样得到的文档图像常存在纸张几何形变、相机方向导致的透视形变、光照条件不佳导致的阴影等问题。这回严重影响可读性以及后续的OCR处理和分析,因此这类图像的矫正对许多问题来说是一个十分重要的步骤。许多方法利用额外的硬件设备或多张不同视角的图像来解决这一问题,但是很多情况下并没有这样的条件。其他的基于3维重构的方法利用一些特定的特征,没有足够的泛化性。此外也有通过提取底层特征直接利用2维图像处理来进行矫正。


二、方法原理简述

数据合成方法:本文的数据是通过Blender软件合成的,通过软件一系列设定和操作实现拍摄角度、光照环境、扭曲、反射、光泽等的变化,由平整的的文档图像合成畸变的文档图像。同时得到作为Ground-truth的flow∈Rh×w×2


图2 网络整体结构

图3 形状矫正网络的结构(上方的特征提取为Local Patchs,下方为Global Patchs)


图4 拼接流程


图2为论文提出的网络的整体结构。对于一张畸变的文档图像∈Rh×w×3,先将其裁剪为小的Patchs(包含较小的Local Patchs以及较大的Global Patchs),如图3所示分别进行特征提取,并将Global Patchs的特征加到Local Patchs特征中去,再上采样得到Flow Patchs。考虑到直接对矫正后的Patchs(由Distorted Patchs和预测的Flow Patchs得到)进行拼接存在的问题,作者提出先将Flow Patchs进行拼接得到整图的Flow再进行矫正。同时为了避免误差累积,作者提出先求Flow Patchs的梯度,再通过Index Optimization得到Flow的梯度域,最后得到整图的Flow(如图4所示)。利用类似[1]的方法由整图的Flow得到从畸变图像到矫正图像的映射,最终得到矫正后的图像。网络的损失函数定义为

其中Fs和Ft分别为Ground-truthflow和预测的Flow,p代表上面的一个像素。


图5 光照矫正网络

除了形状上的矫正,文档图像还因光照环境不佳而存在阴影问题,作者单独提出了一个光照矫正网络,由矫正形状后的文档图像作为输入∈Rh×w×3,预测输出光照矫正后的图像∈Rh×w×3,训练时的输入形变矫正后的图像,输出则是前述合成数据时最原始的平整图像。


三、主要实验结果及可视化结果


表1 不同大小的Local Patchs以及Local和Global Paths的大小比例对结果的影响


表2 不同像素大小的输入对结果的影响


图6 与其他几种方法[2][3][4]在[4]中的Benchmark中的定性比较结果

表3 与其他几种方法[2][3][4]的OCR定量比较结果


图7 失败案例

表1探究了不同大小的Local Patchs以及Local和Global Paths的大小比例对结果的影响。表2探究了输入的不同像素大小对结果的影响。图6与其他几种方法[2][3][4]在[4]中的Benchmark中的定性比较结果,以及表3的OCR定量比较结果,其中‘i’表示光照矫正网络,‘b’表示使用了[5]中的二值化。可以看到在定性和定量上本文方法都取得了比目前最好的算法的结果。


四、总结及讨论

本文提出对文档图像进行切分后以Patch为单位进行训练和测试,相比于以整图为单位来说数据具有较小的复杂度,而且每个Patch之间会有很多相似的地方,同时也利于数据增广,这些都有利于网络进行训练。对于网络输出的每个Patch的Distortion Flow,本文提出在梯度域进行拼接得到整图的Distortion Flow,从而得到矫正后的图像,相比于直接拼接矫正后的图像而言得到了更好的结果。此外,本文还提出一个独立的光照矫正网络,可以去除矫正后图像的阴影,进一步提高文档图像的阅读质量和OCR的准确性。在利用单一图像进行矫正的研究中,本文方法取得了最好的结果。

不足:不能检测识别文档的边界,从而不能处理未裁剪的文档图像;网络结构要求输入具有固定的分辨率;对于文档图像中的图像有时不能进行很好的矫正;对于与合成的训练数据相差太多的图像的矫正效果不好(例如一些几何形变非常复杂的纸张、具有很多干扰的历史手写文档、一些具有反光问题的文档图像)。


五、相关资源
  • Document Rectification and IlluminationCorrection using a Patch-based CNN论文地址: https://arxiv.org/pdf/1909.09470.pdf

  • 代码、模型、数据集下载地址:https://github.com/xiaoyu258/DocProj


参考文献
[1] Lei Yang, Yu-Chiu Tse, Pedro V. Sander, Jason Lawrence, Diego Nehab, Hugues Hoppe,and Clara L. Wilkins. 2011. Image-based Bidirectional Scene Reprojection.ACMTrans. Graph. 30, 6 (2011), 150:1–150:10.
[2] BeomSu Kim, Hyung Il Koo, and Nam Ik Cho. 2015. Document dewarping via text-line based optimization. Pattern Recognition 48, 11 (2015), 3600–3614.
[3] TaehoKil, Wonkyo Seo, Hyung Il Koo, and Nam Ik Cho. 2017. Robust Document Image Dewarping Method Using Text-Lines and Line Segments. In Document Analysisand Recognition (ICDAR), 2017 14th IAPR International Conference on, Vol. 1.IEEE, 865–870
[4] Ke Ma, Zhixin Shu, Xue Bai, Jue Wang, and Dimitris Samaras. 2018. DocUNet:Document Image Unwarping via A Stacked U-Net. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 4700–4709.
[5] Jaakko Sauvola and Matti Pietikäinen. 2000. Adaptive document image binarization.Pattern recognition 33, 2 (2000), 225–236.


原文作者:Xiaoyu Li, Bo Zhang, Jing Liao, Pedro V.Sander


撰稿:张家鑫

编排:高 学

审校:连宙辉

发布:金连文



免责声明:1)本文仅代表撰稿者观点,个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。 



往期精彩内容回顾




征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。




(扫描识别如上二维码加关注)


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存