论文推荐|[ICCV2021]端到端的文本图像分块矫正方法
本文简要介绍ICCV2021录用论文“End-to-end Piece-wise Unwarping of Document Images”的主要工作。该论文提出将一张文档图像切分成多个Patches来进行局部矫正,这种方式相比于直接在整图上进行全局矫正能够获得更好的效果。而对比之前同样基于Patch进行局部矫正的方法[1],本文实现了Patches拼接过程的端到端可训练化,同时为拼接过程加入了全局信息,可以得到更好的拼接效果。本文方法在多个指标上好于目前的SOTAs。
一、研究背景
移动设备拍照得到的文档图像由于纸张本身包含的物理形变、相机的位置以及复杂的光照环境等因素通常质量较差。其数字化效果不如平面扫描仪得到的扫描图。为了提升拍照文档图像的质量,提高下游任务(如OCR)的性能。我们通常会对拍照得到的文档图像进行矫正,使得其更接近于扫描图。但由于相机角度、纸张形状以及光照环境的多变性和复杂性,拍照文档图像校正是一个极具挑战性的任务。
二、方法原理简述
图2 网络整体框架图
图2是这篇文章所提方法的整体结构。总共由三个子网络构成,第一个网络是为了回归3D Shape Map,第二个网络是为了回归Backward Map,最后一个网络将多个Patches 的Backward Map进行拼接。
Shape Network:第一个网络采用类似于UNet的Encoder-decoder结构,将输入图
Piece-wise Unwarping Network:第二个网络以DenseNet作为主干网,以从3D Shape Map切片得到的多个Patches作为输入回归各自的Backward Map。所以第二个网络需要对数据进行切分(3D Shape Map和Backward Map都需要进行切分)。3D Shape Map的切分直接按照空间位置将其切分成
此外由于切片后Patch相比于整图而言坐标系发生了改变,所以还需要对切片得到的Backward Map Patches进行归一化使其和新坐标系相对应。
得到成对的3D Shape Map和Backward Map之后,就可以进行训练。Backward Map由对应的GT通过L1 Loss监督生成,同时还对基于Backward Map生成的矫正图计算L2 Loss:
Global Stitching Network:第三个网络目的是将多个Backward Map的Patches进行拼接。先对各个Backward Map Patch进行逆归一化操作,然后再送入如图3所示的CPL模块对所有Backward Map Patches进行一个粗略的排序放置。
图3 CPL模块。作者基于图像校正前后大致位置不变(如形变图左上角的Patch矫正后应该还是位于矫正图的左上角)的假设来进行粗略的排序放置。
将多个粗略放置好位置的Patches Concatenate在一起之后就作为Global Stitching Network局部分支的输入,提供局部信息。此外,Global Stitching Network还包含一个全局分支:以第一个网络Shape Network得到的3D Shape Map作为输入提供全局信息。如图4所示,Global Stitching Network将两个分支中分别提取的特征进行融合之后再经过卷积网络得到最终拼接好的整图的Backward Map。
图4 Global Stitching Network的网络结构
损失函数则与Piece-wise Unwarping Network相似,对Backward Map计算L1 Loss,对由Backward Map得到的矫正图计算L2 Loss。
三、主要实验结果及可视化结果
图5 DocUNet[3]基准数据集上CER指标的分布情况。DW代表DewarpNet[2],PW代表本文方法。
图6 与DewarpNet[2]的定性比较结果。其中第1、2、3、4列分别是输入,本文方法结果,DewarpNet[2]结果以及GT。
图7 与CREASE[4]定性比较结果。第1、3列为本文方法,2、4列为CREASE[4]结果。
图8 与DocProj[1]定性比较结果。第1、3列为本文方法,2、4列为DocProj[1]结果。
四、总结及讨论
五、相关资源
论文地址:
https://openaccess.thecvf.com/content/ICCV2021/html/Das_End-to-End_Piece-Wise_Unwarping_of_Document_Images_ICCV_2021_paper.html
项目地址:
参考文献
[1] Li, X., Zhang, B., Liao, J., & Sander, P. V. (2019). Document rectification and illumination correction using a patch-based CNN. ACM Transactions on Graphics (TOG), 38(6), 1-11.
[2] Das, S., Ma, K., Shu, Z., Samaras, D., & Shilkrot, R. (2019). Dewarpnet: Single-image document unwarping with stacked 3d and 2d regression networks. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 131-140).
[3] Ma, K., Shu, Z., Bai, X., Wang, J., & Samaras, D. (2018). Docunet: Document image unwarping via a stacked u-net. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 4700-4709).
[4] Markovitz, A., Lavi, I., Perel, O., Mazor, S., & Litman, R. (2020, August). Can You Read Me Now? Content Aware Rectification Using Angle Supervision. In European Conference on Computer Vision (pp. 208-223). Springer, Cham.
原文作者: Sagnik Das, Kunwar Yashraj Singh, Jon Wu, Erhan Bas, Vijay Mahadevan, Rahul Bhotika, Dimitris Samaras
撰稿:张家鑫
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
论文推荐|[IJCV 2021] 基于手写字母的联机笔迹识别
论文推荐|[ICDAR 2021] SynthTIGER: 面向更好的文本识别模型的文本图像生成器(有源码)
论文推荐|[ICCV 2021] 从二到一:一种带有视觉语言建模网络的新场景文本识别器
论文推荐|[ICDAR2021 BestPaper] ViBERTgrid:一种用于文档关键信息提取的联合训练多模态二维文档表示
论文推荐|[ICCV 2021] 用于任意形状文本检测的自适应边界推荐网络
论文推荐|[TCSVT 2021] 用于场景文字擦除的文字区域条件生成对抗网络
论文推荐 | [Facebook工作] TextStyleBrush: 基于单样本的文本风格迁移
论文推荐 | [ICDAR 2021] VSR: 结合视觉、语义和关系的文档布局分析统一框架(有源码)
论文推荐|[IEEE TIP 2021] 基于深度学习的文档图像伪造攻击
论文推荐|[PR2021]用于在线手写数学公式识别的笔画约束注意力网络
欢迎加入中国图象图形学学会!(附入会攻略)
扫描二维码,关注我们: