[ACM MM2021] 基于Transformer的文档图像几何矫正和光照恢复方法
一、研究背景
随着智能手机的飞速发展,越来越多的人选择使用智能手机拍摄文档。相比于传统的扫描仪,智能手机的使用使得文档的数字化更加灵活、便利。然而,智能手机拍摄的文档往往存在各种各样的畸变,来源于以下三方面因素:不可控的文档形变(弯曲、折叠、褶皱),随机的拍摄视角,以及不均匀的光照条件。图1展示了一些畸变文档图像示例。这些因素导致的畸变使得手机拍摄的数字化文档在一系列下游任务中表现不佳,比如自动化的文字识别,内容编辑,检索等等。因此,近些年来,文档图像的矫正和恢复成为一项重要研究课题。
图1 存在几何和光照畸变的文档图像示例
二、方法原理简述
图2 网络整体框架图
我们提出DocTr,一个可同时进行文档图像几何矫正和光照恢复的框架。图2展示了我们所提出的DocTr的整体框架图。具体地,DocTr由一个几何矫正的子网络和一个光照恢复的子网络组成。下面我们对它们分别进行简要介绍。
(1)几何矫正
如图2所示,给定一张存在几何和光照畸变的文档图像,我们首先用一个包含六个卷积模块的特征提取器对其进行特征提取,并降低特征图分辨率至输入图像的1/8尺度,以保证网络的推理效率。然后,我们将提取的特征图展平后,输入至Transformer编码器,解码器,以及我们设计的可学习的上采样模块,得到坐标位移矩阵。最后,我们用对坐标位移矩阵对输入的图像进行几何矫正(即基于双线性插值的在输入图像上按坐标进行像素重采样)。
(2)光照恢复
三、实验结果
本节展示我们的方法的定量实验结果(和SOTA方法的定量比较)以及定性的几何矫正和光照恢复结果。
进一步地,我们在图3展示了我们的方法在公开的DocUNet测试基准上的恢复效果。DocUNet测试基准由130张真实拍摄的文档图像构成。我们可以看见,我们的方法能够很好地完成几何畸变矫正和光照畸变恢复。与SOTA方法的对比图可查看原论文。
四、相关资源
论文地址:https://arxiv.org/pdf/2110.12942.pdf
参考文献
[1] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. Attention is All you Need. In proceedings of the Neural Information Processing Systems.
[2] Ke Ma, Zhixin Shu, Xue Bai, Jue Wang, and Dimitris Samaras. 2018. DocUNet: Document Image Unwarping via a Stacked U-Net. In Proceedings of the IEEE International Conference on Computer Vision. 4700–4709.
原文作者:本栏有误 请忽略 Yin, Xu Ya Zhang, Cheng-in Li
撰稿:冯 浩
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
[ICDAR 2021] 基于预测控制点的文档图像矫正(有源码)
[TNNLS 2022] SLOGAN——多样化手写体图像生成
[AAAI 2022] 感知笔画-语义上下文:用于鲁棒场景文本识别的分层对比学习方法
[ACM MM 2021] PIMNet:一种用于场景文本识别的并行、迭代和模仿网络(有源码)
[AAAI 2022]基于上下文的对比学习场景文本识别
[ACM MM 2021] | RecycleNet:一种重叠的文本实例的恢复方法
[ICDAR 2021]RF-Learning:基于特征互助的自然场景文字识别方法
[竞赛冠军方法分享] | PRCV 2021表格识别技术挑战赛--分阶段表格识别方案
[AAAI 2022]文本Gestalt: 基于笔画感知的场景文本图像超分辨率重构
竞赛冠军方法分享 | 基于多模态GCN和句子排序的POI生成方案
欢迎加入中国图象图形学学会!(附入会攻略)
扫描二维码,关注我们: