查看原文
其他

[ACM MM2021] 基于Transformer的文档图像几何矫正和光照恢复方法

本文简要介绍ACM MM 2021发表的论文,“DocTr: Document Image Transformer for Geometric Unwarping and Illumination Correction”,其录用为口头报告论文。该论文针对自然场景下的文档图像的几何矫正和光照恢复任务,结合文档图像特性和自注意力机制进行框架设计,在两种恢复任务上均达到了当前最先进的性能。

一、研究背景



随着智能手机的飞速发展,越来越多的人选择使用智能手机拍摄文档。相比于传统的扫描仪,智能手机的使用使得文档的数字化更加灵活、便利。然而,智能手机拍摄的文档往往存在各种各样的畸变,来源于以下三方面因素:不可控的文档形变(弯曲、折叠、褶皱),随机的拍摄视角,以及不均匀的光照条件。图1展示了一些畸变文档图像示例。这些因素导致的畸变使得手机拍摄的数字化文档在一系列下游任务中表现不佳,比如自动化的文字识别,内容编辑,检索等等。因此,近些年来,文档图像的矫正和恢复成为一项重要研究课题。 

图1 存在几何和光照畸变的文档图像示例

传统的基于3D重建的方法需要使用附加的硬件设备(如深度相机)或者需要多张来自不同视角的文档图像。这类方法的使用和推广因其复杂性收到了限制。近些年,基于深度学习的方法被引入文档图像矫正领域,输入单张文档图像即可通过神经网络进行矫正。然而,当前的一系列工作没有充分考虑并利用文档图像的性质,即纸张结构以及光照的全局性。本文结合上述两种特性和Transformer的全局特征提取能力,设计几何矫正和光照恢复的方法。

二、方法原理简述



图2 网络整体框架图

我们提出DocTr,一个可同时进行文档图像几何矫正和光照恢复的框架。图2展示了我们所提出的DocTr的整体框架图。具体地,DocTr由一个几何矫正的子网络和一个光照恢复的子网络组成。下面我们对它们分别进行简要介绍。

(1)几何矫正

如图2所示,给定一张存在几何和光照畸变的文档图像,我们首先用一个包含六个卷积模块的特征提取器对其进行特征提取,并降低特征图分辨率至输入图像的1/8尺度,以保证网络的推理效率。然后,我们将提取的特征图展平后,输入至Transformer编码器,解码器,以及我们设计的可学习的上采样模块,得到坐标位移矩阵。最后,我们用对坐标位移矩阵对输入的图像进行几何矫正(即基于双线性插值的在输入图像上按坐标进行像素重采样)。

(2)光照恢复

如图2所示,给定一张几何矫正输出的高分辨率图像,我们首先将其切分成相互之间有1/8重叠的图像块。然后,我们将每一个图像块输入至卷积特征提取器,Transformer编码器,解码器,以及卷积输出头,从而输出光照恢复的图像块。最后,我们将每一个恢复的图像块进行空间上的拼接,完成文档图像的光照恢复。

三、实验结果



本节展示我们的方法的定量实验结果(和SOTA方法的定量比较)以及定性的几何矫正和光照恢复结果。

表1和表2分别展示了我们的方法在几何矫正和光照恢复两个任务上与SOTA方法的在DocUNet测试基准[2]上的定量比较。这里,我们采用多方面评价指标,包括多尺度图像相似度(MS-SSIM),OCR指标(编辑距离ED,字符错误率CER),以及像素级位移偏差(LD)。我们可以看出,我们的方法均达到了当前最先进的性能。 
表1 几何矫正与SOTA方法的定量比较 
表2 光照恢复与SOTA方法的定量比较

进一步地,我们在图3展示了我们的方法在公开的DocUNet测试基准上的恢复效果。DocUNet测试基准由130张真实拍摄的文档图像构成。我们可以看见,我们的方法能够很好地完成几何畸变矫正和光照畸变恢复。与SOTA方法的对比图可查看原论文。 

图3 在真实拍摄样本上的恢复效果示例。第一行为输入畸变图像,第二行和第三行分别为我们的方法的几何矫正结果和光照恢复结果。

四、相关资源



论文地址:https://arxiv.org/pdf/2110.12942.pdf

开源代码:https://github.com/fh2019ustc/DocTr

参考文献



[1] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. Attention is All you Need. In proceedings of the Neural Information Processing Systems.

[2] Ke Ma, Zhixin Shu, Xue Bai, Jue Wang, and Dimitris Samaras. 2018. DocUNet: Document Image Unwarping via a Stacked U-Net. In Proceedings of the IEEE International Conference on Computer Vision. 4700–4709.


原文作者:本栏有误 请忽略 Yin, Xu Ya Zhang, Cheng-in Li


撰稿:冯  浩

编排:高  学
审校:连宙辉
发布:金连文

 


免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。


往期精彩内容回顾

欢迎加入中国图象图形学学会!(附入会攻略)


征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: eelwjin@scut.edu.cn)。


扫描二维码,关注我们:



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存