论文推荐|[ACM MM 2022] 基于边缘去除和迭代式内容矫正的复杂文档图像校正
本文简要介绍ACM MM 2022录用论文“Marior: Margin Removal and Iterative Content Rectification for Document Dewarping in the Wild”的主要工作。该论文针对现有的矫正方法只能在紧密裁剪的文档图像上获得较为理想的矫正效果这一不足,提出了一个新的矫正方法Marior。Marior采用渐进式的矫正方式来逐步提高矫正性能。具体而言:先利用分割结果进行环境边缘去除获得初步矫正结果,再通过预测偏移场迭代式地优化该初步结果。该方法在公开数据集上取得了SOTA的结果,矫正结果数据已开源。
图1 现有矫正方法存在不足的情况. (a) 文档图像中存在大的环境边界 (b) 文档图像中不存在环境边界. 红色虚线高亮突出显示了部分形变的区域.
一、研究背景
二、方法原理简述
图2 整体流程图
图2是该论文整体流程图:含有形变的文档图像
2.1 边界去除模块(MRM)
Mask预测:如图3所示。在DeepLabv3+的基础上增加一个边缘输出分支更好地指导网络学习。此外,考虑到文档图像的Mask有相对固定的模式(一个完整的连通域,接近四边形,相对直的边缘等),本文利用GAN将这种先验引入到模型当中。
图3 (a)Mask预测网络的结构;(b)引入先验信息的效果,可以看到先验信息的引入可以获得更好的Mask.
Mask-based Dewarper(MBD):如图4示意图所示,以形变图像
图4 Mask-based Dewarper(MBD)示意图,输入
2.2 迭代式内容矫正模块(ICRM)
通过边界除去模块(MRM)得到的初步矫正图
三、主要实验结果及可视化结果
表1 Mask预测模型有效性
表2 内容加权的L2 Loss 的有效性
表3 在DocUNet数据集上的定量比较. 为公平比较,除Marior外,其余方法在Origin子集(没有经过紧密裁剪,仍含有大环境边界的文档图像)上测试时先加入了一个文档检测器进行裁剪.
表4 在OCR_REAL数据集上的定量比较.
图7 在DocUNet数据集上的定性比较.由上到下分别为 (a) Input, (b) DocProj, (c) DewarpNet, (d)Method of Xie et al., (e) Marior (ours), and (f) Scanned Ground Truth. 其中1-3列是紧密裁剪的文档图像,4-5列是含有大环境边界的文档图像(除Marior外其余方法都先才采用检测器进行裁剪),6-7列是不包含环境边界的文档图像.
图8 与PiecewiseUnwarp和DocTr在DocUNet数据集上的定性比较. (a)从左到右分别为Input, PiecewiseUnwarp, Marior (ours)和Scanned Ground Truth. (b)从左到右分别为Input, DocTr, Marior (Ours)和Scanned Ground Truth.
图9 从左到右分别为(a) Input, (b) DocProj, (c) DocTr, and (d) Marior (Ours).
四、总结及讨论
五、相关资源
Marior: Document Dewarping with Control Points Document Dewarping with Control Points论文地址: https://arxiv.org/abs/2207.11515
Marior: Document Dewarping with Control Points Document Dewarping with Control Points 项目地址: https://github.com/ZZZHANG-jx/Marior
原文作者:Jiaxin Zhang, Canjie Luo, Lianwen Jin, Fengjun Guo, Kai Ding
撰稿:张家鑫
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
ECCV 2022 Oral | 理解艺术字:用于场景文字识别的角点引导Transformer
ECCV2022 | 基于对比学习和多信息表征的端到端视频OCR模型(有源码)
[ECCV 2022] 具有计数感知的手写数学公式识别算法(有源码)
[CVPR 2022]针对场景文本检测的视觉语言模型预训练
[CVPR 2022] 内容感知的文字标志图像生成方法
[IEEE TIFS 2022] 深度软动态时间规整:用于联机签名认证的局部表征学习新方法(有源码)
基于概率分布图的任意形状文本实例分割和检测方法(有源码)
[IJCAI 2022] 平面几何图例解析(有源码和数据集)
论文推荐|[CVPR 2022]通过权重平衡的长尾识别(有源码)
[IEEE TPAMI 2022] 基于定制化迭代和采样的高效查询黑盒对抗攻击(有源码)
欢迎加入中国图象图形学学会!(附入会攻略)
扫码关注,获取最新OCR资讯