查看原文
其他

[ECCV 2022] OCR-free Document Understanding Transformer (已开源)

本文简要介绍ECCV 2022录用论文“OCR-free Document Understanding Transformer”。以往文档理解算法大多依赖于已有的OCR结果,而OCR引擎额外开销大、泛化性能不佳、错误累积等问题往往会对文档理解模块的性能造成影响。本文针对这些问题,提出了一个无需依赖OCR的大规模预训练文档理解模型Donut,该模型在常用数据集上有着不错的表现,且具有较快的推理速度。本文还提供了一种多语言、多版式的文档数据合成器,用于辅助模型的预训练过程。代码开源地址为https://github.com/clovaai/donut

一、研究背景



视觉文档理解(VDU)技术旨在从文档图像中提归纳、整理、取出有用的信息,该技术在日常生活中有着非常广泛的应用,同时也是一个具有挑战性的课题。其具体任务包括文档分类、信息提取和视觉问题回答等。现有的大部分VDU模型[1][2][3][4][5]一般使用两阶段方案来解决这一问题:1)从文档图像中读取文本;2)对文档文本进行全面的理解。它们通常依赖于光学字符识别(OCR)引擎进行第一步的文本读取,自身则着重于第二步文本理解部分的建模。然而,这些依赖于OCR的方法存在一些问题:一是OCR会带来额外的开销。虽然我们可以利用现成的OCR引擎,但其推理所需的额外时间是不可忽略的;此外,现有的OCR引擎缺乏处理不同语言或版式的灵活性,泛化能力差;再有,训练一个性能优异的OCR模型也需要耗费大量的资源。第二个问题是OCR的误差累积会影响后续流程,对于一些字符集较为复杂的语言,例如韩文或中文,OCR的效果往往较差,相应地这一影响会更加严重,虽然一些方法[6][7][8]设置了后处理流程进行OCR纠错,但这些方案在落地应用中会增加整个系统的开销,实际意义不大。

二、方法原理简述



本文提出的Donut模型摆脱了对OCR结果的依赖,采用端到端的方式直接生成结果字符串,避免了上节中提到的问题。其结构如图1所示。模型结构非常简单,其输入为文档图像,经编码器模块得到特征序列,随后通过基于Transformer的解码器生成结果字符串。

图1 Donut流程图

编码器将大小为的文档图像编码为一系列的隐特征向量,其中n为输出的特征图大小,d为隐特征维度。该模块可以使用卷积神经网络,也可以使用基于Transformer的视觉模型。作者通过实验对比,最终采用了Swin Transformer[9]作为主干网络。

解码器将输入的特征向量z解码为结果序列,其中,v为结果字符串的字典大小,m为序列的最大长度,为超参数。作者采用BART作为解码器,并采用在多语言数据上预训练好的公开模型1初始化该部分的权重。

预训练阶段作者设计了一个文本阅读任务,即给定文档的图像,模型输出其中的文本内容。监督用的标签来自作者团队的OCR引擎。该标签不可避免地会存在一些错误,因此作者也将该预训练任务称作伪OCR。预训练采用两种数据,一是真实的文档数据集IIT-CDIP,共1100万份文档;另一个是作者合成的多语言数据,包含中、日、韩、英四种语言,共200万份文档。

对于上述合成数据,作者设计了一种数据合成的范式SynthDoG,它将文档分为背景、文档纹理、文本、布局四个组件。背景部分采样自ImageNet[10],文档纹理来自作者收集的文档图像,文本则收集自维基百科。对于版面设计,作者设计了一系列规则将文档划分为多个区域来模拟版式的变换。部分合成数据如图2所示。

图2 部分SynthDoG合成的样本
微调流程如图1中的红、蓝、绿文本框所示,解码器的初始输入为一提示模板,指示任务的种类,模型的输出为一种形如HTML的层次化描述语言。例如对文档图像分类任务,模型输入一个起始的标签<Classification>指示任务的种类为文档图像分类,模型的输出<Class>和</class>表示该部分为一类别名称实体,内容为Receipt,</classification>表示这一任务的结束。借助这种方式,系统可进一步地将其解析为JSON格式的文本,便于后续的落地应用。值得注意的是,这种格式还能用于处理多层级的信息抽取,学术界对该场景的研究较少,然而其在工业界是一个十分常见且迫切需要解决的问题。

三、主要实验结果及可视化结果



如表1所示,模型在RVL-CDIP[11]数据集上进行了文档图像分类实验,结果表明Donut精度较为优异,且拥有较快的推理速度,参数量相对于常用模型也相对较少。表中的表示OCR引擎带来的额外开销。

表1 Donut在RVL-CDIP数据集上的文档图像分类实验结果

表2列出了模型在CORD、EATEN以及内部数据集上的性能指标。Donut在精度、速度、模型大小上皆具有优势。值得注意的是,这里LayoutLM系列模型的指标和官方论文中的指标有差距,作者在其仓库的Issue中称2,本文中LayoutLM等模型的指标是在使用OCR引擎结果的情况下计算出来的,更贴近实际,而原文中的指标使用了数据集的GT标签,因此会有差距。

表2 Donut在一些视觉信息抽取任务上的性能

表3列出了模型在DocVQA数据集上的指标。Donut在原始的测试集上性能未达到最优,但是在手写文档上表现很好,展现出了模型优异的泛化能力。作者认为DocVQA数据集中图像的分辨率较低,部分小尺度文本没能被模型理解。

表3 Donut在DocVQA数据集上的文档视觉问答性能

图3 注意力机制的可视化结果
图3给出了模型注意力机制的可视化结果,可见Donut很好地学习到了文本和图像之间的联系。

四、总结及讨论



本文提出的模型Donut摆脱了以往大多数算法对OCR的依赖,在视觉文档理解任务上取得了不错的性能。同时其模型大小、推理速度相比于过去的方法具有一定的优势。

模型的缺点是对小尺度文本的理解能力有限,在未来的工作中需要得到进一步的研究。

五、相关资源



1. BART部分的初始化权重:https://huggingface.co/hyunwoongko/asian-bart-ecjk

2. 作者关于LayoutLM等模型在CORD上指标差异的解释:Performance gap of baseline methods · Issue #42 · clovaai/donut (github.com)

3.论文地址:[2111.15664] OCR-free Document Understanding Transformer (arxiv.org)

4.代码开源地址:https://github.com/clovaai/donut

参考文献



[1] Hong, T., Kim, D., Ji, M., Hwang, W., Nam, D., Park, S.: Bros: A pre-trained language model focusing on text and layout for better key information extraction from documents. Proceedings of the AAAI Conference on Artificial Intelligence 36(10), 10767–10775 (Jun 2022).

[2] Hwang, W., Kim, S., Yim, J., Seo, M., Park, S., Park, S., Lee, J., Lee, B., Lee, H.: Post-ocr parsing: building simple and robust parser via bio tagging. In: Workshop on Document Intelligence at NeurIPS 2019 (2019).

[3] Hwang, W., Yim, J., Park, S., Yang, S., Seo, M.: Spatial dependency parsing for semi-structured document information extraction. In: Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021. pp. 330–343. Association for Computational Linguistics, Online (Aug 2021).

[4] Xu, Y., Li, M., Cui, L., Huang, S., Wei, F., Zhou, M.: LayoutLM: Pre-training of text and layout for document image understanding. In: Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. p. 1192–1200. KDD ’20, Association for Computing Machinery, New York, NY, USA (2020).

[5] Xu, Y., Xu, Y., Lv, T., Cui, L., Wei, F., Wang, G., Lu, Y., Florencio, D., Zhang, C., Che, W., Zhang, M., Zhou, L.: LayoutLMv2: Multi-modal pre-training for visually-rich document understanding. In: Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). pp. 2579–2591. Association for Computational Linguistics, Online (Aug 2021).

[6] Duong, Q., H¨am¨al¨ainen, M., Hengchen, S.: An unsupervised method for OCR post-correction and spelling normalisation for Finnish. In: Proceedings of the 23rd Nordic Conference on Computational Linguistics (NoDaLiDa). pp. 240–248. Link¨oping University Electronic Press, Sweden, Reykjavik, Iceland (Online) (May 31–2 Jun 2021).

[7] Rijhwani, S., Anastasopoulos, A., Neubig, G.: OCR Post Correction for Endangered Language Texts. In: Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). pp. 5931–5942. Association for Computational Linguistics, Online (Nov 2020).

[8] Schaefer, R., Neudecker, C.: A two-step approach for automatic OCR postcorrection. In: Proceedings of the The 4th Joint SIGHUM Workshop on Computational Linguistics for Cultural Heritage, Social Sciences, Humanities and Literature. pp. 52–57. International Committee on Computational Linguistics, Online (Dec 2020).

[9] Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z., Lin, S., Guo, B.: Swin transformer: Hierarchical vision transformer using shifted windows. In: Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). pp. 10012– 10022 (October 2021).

[10] Deng, J., Dong, W., Socher, R., Li, L.J., Li, K., Fei-Fei, L.: Imagenet: A largescale hierarchical image database. In: 2009 IEEE conference on computer vision and pattern recognition. pp. 248–255. Ieee (2009).

[11] Harley, A.W., Ufkes, A., Derpanis, K.G.: Evaluation of deep convolutional nets for document image classification and retrieval. In: 2015 13th International Conference on Document Analysis and Recognition (ICDAR). pp. 991–995 (2015).

[12]Park, S., Shin, S., Lee, B., Lee, J., Surh, J., Seo, M., Lee, H.: Cord: A consolidated receipt dataset for post-ocr parsing. In: Workshop on Document Intelligence at NeurIPS 2019 (2019).

[13]Guo, H., Qin, X., Liu, J., Han, J., Liu, J., Ding, E.: Eaten: Entity-aware attention for single shot visual text extraction. In: 2019 International Conference on Document Analysis and Recognition (ICDAR). pp. 254–259 (2019).

[14]Mathew, M., Karatzas, D., Jawahar, C.: Docvqa: A dataset for vqa on document images. In: Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. pp. 2200–2209 (2021).


原文作者: Geewook Kim, Teakgyu Hong, Moonbin Yim, Jeongyeon Nam, Jinyoung Park, Jinyeong Yim, Wonseok Hwang, Sangdoo Yun, Dongyoon Han and Seunghyun Park

撰稿:林泽柠

编排:高 学

审校:殷 飞

发布:金连文 



免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。

往期精彩内容回顾



欢迎加入中国图象图形学学会!(附入会攻略)


征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: eelwjin@scut.edu.cn)。



扫码关注,获取最新OCR资讯



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存