近日,蚂蚁安全天鉴实验室与复旦大学合作,针对视觉富文档的实际应用场景,指出了应用场景下常见的阅读顺序错乱问题,并强调该问题会严重影响当前模型的效果。针对上述问题,天鉴实验室在《Reading Order Matters: Information Extraction from Visually-rich Documents by Token Path Prediction》论文中重新提出视觉富文档场景下基于词序预测的 NER 任务形式和适用于该场景的数据集,并进一步提出 Token Path Prediction 模型以统一形式解决多项视觉富文档任务。模型在提出的数据集和多个公开测试集上取得 SOTA 效果,并在蚂蚁集团的多个业务场景得到了落地应用。论文工作已经被自然语言处理领域顶会 EMNLP 2023 录用为主会长文(main conference,oral)。
论文标题:
Reading Order Matters: Information Extraction from Visually-rich Documents by Token Path Prediction
文档智能(Document Intelligence)是一项因实际的工业界需求而生的研究课题,主要是指对包含网页、数字文档、扫描文档等在内的视觉富文档(Visually-rich Document)进行内容理解和信息归纳的处理过程。在数字化时代,视觉富文档是最常见的信息载体,用来收集、保存和展示各种模态信息,包括图像(插图、指标图、背景图、视觉 UI 等)、文本(标题、段落内容等)、排版(文本字号颜色等版式、文本缩进结构等空间、UI 布局、分割线、格线格点等)等多模态信息,在多种应用领域得到广泛应用。因此,对视觉富文档的结构化分析和信息抽取是企业生产中的必要一环,自动化地从视觉富文档中提取关键信息,是企业数字化服务的一项关键性技术。本文主要涉及视觉富文档上的命名实体识别(Named Entity Recognition,NER)、实体链接(Entity Linking,EL)和阅读顺序预测(Reading Order Prediction,ROP)任务。NER 任务旨在从文档内容中识别出特定类型的实体,如人名、地名、组织机构名等。通过 NER 可以帮助识别文档中的重要信息,包括人物、位置、组织机构、日期和时间等,并用于后续任务。EL 任务旨在基于某种预定义的实体关系,在文档中找到所有符合条件的实体对。通过 EL 识别出的实体对具有显式语义,可用于构建结构化知识图谱,用于增强对文档内容的语义理解。这两项任务是最基础的信息抽取任务,不但定义了最基础的信息抽取任务范式,也是其他信息抽取任务的基础。ROP 任务旨在按照人类阅读顺序排列文档标注中的文字内容,是重要的文档理解任务。
任务定义与挑战
文档信息抽取场景中的阅读顺序问题,主要来自我们对 NER 任务的实践与思考。在 NLP 中,NER 任务可以用序列标注的范式解决。如图 1 所示,对于一条文本数据"NAME OF
ACCOUNT # OF STORES SUPPLIED",序列标注范式采取 BIO 标注方案,将"NAME
OF ACCOUNT"和"# OF STORES SUPPLIED"标注为类型为 Header 和 Question 的实体,随后通过分类模型学习每个词对应的标签。在视觉富文档的先前工作中,也采用类似的范式,先通过基于 Transformer
encoder 的文档编码器(如 LayoutLM 等)对文档输入进行编码,然后通过一个词元预测(token classification)头来进行序列标注任务的建模,优化分类 loss 实现对 NER 任务的学习。
如图 1 所示,OCR 系统将跨行的实体"# OF STORES SUPPLIED"识别为两个不同的片段(segment),实体在输入中被分为不连续的两段,因此不能用 BIO 标签来合理地表示。因此,序列标注的范式不适用于该场景下的 NER 任务。图 2 展示了更多真实场景下具有阅读顺序问题的扫描文档,以体现该问题的严重性。
▲ 图2: 真实场景下扫描文档的阅读顺序问题。最右侧是根据OCR结果自动排列的伪阅读顺序,和人类阅读顺序相冲突。针对上述问题,我们重新定义了视觉富文档上 NER 任务的形式,把该任务建模成无向图上的一个路径预测问题。我们指出,视觉富文档上的命名实体应该由词序列表示。具体而言,我们将文档输入视为一个词与词之间双向连结的完全有向图,每个命名实体表示为图中词与词之间首尾相连的一条路径,在文中称为词元路径(Token Path),从而把文档 NER 任务建模成文档完全图上的路径预测问题。
整体而言,TPP 是一个简单易懂、易于代码实现的方案,它能应用于多种视觉富文档的信息抽取任务,解决该任务在实际应用中面临的阅读顺序问题。值得一提的是,TPP 既能直接作为文档 NER 任务的模型,又能作为文档阅读顺序预测模型,充当前置机制来重新排列文档词元的输入,以修正之前基于序列标注的 NER 方法。
实验效果
数据集
为了展开对视觉富文档信息抽取中阅读顺序问题的研究,我们重新标注了常用文档 NER 数据集 FUNSD 和 CORD 的布局和实体标注。先前的两个评测基准中,布局标注和现实应用场景存在不一致,不适合用于评价现实场景中的文档信息抽取。因此,我们和现实情况对齐,采用基于 PPOCR 的 OCR 系统重新标注布局信息,并人工在新的布局标注基础上标注实体信息,从而构建新的 FUNSD-r 和 CORD-r 数据集。这两个数据集在高质量的扫描文档图像上标注了符合现实情景的布局信息,因而更加适合于衡量视觉富文档 NER 模型在现实场景中的效果。
总体来说,我们的工作实现了以下 3 点成果:1. 指出了文档信息抽取中的阅读顺序问题,指出当前的 NER 模型不适合应用于具有阅读顺序问题的真实场景,并针对真实场景重新提出文档 NER 的任务范式;2. 提出一种简单、易实现、可广泛适配的 Token Path Prediction 方案,用来解决文档 NER 上的阅读顺序问题;3. 积极探索 TPP 方案对多种文档任务的适配,在 NER、EL、ROP 任务上取得 SOTA,证明了 TPP 方案可以作为文档信息抽取的一项通用解决方案。TPP 模型已经应用在集团内多个涉及文档理解、信息抽取的业务场景,比如统一解限凭证解析、商家数字化云雁、外卡审核、医保亲情账户审核、小程序页面理解等。面向智能凭证产品项目多类场景属性的凭证识别解析需求,TPP 模型在 30 余项智能凭证识别解析标准能力建设上得到应用,覆盖个人卡证、企业资质、经营场景、交易凭证、行业文档、通用类别等文档类别。
参考文献
[1] Xu, Y., Li, M., Cui, L., Huang, S., Wei, F., & Zhou, M. (2020, August). Layoutlm: Pre-training of text and layout for document image understanding. In Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (pp. 1192-1200).
[2] Su, J., Murtadha, A., Pan, S., Hou, J., Sun, J., Huang, W., ... & Liu, Y. (2022). Global pointer: Novel efficient span-based approach for named entity recognition. arXiv preprint arXiv:2208.03054.[3] Li, C., Liu, W., Guo, R., Yin, X., Jiang, K., Du, Y., ... & Ma, Y. (2022). PP-OCRv3: More attempts for the improvement of ultra lightweight OCR system. arXiv preprint arXiv:2206.03001.[4] Huang, Y., Lv, T., Cui, L., Lu, Y., & Wei, F. (2022, October). Layoutlmv3: Pre-training for document ai with unified text and image masking. In Proceedings of the 30th ACM International Conference on Multimedia (pp. 4083-4091).[5] Tu, Y., Guo, Y., Chen, H., & Tang, J. (2023). LayoutMask: Enhance Text-Layout Interaction in Multi-modal Pre-training for Document Understanding. arXiv preprint arXiv:2305.18721.[6] Wang, Z., Xu, Y., Cui, L., Shang, J., & Wei, F. (2021). Layoutreader: Pre-training of text and layout for reading order detection. arXiv preprint arXiv:2108.11591.