查看原文
其他

[CVPR 2022]基于语法感知网络的手写数学公式识别(已开源)

本文简要介绍CVPR 2022录用论文”Syntax-Aware Network for Handwritten Mathematical Expression Recognition”的主要工作。该论文针对公式识别任务,提出一个语法感知网络,将语法信息融入到编码器-解码器网络中。论文提出了一套语法规则,用于将每个公式的LaTeX标记序列转换为解析树,并利用深度神经网络将标记序列预测建模为树遍历过程。论文同时构建了一个包含10万张手写样本图片的数学公式数据集。

一、研究背景



随着深度学习的发展及应用,许多方法显著提升了手写数学公式识别的性能。目前主流的识别方法主要为序列识别方法和树解码方法。然而,如图1(a)(b)所示,这些方法都或多或少忽视了公式中的语法信息。为了解决公式识别中的结构预测错误并提升复杂语法树的理解,论文提出了一个语法规则,自然地将语法树划分成不同的组件,有效地减少树结构的歧义。同时,论文提出了一个语法感知网络(Syntax-Aware Network, SAN),将语法约束和特征学习结合到统一的框架中。如图1(c)所示,SAN的预测过程遵循语法树的遍历过程,其子树是数学表达式的重要组成成分。通过此方式,相邻组件的关系得以在SAN中进行编码建模。因此,SAN的预测是从一个组件到另一个组件进行的。

图1 比较不同的公式识别方法:(a)序列方法WAP;(b)树解码方法DWAP-TD;(c)论文提出的方法SAN

二、方法原理简述



该论文将SAN用一个7元组来表示。其中,N为非终端符号,包括起始符号S和拓展符号E;表示终止符,即数据集中的公式符号;R表示产生式规则,即建模方式;表示符号间的关系,共有7种(右、上、下、左上、右下、右上和里面);C表示提取输入图片特征的Dense-Net编码器;D表示如图2所示的语法感知解码器。

在解码器中,第一个GRU网络以上一个解码的符号或关系的编码特征作为输入向量,以历史状态的特征作为隐藏向量,得到输出向量,作为第二个GRU的隐藏向量。第二个GRU的输入向量为语法感知注意力模块的输出。该注意力模块利用、编码器特征输出E(X)和语法感知注意力向量得到归一化加权向量,和其对E(X)加权后的特征。语法感知注意力向量则是对语法树中从根节点到当前解码节点的所有归一化加权向量的求和。最后,解码器利用和第二个GRU的输出向量进行符号预测和关系预测。

模型在训练时使用了注意力自正则策略,通过额外的反向解码器,根据子节点预测父节点类别,并对相同符号的注意力权重采用KL散度进行正则化。

图2 语法感知解码器

三、HME100K数据集



此数据集包含了74502张训练图片和24607张测试图片,共有245个符号。数据集收集自约1万名书写者,在颜色、模糊、复杂背景、扭曲、照明、更长的长度和复杂的结构等方面具有一定挑战性,如图3所示。

图3 (a)CROHME数据集样本;(b-h)HME100K数据集样本

四、实验结果



论文在CROHME2014、CROHME2016和CROHME2019三个数据集上和其他方法进行性能对比。如表1所示,论文的方法SAN取得了当前最好的性能。

表1 与SOTA方法在CROHME2014、CROHME2016和CROHME2019三个数据集上的性能对比

论文在HME100K数据集上和其他方法进行性能对比。如表2所示,论文的方法SAN取得了当前最好的性能,并拥有最快的推理速度。

表2 在HME100K数据集上的性能对比

论文还对语法模块和语法感知注意力模块进行消融实验。如表3所示,论文提出的两个模块能带来显著的性能提升。

表3 SAN在CROHME和HME100K数据集上的消融实验

五、总结



该论文提出第一个有效地将语法规则整合到深度特征学习中的网络SAN,通过结合语法信息和视觉表示来进行鲁棒的预测,并在多个数据集上证明了方法的有效性。论文还构建了一个含有10万张图片的手写数学公式数据集HME100K。

相关资源



论文地址:

https://openaccess.thecvf.com/content/CVPR2022/html/Yuan_Syntax-Aware_Network_for_Handwritten_Mathematical_Expression_Recognition_CVPR_2022_paper.html

开源地址:https://github.com/tal-tech/SAN

数据集地址:https://ai.100tal.com/dataset

原文作者: Ye Yuan, Xiao Liu, Wondimu Dikubab, Hui Liu, Zhilong Ji, Zhongqin Wu, Xiang Bai


撰稿:李 喆
编排:高 学
审校:殷 飞
发布:金连文 


免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。

往期精彩内容回顾



欢迎加入中国图象图形学学会!(附入会攻略)


征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: eelwjin@scut.edu.cn)。


扫码关注,获取最新OCR资讯



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存