[CVPR 2022]基于语法感知网络的手写数学公式识别(已开源)
一、研究背景
随着深度学习的发展及应用,许多方法显著提升了手写数学公式识别的性能。目前主流的识别方法主要为序列识别方法和树解码方法。然而,如图1(a)(b)所示,这些方法都或多或少忽视了公式中的语法信息。为了解决公式识别中的结构预测错误并提升复杂语法树的理解,论文提出了一个语法规则,自然地将语法树划分成不同的组件,有效地减少树结构的歧义。同时,论文提出了一个语法感知网络(Syntax-Aware Network, SAN),将语法约束和特征学习结合到统一的框架中。如图1(c)所示,SAN的预测过程遵循语法树的遍历过程,其子树是数学表达式的重要组成成分。通过此方式,相邻组件的关系得以在SAN中进行编码建模。因此,SAN的预测是从一个组件到另一个组件进行的。
二、方法原理简述
该论文将SAN用一个7元组
在解码器中,第一个GRU网络以上一个解码的符号或关系的编码特征
模型在训练时使用了注意力自正则策略,通过额外的反向解码器,根据子节点预测父节点类别,并对相同符号的注意力权重采用KL散度进行正则化。
三、HME100K数据集
此数据集包含了74502张训练图片和24607张测试图片,共有245个符号。数据集收集自约1万名书写者,在颜色、模糊、复杂背景、扭曲、照明、更长的长度和复杂的结构等方面具有一定挑战性,如图3所示。
图3 (a)CROHME数据集样本;(b-h)HME100K数据集样本
四、实验结果
论文在CROHME2014、CROHME2016和CROHME2019三个数据集上和其他方法进行性能对比。如表1所示,论文的方法SAN取得了当前最好的性能。
表1 与SOTA方法在CROHME2014、CROHME2016和CROHME2019三个数据集上的性能对比
论文在HME100K数据集上和其他方法进行性能对比。如表2所示,论文的方法SAN取得了当前最好的性能,并拥有最快的推理速度。
表2 在HME100K数据集上的性能对比
表3 SAN在CROHME和HME100K数据集上的消融实验
五、总结
相关资源
论文地址:
https://openaccess.thecvf.com/content/CVPR2022/html/Yuan_Syntax-Aware_Network_for_Handwritten_Mathematical_Expression_Recognition_CVPR_2022_paper.html
开源地址:https://github.com/tal-tech/SAN
原文作者: Ye Yuan, Xiao Liu, Wondimu Dikubab, Hui Liu, Zhilong Ji, Zhongqin Wu, Xiang Bai
往期精彩内容回顾
[ACM MM 2022] 解耦检测与识别:单阶段自依赖场景文本识别器
[ECCV 2022] CoMER: 基于Transformer与覆盖注意力机制建模的手写数学公式识别(已开源)
[ECCV 2022] 场景文字端到端识别中的全局到局部注意
[ECCV2022] MGP-STR:一种基于视觉Transformer的多粒度文字识别方法(已开源)
[IEEE TMM 2022] |手写汉字纠错的树结构分析网络
[SIGGRAPH 2022] 利用真实数据来提升文档图像矫正性能(有源码)
[IEEE TIP 2022] | 基于EM算法的混合监督场景文本检测
[ACM 2022] 基于判别式和生成式的自监督文本图像识别方法
[TMM 2022] | 基于多层次跨模态模仿学习的跨语言文本图像识别与翻译方法
[ACM MM 2022] SPTS: Single-Point Text Spotting(已开源)
欢迎加入中国图象图形学学会!(附入会攻略)
扫码关注,获取最新OCR资讯