手写公式识别 :基于深度学习的端到端方法
The following article is from CSIG文档图像分析与识别专委会 Author 张建树
本文简要介绍2018年5月被TMM录用论文“Track,Attend and Parse (TAP): An End-to-end Framework for Online Handwritten Mathematical Expression Recognition”的主要工作。该论文是2017年发表在ICDAR上的文章[1]的升级版,主要解决了在线手写数学公式的识别问题。该论文中介绍的方法获得了国际最大在线手写数学公式比赛CROHME2019的冠军,且是在未使用额外数据的情况下超过了有大量额外数据的国际企业参赛队伍,如MyScript,Wiris,MathType等,突出了该算法较传统数学公式识别算法的优势。
手写数学公式识别较传统OCR问题而言,是一个更复杂的二维手写识别问题,其内部复杂的二维空间结构使得其很难被解析,传统方法的识别效果不佳。随着深度学习在各领域的成功应用,文章[2] [3]首次提出了基于深度学习的端到端离线数学公式算法,并在公开数据集上较传统方法获得了显著提升,开辟了全新的数学公式识别框架。然而在线手写数学公式识别框架还未被提出,论文TAP则是首个基于深度学习的端到端在线手写数学公式识别模型,且针对数学公式识别的任务特性提出了多种优化。
Fig 1是TAP的整体结构。TAP遵循文章[2] [3]中的做法,将数学公式的树结构识别问题转换成了数学公式LaTeX字符串识别问题。这一思路的转换简化了数学公式识别问题,使端到端的识别成为了可能。TAP的基本框架为基于注意力机制的编解码模型,也称Encoder-Decoder模型[4],其将输入的轨迹点序列通过Encoder编码得到高维特征表达,依靠Attention机制找出高维特征中的关键部分以用于解码出当前时刻的LaTeX字符,直至解码结束。TAP延续了会议文章[1]中的Encoder框架,在Attention机制上针对在线手写公式识别提出了Spatial Attention, Temporal Attention, Attention Guider用于改善Attention的对齐以及Decoder的解码能力。文章中还利用了在线与离线两个模态之间的互补性进一步提升了手写识别性能。
Fig 2是TAP所采用的Hybrid Attention机制,除了常用的Spatial Attention外,还采用了Temporal Attention机制。其中,Spatial Attention利用了Attention的历史信息以解决数学公式中多个同样数学字符出现时的对齐混淆问题。而Temporal Attention用于处理LaTeX中的结构字符的特殊对齐。因为在LaTeX的语法规则中,为了重现数学公式语言里的二维空间结构,需要额外有一些特殊的结构字符来形成语法,而这些特殊的结构字符在输入的数学公式中不存在,因而Spatial Attention无法完成对齐,此时则需要Temporal Attention来补足这个不存在的对齐空缺,既能不干扰Spatial Attention的学习,又能提高Decoder的解码能力,进一步提升性能。
TABLE 2. The recognition results on CROHME2016.
由TABLE 1、TABLE 2来看,文章所提方案在CROHME2014和CROHME2016公开数据集上取得了state-of-the-art的结果,且较传统方法有巨大的提升,验证了该方法的有效性,且TAP展示的结果相对于会议版本也有了进一步的提升,体现了Hybrid Attention在纠正对齐和提升性能处起到了关键作用。
Fig 4是对于Temporal Attention的可视化,可见Temporal Attention能够很正确的帮助Spatial Attention区分结构字符和实体字符。Fig 5是对Hybrid Attention整体在一个手写数学公式实例上的可视化。Fig 6列出了一个手写数学公式在线和离线模态互补性的实例,由于存在倒笔现象,单纯的在线模型无法正确识别该例子,而通过离线模型的融合辅助最终使得这个公式例子被正确识别(由于符号定义过多,更详细的内容请参考原文,链接附后)。
1. TAP-ICDAR版首次提出了基于深度学习的端到端在线手写数学公式识别模型,将树形结构识别问题巧妙转换成了LaTeX字符串识别问题,成功突破了传统方法在该问题上的性能瓶颈,开辟了全新的在线数学公式识别框架。
2. TAP-TMM相比TAP-ICDAR而言,进一步提出了Hybrid Attention,不仅提高了Attention的对齐准确度,也针对性的处理了LaTeX中结构字符的对齐和生成,且效果最终都很好的反映在了最终的识别性能上。此外,通过融合离线模态的全局特性,进一步提升了在线手写数学公式的识别率。
3. TAP中汇报出来的在CROHME2014及CROHME2016上的识别率,至今仍是最好的公开结果,相关算法也在CROHME2019竞赛上获得了第一名,并且在没有使用额外数据的情况便超越了其他使用大量额外数据的企业队伍。
TAP-TMM论文地址: https://ieeexplore.ieee.org/document/8373726
TAP-ICDAR论文地址:https://arxiv.org/pdf/1712.03991.pdf
WAP论文地址: https://www.sciencedirect.com/science/article/pii/S0031320317302376
WYGIWYS论文地址: https://arxiv.org/pdf/1609.04938.pdf
Encoder-Decoder论文地址: https://arxiv.org/pdf/1409.0473v7.pdf
[1] J. Zhang, J. Du, and L. Dai, “A GRU-based encoder-decoder approach with attention for online handwritten mathematical expression recognition,” ICDAR 2017, pp. 902-907.
[2] J. Zhang, et al, “Watch, attend and parse: An end-to-end neural network based approach to handwritten mathematical expression recognition,” Pattern Recognition, vol. 71, pp. 196-206, 2017.
[3] Y. Deng, A. Kanervisto, J. Ling, and A. M. Rush, “Image-to-markup generation with coarse-to-fine attention,” ICML 2017, pp. 980-989.
[4] D. Bahdanau, K. Cho, and Y. Bengio, “Neural machine translation by jointly learning to align and translate,”arXiv: 1409.0473.
原文作者:Jianshu Zhang, Jun Du, Lirong Dai
撰稿:张建树
编排:高 学
审校:殷 飞
发布:金连文
免责声明:(1)本文仅代表撰稿者观点,个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
OCR交流群
关注最新最前沿的文本检测、识别、校正、预处理等技术,扫码添加CV君拉你入群,(如已为CV君其他账号好友请直接私信)
(请务必注明:OCR)
喜欢在QQ交流的童鞋,可以加52CV官方QQ群:805388940。
(不会时时在线,如果没能及时通过验证还请见谅)
长按关注我爱计算机视觉