PAL:结合注意力和对抗机制的手写数学公式识别
本文介绍近期被The European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases (ECML/PKDD 2018)录用的手写数学公式识别的工作“Jin-Wen Wu, Fei Yin, Yan-Ming Zhang, Xu-Yao Zhang, Cheng-Lin Liu, Image-to-Markup Generation via Paired Adversarial Learning, ECML/PKDD 2018, Dublin, Ireland, September 10-14, 2018”。这项工作提出了一种同时将注意力和对抗机制结合的手写数学公式识别模型PAL (Paired Adversarial Learning)。该模型以标准的印刷体数学公式作为模板,在训练注意力模型关注手写体公式和印刷体模板上相同的字符的同时,采用对抗机制使得深度神经网络更多的关注同种字符所具有的语义不变特征,忽略不同人书写时的风格特征以增强模型对风格特征的鲁棒性。该工作在手写公式识别竞赛the Competition on Recognition ofOnline Handwritten Mathematical Expressions (CROHME) [1]数据集上取得了state-of-the-art的识别性能。
手写数学公式识别是文字识别(OCR)中的一个重要的领域,为了应对其复杂的二维结构和多样化的字符书写风格,尽管传统方法人为制定了大量的规则来进行符号切分,符号识别以及结构分析,却依然不能取得令人满意的结果。近年来具有注意力机制的深度神经网络模型在印刷体数学公式识别上取得了卓越的成就,但是当其应用到手写数学公式识别时却遇到了巨大的挑战[2]。主要原因在于不同人书写的数学公式字体风格具有极大的多样性而可获得的训练集样本数量又极其有限,这使得数据驱动的深度神经网络模型难以取得很好泛化性能。
图1. 不同书写者手写的数学公式以及它们对应的印刷体模板
常规基于注意力机制(attention)的识别器的结构,在通过注意力机制提取某一字符特征时,主要学习该字符与其他类别字符之间的判别特征。而手写公式同类字符之间仍然具有其复杂的多样性,测试集样本还可能会出现不被训练集包含的笔迹。受到最近生成对抗网络(GAN)[3]在风格迁移领域成就的启发,PAL以标准的印刷体数学公式作为模板,在训练注意力模型关注手写体公式和印刷体模板上相同的字符的同时,采用对抗机制使得深度神经网络从不同风格分布中学习同种字符所具有的语义不变特征。
图2. 模型网络结构
当模型通过注意机制在提取印刷模板和手写公式相应字符特征后,一方面通过优化分类损失增大类间距离,另一方面则通过判别器与特征提取器的对抗使得同类特征不可区分来缩小类内距离。在训练阶段,PAL通过超参数λ来控制判别特征以及语义不变特征在损失函数中的比重来使的模型获得更好的泛化性能。
图3. 识别器目标函数
目标函数中前两项分别是印刷体模板与手写体样本分类的交叉熵损失,后一项是判别器对特征来自印刷或手写体样本的判别损失。优化判别器使得判别损失最大化,优化识别器使得目标函数最小化。当超参数λ过大时则会影响判别特征的学习,见图4。
图4. 超参数λ对模型性能的影响
PAL显著提高了模型的泛化性能,将此前手写公式数据集CROHME2014上state-of-the-art的44%的整行识别精度提升到了47%。此外该工作介绍了一种新颖可移植的并行卷积注意力机制来替换在此之前图像到序列任务中通用的递归注意力机制,不仅消除了递归网络容易出现的梯度消失或者爆炸问题,还使得解码器在参数量相同时训练速度提升1.5倍以上。
图5. 模型在CROHME2014数据集上的性能
在论文工作的基础上,该论文的作者又对模型做出了一系列新的改进,使模型的识别准确率得到了显著提升:(1)更换编码器结构; (2)对编码器中MDLSTM进行优化,消除深层MDLSTM训练时容易出现的梯度消失或爆炸问题;(3)重新设计了解码器的注意机制,在保证并行计算的同时,增加模型收敛速度,提高了注意区域的准确性。
http://www.ecmlpkdd2018.org/wp-content/uploads/2018/09/376.pdf
[1] Mouchere, H., Viard-Gaudin, C., Zanibbi, R., Garain, U.: ICFHR 2014 competition on recognition of on-line handwritten mathematical expressions (CROHME 2014).In: 14th International Conference on Frontiers in Handwriting Recognition, pp.791–796. IEEE (2014)
[2]Deng, Y., Kanervisto, A., Ling, J., Rush, A.M.: Image-to-markup generation withcoarse-to-fine attention. In: International Conference on Machine Learning, pp.980–989 (2017)
[3]Goodfellow, I., et al.: Generative adversarial nets. In: Advances in Neural InformationProcessing Systems, pp. 2672–2680 (2014)
文章作者简介:吴金文,中科院自动化所在读博士,主要研究方向为手写公式识别。
(长按识别上图二维码加关注)