本文简要介绍CVPR 2019年录用的论文“Handwriting Recognition in Low-resource Scripts using Adversarial Learning”的主要工作。该论文主要解决了手写文本识别(handwriting recognition)和检索(handwriting spotting)任务中的数据稀缺问题。
近年来,基于深度学习的方法在手写文本识别(handwriting recognition)和手写检索(handwriting spotting)任务中取得了很大的发展。针对手写识别中不规则和复杂形状的文本,基于深度学习的方法往往需要大量的数据进行训练以达到符合实际应用的性能要求。采集数据的工作是繁杂困难的,尤其对于词汇量大和符号数多的语言文本,用于训练的数据往往是不足的。现有的深度学习方法会结合随机形变、翻转、旋转和添加高斯噪声等方法进行数据增广。然而,这些增广方法都不能覆盖各种书写风格和复杂字符形状。该论文利用对抗学习,提出了一个对抗特征变形模块(Adversarial Feature Deformation Module, AFDM),用于对任务网络提取的特征进行增广。AFDM模块与任务网络模型以对抗学习的形式训练,AFDM模块学习产生针对任务网络的困难形变样本,任务网络学习提取困难形变样本中的不变性特征,从而提升了任务网络模型的鲁棒性。
AFDM模块作用于任务网络模型的特征提取部分,即卷积网络的中间层。我们将作用于AFDM模块前的网络称为,对AFDM模块输出的特征图进行进一步特征提取的网络称为。AFDM模块受启发于STN[1],包括一个定位网络(Localisation Networks)和一个网格生成器(Grid Generator)。输出的特征图F输入到定位网络,预测出TPS[2]变换矩阵的参数。网格生成器生成映射网格S,通过双线性插值采样,从特征图F得到并输入到。论文中的具体实现是将特征图F在通道维度上分为k个小组,每个小组单独预测一套TPS变换矩阵的参数,并将k个小组分别采样得到的特征图在通道维度上串联(concat)在一起。 对于文本识别(handwriting recognition)任务,网络模型采用CRNN[3];对于文本检索(handwriting spotting)任务,网络模型采用PHOCNet[4]。论文提出的方法中首先对任务网络模型进行10000次迭代的预训练,然后保持任务网络网络模型的参数不更新,在特征提取网络中间引入AFDM模块,单独训练500次迭代。最后AFDM模块与任务网络模型一起训练。为保证整个网络模型的稳定收敛,作者仅对每一次迭代中的一半数据进行增广。训练时的损失函数定义如图2所示,设预测的标签为,实际标签为,为一般的损失计算函数。对于CRNN,损失函数为CTC Loss;对于PHOCNet,损失函数为sigmoid-cross-entropy。而AFDM模块的学习任务就是使损失函数最大化,任务网络模型的学习任务是最小化损失函数。如果AFDM模块通过特征增广使得原始网络模型更难识别样本,那么任务网络模型将得到较大的损失函数值。如果任务网络模型能较好的识别AFDM模块增广的样本特征,那么AFDM模块将得到较大的损失函数值。通过两者的对抗学习,AFDM模块能生成更具挑战性的样本特征,任务网络能识别或定位更困难的样本,包括不规则的形状和各种书写风格。
如表1所示,论文在IAM,RIMES,IndicBAN,IndicDEV四个数据集进行了实验,除了对比RARE[6],ASTER[7],MORAN[8]这三个主流文本识别方法外,还设计了4个baseline实验。B1:运用[4][5]中提及的图像级别增广方法进行数据增广用于训练任务网络;B2:IndicBAN和IndicDEV这两套低资源的数据集,利用拉丁文本进行预训练并保持卷积层参数不更新;B3:将AFDM模块作用于原图而不是特征图上;B4:将AFDM中的TPS变换替换为更为简单的仿射变化。
该论文分析实验结果并得到结论:实验B1在原图像上手工设计的增广技术并不能带来很好的性能提升;实验B2中使用预训练能提升性能并加快训练进程;B3和B4都利用了对抗学习的方法,在特征图上的增广变换带来的性能增益好于在原图上的增广变换;而且,采用TPS变换的模型性能好于较为简单的仿射变换。总的来说,利用对抗学习的方法进行数据增广能有效的提高网络性能,尤其是在低资源的数据集上,提升尤为明显。
这篇论文针对了手写文本识别(handwriting recognition)和检索(handwriting spotting)任务中的数据稀缺问题,提出了一个在特征图层面进行数据增广的AFDM模块。AFDM模块可以灵活地添加于现有的识别或定位网络,并利用对抗学习的方法与任务网络一同进行优化。相较于手工设计的数据增广方法,该方法能让任务网络有针对性地学习困难样本以提升性能,特别适合作用于低资源的数据集上。
[1] Jaderberg, Max, Karen Simonyan, and AndrewZisserman. "Spatial transformer networks." Advances in neuralinformation processing systems. 2015.
[2] Bookstein, Fred L. "Principal warps:Thin-plate splines and the decomposition of deformations." IEEETransactions on pattern analysis and machine intelligence 11.6 (1989):567-585.[3] Shi, Baoguang, Xiang Bai, and Cong Yao. "Anend-to-end trainable neural network for image-based sequence recognition andits application to scene text recognition." IEEE transactions onpattern analysis and machine intelligence 39.11 (2016): 2298-2304.[4] Sudholt, Sebastian, and Gernot A. Fink."PHOCNet: A deep convolutional neural network for word spotting inhandwritten documents." 2016 15th International Conference on Frontiersin Handwriting Recognition (ICFHR). IEEE, 2016.[5] Poznanski, Arik, and Lior Wolf. "Cnn-n-gramfor handwriting word recognition." Proceedings of the IEEE conferenceon computer vision and pattern recognition. 2016.[6] Shi, Baoguang, et al. "Robust scene textrecognition with automatic rectification." Proceedings of the IEEEConference on Computer Vision and Pattern Recognition. 2016.[7] Shi, Baoguang, et al. "Aster: An attentionalscene text recognizer with flexible rectification." IEEE transactionson pattern analysis and machine intelligence (2018).[8] Luo, Canjie, Lianwen Jin, and Zenghui Sun."Moran: A multi-object rectified attention network for scene textrecognition." Pattern Recognition 90 (2019): 109-118.
原文作者:Ayan Kumar Bhunia, Abhirup Das, Ankan Kumar Bhunia, Perla Sai Raj Kishore, Partha Pratim Roy
撰稿:李 喆
编排:高 学
审校:殷 飞
发布:金连文
免责声明:(1)本文仅代表撰稿者观点,个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
征稿启事:本公众号将不定期介绍一些文档图像分析与识别领域为主的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。请发Word版的图文介绍材料到:xuegao@scut.edu.cn
(扫描识别如上二维码加关注)