论文推荐|[PR 2019]一种基于新型RNN网络结构的联机手写汉字识别方法
本文简要介绍2019年4月Pattern Recognition录用论文“RecognizingOnline Handwritten Chinese Characters Using RNNs with New Computing Architectures”的主要工作。该论文主要解决了手写汉字端到端的识别问题。
手写输入是一种非常普遍的人机交互方式。随着深度学习的不断发展,研究者们陆续将深度神经网络用于在线手写汉字识别[1][2][3],技术日趋成熟。一般来说,我们常见的手写汉字都是写在触摸屏上的,在触摸屏上书写时手或者胳膊会有支撑,因而写在触摸屏上的汉字大多都比较工整。近年来出现了一种新型的手写方式----空中手写。这种手写方式一般是利用能够检测到手指信息的传感器(如 Leap Motion)记录用户的手指运动(书写汉字)的轨迹,并将轨迹(汉字)显示在机器上。通过空中手写写出的汉字一般都是一笔写下来,中间没有任何笔画标记(抬笔、落笔)。除此之外,空中手写的汉字的形状会更加不规则。我们在Fig. 1中给出了空中手写汉字识别系统介绍图以及空中手写汉字与传统手写汉字的对比图。
这篇文章主要是针对于两种不同的手写汉字类型,基于递归神经网络(RNN)设计了一种端到端的识别器,在两种不同的手写汉字数据集上都取得了较好的识别效果。除此之外,我们在传统的递归神经网络的基础上,添加了两种新的计算结构(Computing Architecture):1.方差约束(Variance constraint); 2. 注意力权重向量(Attention weight vector)。通过添加这两种新的计算结构,使得递归神经网络在参数较少的情况下获得相当高的识别率。
Fig.2是针对于手写汉字识别的基础网络结构。它由一个N层的单向递归神经网络、一个隐含层状态向量处理层、一个全连接层构成。在每一个时刻t,神经网络接受手写汉字样本的一个位置坐标,并计算出相应的隐含层状态向量。神经网络接收并处理完输入样本所有的位置坐标以后,这些隐含层状态向量经过处理送入全连接层。之后通过softmax分类器进行分类。
1. 方差约束(Variance constraint)原理简述
从式中可看出,隐含层状态向量中元素绝对值越大的话,那么对应当前参数大概率是该样本的关键参数。若隐含层向量的绝对值为0,那么当前参数对该样本分类并无太大影响。所以隐含层状态向量元素绝对值大小对决定了当前参数对样本分类的重要性,也就是当前参数是否为该样本的关键参数。
所以我们在训练过程中约束隐含层状态向量的方差,即把隐含层状态向量的方差放入到损失函数当中。通过约束隐含层状态向量的方差,隐含层状态向量中元素的绝对值会降低,而且隐含层状态向量中所有元素的值都会分布在它的均值附近。这样隐含层状态向量中拥有大的值的元素的数目减少了,从而降低了输入样本关键参数的数目。
对于当前输入样本,在RNN中每个时刻对应的隐含层状态该向量对于识别该样本的重要性不同,在本篇文章中,我们用RNN网络自身生成一个注意力权重向量,这个权重向量赋予不同时刻的隐含层状态不同的权重。在本文中我们直接取RNN隐含层状态向量的最后一维作为该隐含层状态的权重,如Fig.4所示。
手写汉字的笔画坐标是连续的,当前位置与上一个时刻和下一个时刻的位置是有紧密联系的,当前时刻的隐含层状态向量以上一时刻和下一时刻的状态也是紧密联系的。所以在计算当前时刻隐含层状态向量的权重时要将相邻时刻的隐含层状态向量考虑在内,所以我们在计算相应权重时,在时间上做了一个平滑处理,如Fig.5所示。
TABLE 1. Effectiveness comparison of the "variance constraint" on IAHCC-UCAS2016.
由TABLE 5、TABLE 6来看,文章所提方案在两种手写汉字数据集ICDAR-2013 competition database以及IAHCC-UCAS2016 datasets上获得了state-of-the-art的结果。从TABLE 1、TABLE 2、TABLE 3、TABLE 4来看文章所提出的两种新的计算结构能够有效的提高系统的识别效果,尤其对于少参数的系统。
本文提出了一种在线手写汉字的端到端识别器。并在传统的RNN基础上提出了两种新的计算结构:(1)方差约束;(2)注意权向量。方差约束机制可以有效的降低用于表示单个样本的关键参数数量,从而使得一个参数参与表达的样本数目降低。这有利于RNN系统中的参数更有可能获得表示输入样本的最优解。引入注意力权重向量来表示不同时刻隐含层状态向量的重要程度,与现有的注意力机制相比,我们提出的方法没有引入任何额外的参数,并取得了可竞争性的效果。大量的实验结果表明我们提出的这两种新的计算结构能够有效地改进传统RNN的性能。但是对于方差限制这种机制来说,超参数的选取在实验中特别浪费时间,所以有必要设计一种自适应的算法来改进当前的这种手动选择机制。除此之外,本文提出得这两种计算结构不应该只局限于递归神经网络,应该对这两种机制进行改进并应用到其他网络结构当中。
[1] X.-Y. Zhang, F. Yin, Y.-M. Zhang,C.-L. Liu, Y. Bengio, Drawing and recognizingchinese characters with recurrentneural network, TPAMI 40 (4) (2017) 849-862. 论文地址:https://arxiv.org/pdf/1606.06539.pdf
[2] W. Yang, L. Jin, Z. Xie, Z. Feng,Improved deep convolutional neural network foronline handwritten chinesecharacter recognition using domain-specic knowledge,ICDAR 15 (6) (2015) 551-555. 论文地址:https://arxiv.org/abs/1505.07675
[3] H. Ren, W. Wang, K. Lu, J. Z. Q.Yuan, An end-to-end recognizer for in-airhandwritten chinese characters basedon a new recurrent neural networks, ICME(2017) 841-846. 论文地址:https://ieeexplore.ieee.org/document/8019443
原文作者:Haiqing Ren, Weiqiang Wang,Chenglin Liu
撰稿:任海青
编排:高 学
审校:殷 飞
发布:金连文
免责声明:(1)本文仅代表撰稿者观点,个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
[CVPR 2019] Look More Than Once:An Detector for Text of Arbitrary Shape CAAI AIDL 演讲实录丨金连文:“场景文字检测与识别:现状及展望” [IJCAI 2019] BDN:一种利用顺序无关定位盒分解的任意方向场景文本检测方法(有源码) [TPAMI 2019] Mask TextSpotter:An End-to-End Trainable Neural Network [CVPR 2019] Character region awareness for Text Detection (有源码) [Github] 史上最全场景文字检测资源合集 [Github] 史上最全场景文字识别资源汇集 [Github] 史上最全端到端场景文本检测识别资源合集 [AAAI 2019] DeRPN: 一种基于维度分解的候选区域提取网络(有源码
征稿启事:本公众号将不定期介绍一些文档图像分析与识别领域为主的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。请发Word版的图文介绍材料到:xuegao@scut.edu.cn
(扫描识别如上二维码加关注)