查看原文
其他

论文推荐|[PR 2020]基于HDE编码的零样本手写汉字识别

张晓怡 CSIG文档图像分析与识别专委会 2022-07-11

本文简要介绍Pattern Recognition 2020发表的论文“Zero-shot Handwritten Chinese Character Recognition with hierarchical decomposition embedding”的主要工作。论文主要是提出了一种HDE编码方法,即将汉字的分解序列映射到一个Embedding空间,然后进行手写汉字的零样本识别。

 
一、研究背景

零样本识别简单来说就是测试集的类别没有在训练集中出现。由于汉字庞大的类别数、不常用汉字的样本十分稀缺、数据标注的成本很高等原因,使得传统的让测试集类别出现在训练集的识别策略会有很多的困难。如果可以做到零样本识别,就可以一定程度上解决这些问题。而之前的零样本识别方法DenseRAN[1-3]和少样本识别方法[4]会有限制测试类别和识别率不高等问题。

 
二、汉字分解

论文采用的汉字分解方式是IDS(Ideographic Description Sequences,表意文字描述序列),它是UNICODE所规定的一种汉字分解标准,如“相”的IDS是“⿰木目”。这种分解标准还定义了12个IDC(Ideographic Description Characters, 表意文字描述字符),即汉字的结构,如下图1所示是12种结构的示意图和例子。根据汉字的IDS就可以得到如图2所示的层次分解树结构。


图1 12种结构的示意图和例子

图2 汉字的层次分解树结构

三、层次分解嵌入表示(HDE编码)


图3 Node-path示例

定义节点的Node-path为根节点到该节点的最短路径;Node-path的长度为路径上的节点数量,其中根节点的Node-path长度为0,节点“八”的Node-path(图3的红色线所示)长度为2。

根据每个节点的Node-path和公式(1)计算每个节点的影响值v,其中是给定的参数。为了简化实验,设定对于同一父节点,最左边的子节点,左边第二个子节点,第三个子节点。对于根节点,由于Node-path长度为0,所以影响值v=1。

公式(2)定义了HDE向量的计算,其中是节点One-hot编码。根据公式(2)就可以对每个汉字的树结构进行HDE编码,如表1为五个汉字的HDE向量示例。当汉字为基本的偏旁时,HDE编码就会成为One-hot编码。

 
表1 给定,木、森、呆、杏、枳的HDE编码示例

 
四、网络结构

图4 用HDE编码的汉字识别方法
 

图片x先经过由4个通道数分别为64,128,256和512的Resnet Blocks的特征提取器,然后把特征提取器的输出放入转换模块。转换模块首先将输入压平为D维向量,再经过两个全连接层变为E维向量(Embeddings空间的维度为E)。最后经过函数F来计算与标注y的HDE向量的距离,其中F的定义如下公式所示为特征提取器,g为转换模块,可学习的尺度参数。

 
五、主要实验结果

论文实验所用到的数据集是CASIA-HWDB1.0-1.2、ICDAR 2013数据集、20种字体的3755类的印刷体数据集和CTW数据集。 


表2 不同方法在训练集中未出现过的手写汉字类别上的性能对比


表2展示了论文[8]零样本识别方法DenseRAN、论文[4]少样本识别方法FewshotRAN和本文的零样本识别方法在CASIA Level-1中3755类手写汉字上的效果,其中测试集的汉字类别没有在训练集中出现。为了不限制测试集的汉字类别,这里的训练集和测试集随机划分。由表2的最后一列可以看出本文的零样本识别方法比零样本识别方法DenseRAN的准确率更高,甚至比使用额外的印刷字体作为支持样本的少样本识别方法FewshotRAN的准确率更高。

 
表3 不同方法在训练集中未出现过的印刷体汉字类别上的性能对比


表3是在3755类印刷体汉字上的实验,其中DenseRAN是零样本识别设置,FewshotRAN是少样本识别设置,Ours是零样本识别设置,Ours(+1)是少样本识别设置,即在训练集中加入测试集类别另一种字体的样本。由Ours(+1)那列的最后一行看出,当提供测试集类别另一种字体的样本作为额外的训练数据时,本文方法几乎可以识别印刷体数据集里的所有字体。

 
表4 不同方法在训练集中未出现过的CTW数据集字符类别上的性能对比


表4展示了三种方法在CTW数据集上的效果,其中DenseRAN是零样本识别设置,FewshotRAN是少样本识别设置,Ours是零样本识别设置。由表4看出本文的方法效果最好。

 
表5 随着训练集类别数在总类别数中的占比变化而改变的性能


表5中看出当训练集类别数占比由10%提升到20%的时候,准确率大幅提升21.65%,这是因为在训练集类别数占比比较低的时候,训练集中的偏旁部首结构还不能完全覆盖测试集,所以提升10%的占比准确率会大幅提升。而当训练集类别数占比由80%提升到90%的时候,80%占比的训练集中的偏旁部首结构几乎已经完全覆盖测试集,所以再次提升10%的占比准确率提升没有那么多。

 
表6 不同方法在CTW数据集上的性能对比

注:表中参考文献参见原文。


表6给出了不同方法在CTW数据集上的性能对比,这里的测试集类别在训练集中出现过。由表6可以看到本文的方法达到了SOTA的效果。

 
表7 不同方法在ICDAR2013数据集上的性能对比

注:表中参考文献参见原文


表7给出了不同方法在ICDAR2013数据集上的性能对比,这里的测试集类别在训练集中出现过。由表7可以看到本文的方法比DenseRAN、FewshotRAN准确率更高,很接近现有的最好结果。

 
六、总结和讨论
  1. 论文给出了一个全新的HDE编码方法来对汉字的分解进行向量表示,这种编码方法除了保留构成汉字的偏旁结构信息,还保留了原来的层次分解信息。

  2. 实验表明,论文的方法在零样本设置下达到SOTA的效果,同时在传统HCCR设置下仍保持竞争优势。

  3. 代码即将开源。

  4. 不足之处:论文作者认为本文方法还没有达到人类的识别效果。

 

七、相关资源
论文地址:https://www.sciencedirect.com/science/article/pii/S0031320320302910 

 

参考文献
[1] T. Wang, F. Yin , C. Liu , Radical-based Chinese character recognition via multi-labeled learning of deep residual networks, in: International Conference on Document Analysis and Recognition, 2017, pp. 579–584 .
[2] T. Wang, C. Liu , Fully convolutional network based skeletonization for hand-writtenChinese characters, in: AAAI Conference on Artificial Intelligence, 2018 .
[3] J.Zhang , J. Du , L. Dai , Radical analysis network for learning hierarchies of Chinese characters, Pattern Recognit. (2020) 107305 .
[4] T. Wang, Z. Xie , Z. Li , L. Jin , X. Chen , Radical aggregation network for few-shot offline handwritten Chinese character recognition, Pattern Recognit. Lett. 125(2019) 821–827 .
[5] W.W. Ip, K.F. Chung , D.S. Yeung , Offline handwritten Chinese character recognition via radical extraction and recognition, in: International Conference on Document Analysis and Recognition, 1997, pp. 185–189 .
[6] Wang ,K. Fan ,Optical recognition of handwritten Chinese characters by hierarchical radical matching method, Pattern Recognit. 34 (1) (2001) 15–35 .
[7] A. Amin, C. Sammut , K. Sum , Learning to recognize hand-printed Chinese characters using inductive logic programming, Int. J. Pattern Recognit. Artif. Intell. 10(7) (1996) 829–847 .
[8] W. Wang, J. Zhang , J. Du , Z. Wang , Y. Zhu , Denseran for offline handwritten Chinese character recognition, in: International Conference on Frontiers in Handwriting Recognition, 2018, pp. 104–109 .

原文作者:Zhong Cao, Jiang Lu, SenCui, Changshui Zhang∗


撰稿:张晓怡
编排:高 学

审校:殷 飞

发布:金连文



免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。 



往期精彩内容回顾

欢迎加入中国图象图形学学会!(附入会攻略)

征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。




(扫描识别如上二维码加关注)


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存