论文推荐|[PR 2020]基于HDE编码的零样本手写汉字识别
本文简要介绍Pattern Recognition 2020发表的论文“Zero-shot Handwritten Chinese Character Recognition with hierarchical decomposition embedding”的主要工作。论文主要是提出了一种HDE编码方法,即将汉字的分解序列映射到一个Embedding空间,然后进行手写汉字的零样本识别。
零样本识别简单来说就是测试集的类别没有在训练集中出现。由于汉字庞大的类别数、不常用汉字的样本十分稀缺、数据标注的成本很高等原因,使得传统的让测试集类别出现在训练集的识别策略会有很多的困难。如果可以做到零样本识别,就可以一定程度上解决这些问题。而之前的零样本识别方法DenseRAN[1-3]和少样本识别方法[4]会有限制测试类别和识别率不高等问题。
论文采用的汉字分解方式是IDS(Ideographic Description Sequences,表意文字描述序列),它是UNICODE所规定的一种汉字分解标准,如“相”的IDS是“⿰木目”。这种分解标准还定义了12个IDC(Ideographic Description Characters, 表意文字描述字符),即汉字的结构,如下图1所示是12种结构的示意图和例子。根据汉字的IDS就可以得到如图2所示的层次分解树结构。
定义节点的Node-path为根节点到该节点的最短路径;Node-path的长度为路径上的节点数量,其中根节点的Node-path长度为0,节点“八”的Node-path(图3的红色线所示)长度为2。
根据每个节点的Node-path和公式(1)计算每个节点的影响值v,其中
公式(2)定义了HDE向量的计算,其中
图片x先经过由4个通道数分别为64,128,256和512的Resnet Blocks的特征提取器,然后把特征提取器的输出放入转换模块。转换模块首先将输入压平为D维向量,再经过两个全连接层变为E维向量(Embeddings空间的维度为E)。最后经过函数F来计算与标注y的HDE向量
论文实验所用到的数据集是CASIA-HWDB1.0-1.2、ICDAR 2013数据集、20种字体的3755类的印刷体数据集和CTW数据集。
表2展示了论文[8]零样本识别方法DenseRAN、论文[4]少样本识别方法FewshotRAN和本文的零样本识别方法在CASIA Level-1中3755类手写汉字上的效果,其中测试集的汉字类别没有在训练集中出现。为了不限制测试集的汉字类别,这里的训练集和测试集随机划分。由表2的最后一列可以看出本文的零样本识别方法比零样本识别方法DenseRAN的准确率更高,甚至比使用额外的印刷字体作为支持样本的少样本识别方法FewshotRAN的准确率更高。
表3是在3755类印刷体汉字上的实验,其中DenseRAN是零样本识别设置,FewshotRAN是少样本识别设置,Ours是零样本识别设置,Ours(+1)是少样本识别设置,即在训练集中加入测试集类别另一种字体的样本。由Ours(+1)那列的最后一行看出,当提供测试集类别另一种字体的样本作为额外的训练数据时,本文方法几乎可以识别印刷体数据集里的所有字体。
表4展示了三种方法在CTW数据集上的效果,其中DenseRAN是零样本识别设置,FewshotRAN是少样本识别设置,Ours是零样本识别设置。由表4看出本文的方法效果最好。
表5中看出当训练集类别数占比由10%提升到20%的时候,准确率大幅提升21.65%,这是因为在训练集类别数占比比较低的时候,训练集中的偏旁部首结构还不能完全覆盖测试集,所以提升10%的占比准确率会大幅提升。而当训练集类别数占比由80%提升到90%的时候,80%占比的训练集中的偏旁部首结构几乎已经完全覆盖测试集,所以再次提升10%的占比准确率提升没有那么多。
注:表中参考文献参见原文。
表6给出了不同方法在CTW数据集上的性能对比,这里的测试集类别在训练集中出现过。由表6可以看到本文的方法达到了SOTA的效果。
注:表中参考文献参见原文。
表7给出了不同方法在ICDAR2013数据集上的性能对比,这里的测试集类别在训练集中出现过。由表7可以看到本文的方法比DenseRAN、FewshotRAN准确率更高,很接近现有的最好结果。
论文给出了一个全新的HDE编码方法来对汉字的分解进行向量表示,这种编码方法除了保留构成汉字的偏旁结构信息,还保留了原来的层次分解信息。
实验表明,论文的方法在零样本设置下达到SOTA的效果,同时在传统HCCR设置下仍保持竞争优势。
代码即将开源。
不足之处:论文作者认为本文方法还没有达到人类的识别效果。
原文作者:Zhong Cao, Jiang Lu, SenCui, Changshui Zhang∗
审校:殷 飞
发布:金连文
论文推荐|[IEEE TIP 2020]EraseNet:端到端的真实场景文本擦除方法 演讲录播 | 文本检测与识别再思考【CSIG-DIAR 2020学术年会系列报道6】 演讲录播 | 通用文档理解预训练模型【CSIG-DIAR 2020学术年会系列报道5】 演讲录播 | 基于编码-解码模型的数学公式识别研究【CSIG-DIAR 2020学术年会系列报道4】 论文推荐|[ICFHR 2020] 基于风格GAN联机手写样本合成数据增广的手写OCR性能改进方法 演讲录播 | 文字图像图形生成技术研究进展【CSIG-DIAR 2020学术年会系列报道3】 论文推荐|[SIGGRAPH 2020] Attribute2Font:从属性创建所需的字体 演讲录播 | 2020年场景文字那些事【CSIG-DIAR 2020学术年会系列报道2】 演讲录播| 手写及场景文字分析与识别的一些新尝试【CSIG-DIAR 2020学术年会系列报道1】 论文推荐| [CVPR 2020] ScrabbleGAN:半监督变长手写文本生成
欢迎加入中国图象图形学学会!(附入会攻略)
(扫描识别如上二维码加关注)