@所有雄安人!一定要看!

@所有雄安人!一定要看!

广西冯波律师涉黑案|冯母:我儿长在风波亭畔,冤在柳侯祠前

以项目论英雄,凭实绩排座次!日照这场专题会议传递强烈信号!

涿州,原来有这么多人需救援!

生成图片,分享到微信朋友圈

自由微信安卓APP发布,立即下载! | 提交文章网址
查看原文

[IEEE TMM 2022] |手写汉字纠错的树结构分析网络

张晓怡 CSIG文档图像分析与识别专委会 2022-12-15
本文简要介绍IEEE TMM 2022录用论文“A Tree-Structure Analysis Network on Handwritten Chinese Character Error Correction”的主要工作。作者设计了一个诊断系统来进行手写汉字的定位和纠错,分为分解,判断和纠错三部分。首先,作者提出了一个树结构分析网络(TAN)来得到手写汉字的偏旁部首表示。然后对汉字进行判断,最后将判断为错误书写的汉字进行相应定位和纠错。实验表明,本文方法比其他基于偏旁部首的文本识别方法在汉字定位纠错上效果更好。

一、研究背景



由于汉字复杂的结构和庞大的类别数量,对于汉字初学者来说,他们很容易把汉字写错。而汉字纠错任务可以帮助他们定位书写错误的偏旁部首和结构,并且指示正确的偏旁部首,具有重要应用价值。如图1所示,作者首先定义了三种书写错误,分别是笔画的错误,偏旁部首的错误和结构顺序的错误。其中结构顺序的错误表示正确的偏旁部首以错误的结构顺序组合。

图1  三种书写错误的例子

二、方法原理



手写汉字定位纠错系统流程如图2所示,分为分解,判断和纠错三部分。图2为推理框架,在训练中只有分解模块进行训练,并且用于训练的都是正确的汉字。

图2  手写汉字定位纠错系统

1、树结构标签

从汉字分解方式——表意文字描述序列(IDS)出发,所有汉字可以被分解为由偏旁部首和结构组成的树形式[1,2]。本文将汉字分解为二叉树,如图3所示。其中所有父节点为结构,所有叶子节点为偏旁部首,父节点对应的左右节点可以表示该节点在汉字中的空间位置关系。

图3(a)十种汉字结构示例(b)“调”的树形式(c)“调”的树结构标签

2、分解模块

分解模块由CNN编码器和树解码器构成。编码器为DenseNet,经过编码器后的输出为

图4  树解码器结构

树解码器的结构如图4所示。给出父节点和关系,然后根据以下公式计算:

此时子节点的分类损失计算如下公式所示,其中为One-hot标签。

子节点和父节点的空间关系预测概率为空间关系的分类损失的计算如下公式所示,其中为One-hot标签。
为了拆分偏旁部首与汉字的语义信息依赖,作者引入偏旁部首三元组损失。书写风格和在不同汉字中的位置是产生偏旁部首类内差异的因素。所以作者提出一个桶挖掘策略,首先将汉字按偏旁部首进行分组,然后每次迭代训练时随机从一组中选P个汉字,每个汉字K个样本。三元组损失的计算如下公式所示,其中
最终,分解模块训练的总损失L为:
3、判断模块

根据分解模块预测得到子节点序列和对应概率然后进行嵌入编码,其中为子节点在树中的深度。同时需要预处理所有汉字得到然后通过距离计算,得到对图片的汉字预测。

其中集合C包含正确汉字集和错误汉字集。

4、纠错模块

当判断的汉字属于错误汉字集时,进行定位与纠错。

(1)获得理想的汉字。通过计算与正确汉字集中汉字的距离,得到Top-5的汉字结果作为理想汉字。

(2)纠正错误。根据预测出的偏旁部首序列和理想汉字的偏旁部首序列的相应位置的编辑操作,找出出错的偏旁部首和结构所对应的理想偏旁部首和机构。

(3)定位错误。根据编辑操作,找出对应的注意力图,最终全部相加得到最终的错误定位。

三、主要实验结果



本文使用的数据集是自己收集的,其中包含570类错误的汉字类别,具体信息如表1所示。采用的评判指标是,正确率Accuracy和修正率

表1数据集统计信息

表2 总损失函数中三元组损失权重的消融

从表2可以看出,三元组损失主要作为辅助任务时效果最好。
表3 三元组损失中超参m的消融

表4本文方法(TAN)与其他偏旁部首的文本识别方法的对比

表5不同方法在三种错误类型上的结果

从表5可以看出,笔画的错误类型识别率最低,而整体的错误拼写数据集的识别率不到60%,所以错误汉字的准确识别是一项很有挑战性的任务。

表6不同方法在三种错误类型上的结果

从表6中可以看出,笔画的错误类型修正率最低,而整体的错误拼写数据集的修正率不到40%,所以正确识别出错误汉字并且正确纠正是很困难的任务。图5给出了本文方法TAN对于错误的偏旁部首的定位和纠错示例。
图5 错误偏旁部首的定位和纠错示例

四、总结与讨论



本文设计了一个用于手写汉字定位和纠错的诊断系统。本文提出的树结构分析网络(TAN)将汉字分解为由偏旁部首和结构组成的树形式。实验表明,TAN能够给出更加精确的空间定位信息,优于其他基于偏旁部首的文本识别方法。

五、相关资源



论文地址:

https://ieeexplore.ieee.org/document/9745593

参考文献



[1] Cao Z, Lu J, Cui S, et al. Zero-shot handwritten chinese character recognition with hierarchical decomposition embedding[J]. Pattern Recognition, 2020, 107: 107488.
[2] Zhang J, Du J, Dai L. Radical analysis network for learning hierarchies of Chinese characters[J]. Pattern Recognition, 2020, 103: 107305.

原文作者Yunqing Li, Jun Du, Jianshu Zhang, Changjie Wu


撰稿:张晓怡
编排:高 学
审校:连宙辉
发布:金连文

 


免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。


往期精彩内容回顾



欢迎加入中国图象图形学学会!(附入会攻略)


征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: eelwjin@scut.edu.cn)。


扫码关注,获取最新OCR资讯



文章有问题?点此查看未经处理的缓存