[IEEE TMM 2022] |手写汉字纠错的树结构分析网络
一、研究背景
由于汉字复杂的结构和庞大的类别数量,对于汉字初学者来说,他们很容易把汉字写错。而汉字纠错任务可以帮助他们定位书写错误的偏旁部首和结构,并且指示正确的偏旁部首,具有重要应用价值。如图1所示,作者首先定义了三种书写错误,分别是笔画的错误,偏旁部首的错误和结构顺序的错误。其中结构顺序的错误表示正确的偏旁部首以错误的结构顺序组合。
图1 三种书写错误的例子
二、方法原理
手写汉字定位纠错系统流程如图2所示,分为分解,判断和纠错三部分。图2为推理框架,在训练中只有分解模块进行训练,并且用于训练的都是正确的汉字。
1、树结构标签
从汉字分解方式——表意文字描述序列(IDS)出发,所有汉字可以被分解为由偏旁部首和结构组成的树形式[1,2]。本文将汉字分解为二叉树,如图3所示。其中所有父节点为结构,所有叶子节点为偏旁部首,父节点对应的左右节点可以表示该节点在汉字中的空间位置关系。
2、分解模块
分解模块由CNN编码器和树解码器构成。编码器为DenseNet,经过编码器后的输出为
树解码器的结构如图4所示。给出父节点
根据分解模块预测得到子节点序列
4、纠错模块
当判断的汉字属于错误汉字集时,进行定位与纠错。
(2)纠正错误。根据预测出的偏旁部首序列和理想汉字的偏旁部首序列的相应位置的编辑操作,找出出错的偏旁部首和结构所对应的理想偏旁部首和机构。
三、主要实验结果
本文使用的数据集是自己收集的,其中包含570类错误的汉字类别,具体信息如表1所示。采用的评判指标是
表1数据集统计信息
表2 总损失函数中三元组损失权重
表4本文方法(TAN)与其他偏旁部首的文本识别方法的对比
表5不同方法在三种错误类型上的结果
从表5可以看出,笔画的错误类型识别率最低,而整体的错误拼写数据集的识别率不到60%,所以错误汉字的准确识别是一项很有挑战性的任务。
表6不同方法在三种错误类型上的结果
四、总结与讨论
五、相关资源
论文地址:
参考文献
原文作者: Yunqing Li, Jun Du, Jianshu Zhang, Changjie Wu
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
[SIGGRAPH 2022] 利用真实数据来提升文档图像矫正性能(有源码)
[IEEE TIP 2022] | 基于EM算法的混合监督场景文本检测
[ACM 2022] 基于判别式和生成式的自监督文本图像识别方法
[TMM 2022] | 基于多层次跨模态模仿学习的跨语言文本图像识别与翻译方法
[ACM MM 2022] SPTS: Single-Point Text Spotting(已开源)
论文推荐|[ACM MM 2022] 基于边缘去除和迭代式内容矫正的复杂文档图像校正
ECCV 2022 Oral | 理解艺术字:用于场景文字识别的角点引导Transformer
ECCV2022 | 基于对比学习和多信息表征的端到端视频OCR模型(有源码)
[ECCV 2022] 具有计数感知的手写数学公式识别算法(有源码)
[CVPR 2022]针对场景文本检测的视觉语言模型预训练
欢迎加入中国图象图形学学会!(附入会攻略)
扫码关注,获取最新OCR资讯