论文推荐|[ECCV2020] 端到端OCR文本重排的序列学习方法及富文本图像理解应用
本文简要介绍ECCV2020 论文“An End-to-End OCR Text Re-organization Sequence Learning for Rich-text Detail Image Comprehension”的主要工作。本文提出了一种新颖的端到端的对图中多个OCR文本块进行重排序的网络模型,以获得一个符合正常阅读逻辑结构的序列化输出。
文本是人类交流的重要工具,对如商品详情介绍图片中的文本进行理解是一项需求日益增加的应用。传统的光学字符识别(OCR)技术致力于从图像中挖掘文本信息,主要包含文本检测和识别过程。它们提取图像中的字符并根据语义信息将其组织成几个文本块。然而,这些文本块通常有着灵活的布局。他们是离散的,缺乏上下文顺序,没有图像结构。因此,当一些文本自动阅读器直接按从左到右、从上到下的顺序阅读文本块时,其结果往往是错误的,会令人无法理解。本文提出了一种新颖的端到端的对图中多个OCR文本块进行重排序的网络模型以解决上述问题。具体而言,该方法先将多个文本块建模为图结构,使用包含注意力机制的图卷积网络得到全局的图特征表示;接着使用一个基于指针网络的序列解码器,迭代的输出重排序的结果;最后引入了Sinkhorn层进行全局的约束和优化。在真实数据上的实验结果表明,该方法在局部和全局序列评估结果中均优于其他方法。对视力障碍者的真实的用户体验测试也表明该方法具有显著的优越性。
图1是图的构建过程与图卷积编码器框架图。该方法将全卷积网络(FCN)[1]模型应用于文本区域的检测,然后提取其主干部分的特征图,并利用在文本检测时预先训练的参数得到特征映射。结合文本框,采用双线性插值技术得到文本块内特征作为节点属性。对于边缘属性,该方法考虑几何信息,即利用文本块的位置坐标。它应用类似[2]中启发式的相对位置和形态方法来表示边缘属性:
接着,该方法采用双层的包含注意力机制的图卷积网络,计算得到最终的节点特征和边缘特征。然后进一步通过平均池化层从节点特征中得到全局的图特征表示,并通过全连接层进行块间链接的预测,以得到文本块间的关系特征。
图2是基于指针网络的解码器框架图。由于在这个任务中并没有输出词汇表,输出序列中的每个元素都是来自输入中的某个元素。因此,该方法应用了一个基于指针网络的解码器,它在每个时间步都会指向输入中的某个元素,作为当前时间步的输出。解码器在每个时间步考虑的信息包括三个:来自编码器的图特征表示、关系特征和上一时间步输出的节点特征。在第一步时,该方法将使用一个特殊的<start>标签作为输入占位符:
在每个时间步,网络会筛除已经被预测输出过的节点,且解码器将选择具有最大概率的节点作为当前的输出。
因为每个文本块都具有指向下一个文本块的唯一链接,所以可以将注意力矩阵转换为双随机矩阵,其中每个行和列的总和为1。在Sinkhorn理论中,任何非负方阵都可以通过迭代的将行或列进行归一化运算而转换为双随机矩阵。其中行和列的归一化操作如下:
则第n次迭代的Sinkhorn归一化操作SH通过以下规则递归:
该方法会在每个时间步添加Sinkhorn归一化,以获得输出文本块的全局最佳概率矩阵。
主要实验结果及可视化如表1、2和图3、4所示。另外,视力障碍者的真实用户体验测试也表明,本文方法具有约超过70%的准确性。
本文重点讨论OCR文本块重排序问题。该方法提出了一种端到端的重组序列学习结构,借助预训练的FCN文本检测网络,提取图像特征并将其与几何特征合并以构建图结构。然后使用具有自注意机制的图卷积编码器以获得图嵌入。最后,将具有Sinkhorn层的基于指针网络的注意力解码器应用于预测序列输出。该方法在总体评估和局部评估方面均优于其他方法,并且将有助于人们更详细、更准确地理解图像内容,尤其是对于视力障碍者而言。
论文地址:http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123700086.pdf
原文作者:Liangcheng Li, Feiyu Gao, Jiajun Bu, Yongpan Wang, Zhi Yu and Qi Zheng
审校:连宙辉
发布:金连文
论文推荐|[ECCV 2020] 文本检测识别中的字符区域注意力机制(有源码) 论文推荐|[PR 2020]基于HDE编码的零样本手写汉字识别 论文推荐|[IEEE TIP 2020]EraseNet:端到端的真实场景文本擦除方法 演讲录播 | 文本检测与识别再思考【CSIG-DIAR 2020学术年会系列报道6】 演讲录播 | 通用文档理解预训练模型【CSIG-DIAR 2020学术年会系列报道5】 演讲录播 | 基于编码-解码模型的数学公式识别研究【CSIG-DIAR 2020学术年会系列报道4】 论文推荐|[ICFHR 2020] 基于风格GAN联机手写样本合成数据增广的手写OCR性能改进方法 演讲录播 | 文字图像图形生成技术研究进展【CSIG-DIAR 2020学术年会系列报道3】 论文推荐|[SIGGRAPH 2020] Attribute2Font:从属性创建所需的字体
欢迎加入中国图象图形学学会!(附入会攻略)
(扫描识别如上二维码加关注)