@所有雄安人!一定要看!

@所有雄安人!一定要看!

广西冯波律师涉黑案|冯母:我儿长在风波亭畔,冤在柳侯祠前

以项目论英雄,凭实绩排座次!日照这场专题会议传递强烈信号!

涿州,原来有这么多人需救援!

生成图片,分享到微信朋友圈

自由微信安卓APP发布,立即下载! | 提交文章网址
查看原文

[TMM 2022] | 基于多层次跨模态模仿学习的跨语言文本图像识别与翻译方法

江佳佳 CSIG文档图像分析与识别专委会 2022-12-15

本文简要介绍TMM 2022录用论文“Cross-Lingual Text Image Recognition via Multi-Hierarchy Cross-Modal Mimic”的主要工作。该论文主要针对跨语言文本图像识别(CLTIR)任务,提出了一种多层次跨模态的模仿学习框架,将机器翻译模型作为教师模型,在语义特征空间中引导学生模型进行学习,并引入对抗性学习和注意力机制,利用全局和局部知识改善端到端识别性能。该框架还可以利用庞大的双语语料库进一步提高性能。

图1 (a)级联和(b)端到端跨语言文本图像识别的框图

一、研究背景



文本图像识别技术可以从图像中获取丰富而高级的语义知识。近年来,得益于深度学习,文本图像识别技术得到了较大的发展。目前的识别工作多局限于单语言文本图像识别任务,然而,在旅游指南、文档图像翻译和网络信息检索等应用中,常常需要从外文图像中获取文本信息。针对这个问题,简单地将文本图像识别模块和机器翻译模块级联起来并不能很好地解决问题,因为这会导致错误累积、参数冗余和过度依赖三元组数据等问题。因此,文章提出了多层次跨模态的模仿学习框架,用于实现端到端的跨语言文本图像识别。

二、方法原理简述



图2 网络整体框架图

图2是这篇文章提出的多层次跨模态的模仿学习(MHCMM)方法的整体框图,主要包括教师模型(绿框标出)和学生模型(蓝框标出)。该方法将机器翻译模型作为教师模型,在语义特征空间中引导学生模型进行学习,并引入对抗性学习和注意力机制,利用全局和局部知识改善端到端识别性能。具体地,教师模型用于实现文本翻译任务,其文本编码器采用了机器翻译模型ConvS2S [1]的编码结构;学生模型用于实现跨语言文本图像识别任务,其图像编码器采用了类似VGG19的结构。教师模型和学生模型的解码器是参数共享。教师模型在预训练时,会先对解码器的参数进行优化,然后,学生模型再使用文本图像数据对其进行微调。

在教师模型部分,源语言文本经过可学习的查找表映射成词向量后,输入文本编码器得到文本特征,接着经过ConvS2S的注意力模块后,得到文本焦点。在学生模型部分,文本图像输入图像编码器后,得到文本特征,经过与教师模型类似的注意模块后,得到图像焦点。为了使学生模型的图像特征分布可以更靠近教师模型的文本特征分布,使得整个框架可以兼容跨模态的异质信息,文章对中间特征序列施加了全局模仿学习(Global Mimic)和局部模仿学习(Local Mimic)的监督。

为了提高跨模态特征间的总体相似度,文章使用多层感知机构建了一个判别器D,来判别每一帧特征序列是来自文本编码器T还是图像编码器I。同时,图像编码器I试图通过产生更具兼容信息的图像特征来混淆判别器D。设为文本图像提取的特征序列的第i为从文本词向量提取的第k帧特征序列,则用于监督全局模仿学习的对抗损失为:

其中,分别用于更新判别器和图像编码器。

进一步地,经过注意力模块的计算后,图像特征和文本特征分别被映射为长度相同、维数相同的序列,可以进行逐元素的匹配。假设图像和文本两种模式的输入分别为x和y,为注意力模块。基于均方误差,局部模仿学习的损失可表示为:

CLTIR的最终目标是将源语言文本图像x映射成目标语言文本z。因此,除了在语义特征空间进行多层次跨模态模仿学习外,文章还对学生模型施加了序列分类的监督:

三、主要实验结果及可视化结果



1  BLATID数据集

为了验证所提出方法的有效性,文章还提出了一个带有双语标注的合成文本图像数据集(BLATID),数据组成如表1所示。其中,训练集和验证集的语料来自AI Challenger数据集[2], 文本图像则是人工合成的[3];测试集的语料来自电影双语字幕,并通过随机更改字幕设置生成文本图像。实验设置详见原文,评价指标采用机器翻译领域的BLEU Scores。

文章对比了3种不同的系统——级联系统、单任务学习系统、多任务学习系统以及本文提出的多层次跨模态模仿学习系统,并将机器翻译模型的结果视为基线。如表2所示,相比于前三种系统,文章提出的MHCMM框架可以获得更高的准确率,尤其是加入大规模的双语语料数据集进行预训练(标*)后,准确率涨点尤为明显。究其原因,级联系统产生的中间特征会导致错误累积,而单任务系统则无法很好地兼容文本和图像两种模态之间的差异。值得一提的是,多任务学习系统能取得比单任务学习系统更好的效果,这说明单语言文本图像识别任务对于跨语言文本图像识别任务的学习是有益的。

表2 不同系统的结果对比
表3 消融实验

表4 基于Transformer的对比结果

表3的消融实验结果表明,全局特征的对抗学习和局部特征的逐元素匹配对MHCMM方法来说是不可或缺的。另外,文章还将使用了Transformer结构的编码器和解码器进行对比试验,如表4所示,模型仍能取得令人满意的效果,这说明MHCMM在不同的注意力机制下是鲁棒的。

为了定性地展示MHCMM的性能,作者分别对学习得到的文本焦点和图像焦点进行了可视化。如图3(a)-(c),通过多层次跨模态的模仿学习,在序列对齐比较复杂的情况下,教师模型和学生模型仍能给出合理的注意力分数,MHCMM框架中的学生模型可以像传统机器翻译模型一样处理文本图像。

图3  习得的图像焦点和文本焦点的可视化结果

四、总结及讨论



该文考虑到跨语言文本图像识别问题,提出了一个多层次的跨模态模仿学习框架(MHCMM),将机器翻译模型用作教师模型,在语义特征空间中引导学生模型学习,并基于对抗性学习和注意力机制,利用全局和局部知识进一步改进端到端的跨语言文本图像识别性能。文章通过消融和对比试验,验证了MHCMM的有效性和鲁棒性,可视化结果也支持这一结论。此外,该框架还可以利用庞大的双语语料库进一步提高性能。

参考文献



[1] J. Gehring, M. Auli, D. Grangier, D. Yarats, and Y. N. Dauphin,“Convolutional sequence to sequence learning,” in Proceedings of the International Conference on Learning Representations, 2017, pp. 1243–1252.

[2] AIChallenger, “Ai challenger,” https://github.com/AIChallenger/AI Challenger 2018, 2018.
[3] M. Jaderberg, K. Simonyan, A. Vedaldi, and A. Zisserman, “Synthetic data and artificial neural networks for natural scene text recognition,” arXiv preprint arXiv:1406.2227, 2014.

原文作者:Zhuo Chen, Fei Yin, Qing Yang, Cheng-Lin Liu.


撰稿:江佳佳
编排:高 学
审校:殷 飞
发布:金连文

 


免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。


往期精彩内容回顾




欢迎加入中国图象图形学学会!(附入会攻略)


征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: eelwjin@scut.edu.cn)。


扫码关注,获取最新OCR资讯



文章有问题?点此查看未经处理的缓存