[TMM 2022] | 基于多层次跨模态模仿学习的跨语言文本图像识别与翻译方法
本文简要介绍TMM 2022录用论文“Cross-Lingual Text Image Recognition via Multi-Hierarchy Cross-Modal Mimic”的主要工作。该论文主要针对跨语言文本图像识别(CLTIR)任务,提出了一种多层次跨模态的模仿学习框架,将机器翻译模型作为教师模型,在语义特征空间中引导学生模型进行学习,并引入对抗性学习和注意力机制,利用全局和局部知识改善端到端识别性能。该框架还可以利用庞大的双语语料库进一步提高性能。
一、研究背景
二、方法原理简述
图2 网络整体框架图
图2是这篇文章提出的多层次跨模态的模仿学习(MHCMM)方法的整体框图,主要包括教师模型(绿框标出)和学生模型(蓝框标出)。该方法将机器翻译模型作为教师模型,在语义特征空间中引导学生模型进行学习,并引入对抗性学习和注意力机制,利用全局和局部知识改善端到端识别性能。具体地,教师模型用于实现文本翻译任务,其文本编码器采用了机器翻译模型ConvS2S [1]的编码结构;学生模型用于实现跨语言文本图像识别任务,其图像编码器采用了类似VGG19的结构。教师模型和学生模型的解码器是参数共享。教师模型在预训练时,会先对解码器的参数进行优化,然后,学生模型再使用文本图像数据对其进行微调。
在教师模型部分,源语言文本经过可学习的查找表映射成词向量后,输入文本编码器得到文本特征,接着经过ConvS2S的注意力模块后,得到文本焦点。在学生模型部分,文本图像输入图像编码器后,得到文本特征,经过与教师模型类似的注意模块后,得到图像焦点。为了使学生模型的图像特征分布可以更靠近教师模型的文本特征分布,使得整个框架可以兼容跨模态的异质信息,文章对中间特征序列施加了全局模仿学习(Global Mimic)和局部模仿学习(Local Mimic)的监督。
为了提高跨模态特征间的总体相似度,文章使用多层感知机构建了一个判别器D,来判别每一帧特征序列是来自文本编码器T还是图像编码器I。同时,图像编码器I试图通过产生更具兼容信息的图像特征来混淆判别器D。设
其中,
进一步地,经过注意力模块的计算后,图像特征和文本特征分别被映射为长度相同、维数相同的序列,可以进行逐元素的匹配。假设图像和文本两种模式的输入分别为x和y,
CLTIR的最终目标是将源语言文本图像x映射成目标语言文本z。因此,除了在语义特征空间进行多层次跨模态模仿学习外,文章还对学生模型施加了序列分类的监督:
三、主要实验结果及可视化结果
为了验证所提出方法的有效性,文章还提出了一个带有双语标注的合成文本图像数据集(BLATID),数据组成如表1所示。其中,训练集和验证集的语料来自AI Challenger数据集[2], 文本图像则是人工合成的[3];测试集的语料来自电影双语字幕,并通过随机更改字幕设置生成文本图像。实验设置详见原文,评价指标采用机器翻译领域的BLEU Scores。
文章对比了3种不同的系统——级联系统、单任务学习系统、多任务学习系统以及本文提出的多层次跨模态模仿学习系统,并将机器翻译模型的结果视为基线。如表2所示,相比于前三种系统,文章提出的MHCMM框架可以获得更高的准确率,尤其是加入大规模的双语语料数据集进行预训练(标*)后,准确率涨点尤为明显。究其原因,级联系统产生的中间特征会导致错误累积,而单任务系统则无法很好地兼容文本和图像两种模态之间的差异。值得一提的是,多任务学习系统能取得比单任务学习系统更好的效果,这说明单语言文本图像识别任务对于跨语言文本图像识别任务的学习是有益的。
表3的消融实验结果表明,全局特征的对抗学习和局部特征的逐元素匹配对MHCMM方法来说是不可或缺的。另外,文章还将使用了Transformer结构的编码器和解码器进行对比试验,如表4所示,模型仍能取得令人满意的效果,这说明MHCMM在不同的注意力机制下是鲁棒的。
为了定性地展示MHCMM的性能,作者分别对学习得到的文本焦点和图像焦点进行了可视化。如图3(a)-(c),通过多层次跨模态的模仿学习,在序列对齐比较复杂的情况下,教师模型和学生模型仍能给出合理的注意力分数,MHCMM框架中的学生模型可以像传统机器翻译模型一样处理文本图像。
四、总结及讨论
参考文献
[1] J. Gehring, M. Auli, D. Grangier, D. Yarats, and Y. N. Dauphin,“Convolutional sequence to sequence learning,” in Proceedings of the International Conference on Learning Representations, 2017, pp. 1243–1252.
[3] M. Jaderberg, K. Simonyan, A. Vedaldi, and A. Zisserman, “Synthetic data and artificial neural networks for natural scene text recognition,” arXiv preprint arXiv:1406.2227, 2014.
原文作者:Zhuo Chen, Fei Yin, Qing Yang, Cheng-Lin Liu.
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
[ACM MM 2022] SPTS: Single-Point Text Spotting(已开源)
论文推荐|[ACM MM 2022] 基于边缘去除和迭代式内容矫正的复杂文档图像校正
ECCV 2022 Oral | 理解艺术字:用于场景文字识别的角点引导Transformer
ECCV2022 | 基于对比学习和多信息表征的端到端视频OCR模型(有源码)
[ECCV 2022] 具有计数感知的手写数学公式识别算法(有源码)
[CVPR 2022]针对场景文本检测的视觉语言模型预训练
[CVPR 2022] 内容感知的文字标志图像生成方法
[IEEE TIFS 2022] 深度软动态时间规整:用于联机签名认证的局部表征学习新方法(有源码)
基于概率分布图的任意形状文本实例分割和检测方法(有源码)
[IJCAI 2022] 平面几何图例解析(有源码和数据集)
欢迎加入中国图象图形学学会!(附入会攻略)
扫码关注,获取最新OCR资讯