查看原文
其他

[ECCV 2022 oral]|​Language Matters:面向场景文字检测和端到端识别的弱监督的视觉-语言预训练方法

黄鎏丰 CSIG文档图像分析与识别专委会 2022-12-15

本文简要介绍一篇被ECCV 2022录为oral的论文“Language Matters:A Weakly Supervised Vision-Language Pre-training Approach for Scene Text Detection and Spotting”。该论文提出了一种弱监督的预训练方法oCLIP,该方法通过联合学习和对齐视觉和文本信息来获得有效的场景文本表示,可以使用弱标注的文本进行预训练(仅对图片中的部分文字进行文字标注,且不需要框标注)。在ICDAR2019-LSVT[1]数据集上,文中的预训练方法利用数据集的弱标注,在检测任务和端到端任务上分别提升了2.5%和4.8%,文中的预训练方法在多个公开数据集上超过了目前已有的其他预训练方法。

一、研究背景



我们阅读文本时,不仅会利用文本的视觉特征,还会利用到所学的语言知识。例如,我们通常通过对相应语言的了解,可以更快更容易地定位和阅读文本。这表明视觉和文本信息都有助于从自然场景图像中更好地阅读文本。因此文中提出了一种语言-图像预训练方法(oCLIP),该方法利用文本信息来学习有效的视觉文本表示,在检测和端到端识别任务上均有提升。

二、方法原理简述



图1是oCLIP的整体框架。整个网络包含三个部分:1)图像编码器(ResNet50[2]+多头注意力层)2)字符感知文本编码器3)视觉-文本解码器。图像经过图像编码器得到图像编码,字符感知文本编码器通过对文本实例的字符进行编码得到文本实例编码。得到的图像编码和文本实例编码随后通过视觉-文本解码器进行交互建模。在训练的时候,会随机Mask掉每个文本实例中的一个字符,网络通过预测这个字符进行优化。

图1 oCLIP的整体结构

字符感知文本编码器

在通常的视觉-语言任务中,文本通常是用来描述图片内容的一个完整句子,句子中的单词是有很强相关性的,因此会对整个句子的单词按顺序编码。但是在OCR任务中,文本是图片中出现的文字,图片中往往包含多个文本实例,同一文本实例的字符有很强的关联,不同文本实例的字符通常是不关联的。因此不可以将所有文本实例按顺序编码。文中就提出了字符感知文本编码器对文本实例进行编码。

字符感知文本编码器对文本实例的字符进行编码,得到文本实例级别的编码向量。一张图中,给定n个标注的文本实例,每个文本实例包含一串字符,作者将字符嵌入到固定长度的向量中,并加入位置编码[3],该过程可以用公式1表示:

其中是字符编码矩阵,第i个文本实例的字符编码为,随后字符编码通过Transformer 编码器交互建模文本实例中字符的关系得到实例编码。最后文本编码器得到文本实例编码

视觉-文本解码器

文中提出了一种视觉-文本解码器,该解码器对输入图像和每个注释的文本实例之间的交互进行建模,同时忽略未标注的文本实例。解码器由6层解码层组成,文本实例编码作为Q,图像编码作为K,V,解码器没有使用自注意力层以忽略不同文本实例之间的关系。最后解码器用于预测被Mask掉的字符来优化网络。

损失函数

网络的损失函数由两部分组成:1)预测字符的分类损失和2)Batch级别的对比损失。分类损失采用交叉熵损失函数,如公式2所示,其中I和T是输入的图片和文本实例,是预测的被Mask的字符,是真实的被Mask的字符,H是交叉熵损失函数。

受CLIP[4]的启发,文中采用Batch级别的对比损失加快网络的收敛。对于一个Batch里面的N张图片和文本,构建一个的(文本,图像)矩阵。其中正确的配对有N种,其他对是错误的匹配。通过计算Image-to-text和Text-to-image的相似度来计算对比损失。相似度如公式3所示。

Batch级别的对比损失如公式4所示,采用交叉熵损失,其中是真实的相似度,正确的匹配为1,错误的匹配为0.

最终总的损失函数如公式5所示

三、主要实验结果及可视化效果



如表一、二所示,在ICDAR2019-LSVT数据集上使用文中的预训练方法对检测和端到端任务都有明显的提升。(+oCLIP :使用文中的方法在ICDAR2019-LSVT数据集的40w弱标注数据上进行预训练)

表一 不同模型在ICDAR2019-LSVT数据集上的检测结果
表二 ICDAR2019-LSVT数据集上的端到端结果

表三是使用不同标注比例的合成数据进行预训练的实验结果,其中是不进行预训练,直接用PSENet[5]在Total-Text上训练;是用PSENet在Synth Text上预训练然后再Total-Text上fine-tune;是指使用文中的预训练方法,每张图给出25%的文本标注进行预训练。可以发现文中的预训练方法效果要好于PSENet直接在Synth Text上预训练的效果,并且在不同标注比例的设置上效果也很稳定。

表三 使用Synth Text不同标注比例的文本实例预训练(PSENet在Total-Text上Fine-tune)

表四 和目前的场景文字预训练方法对比

表五 在CTW1500上和目前先进的文字检测方法对比

表六 在Total-Text上和目前先进的文字检测方法对比

表七 在ICDAR-2015上和目前先进的文字检测方法对比

表八 在ICDAR-2015和Total-Text上和目前先进的端到端方法对比

表九 消融实验
(CAE:字符感知文本编码器, VTD:视觉-文本解码器, BCL:Batch级别对比损失)
作者在检测任务和端到端任务上验证了文中的方法在弱标注数据上预训练的有效性,并且和其他预训练方式做了对比,效果要好于其他的预训练方式。并且通过消融实验验证了部件的有效性。

四、总结及讨论



作者提出了一种弱监督的预训练方法联合学习视觉和语言信息,可以使用弱标注的文本进行预训练(仅对图片中的部分文字进行文字标注,且不需要框标注)。在多个数据集上验证了该预训练方法在检测任务和端到端任务上都有效。

五、相关资源



  • Language Matters:A Weakly Supervised Vision-Language Pre-training Approach for Scene Text Detection and Spotting  论文地址:

    https://arxiv.org/abs/2203.03911

参考文献



[1] Sun Y, Ni Z, Chng C K, et al. ICDAR 2019 competition on large-scale street view text with partial labeling-RRC-LSVT. In ICDAR, pages 1557-1562, 2019.

[2] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition. In CVPR, pages 770-778, 2016.

[3] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need. In Advances in Neural Information Processing Systems, pages 5998–6008, 2017.

[4] Radford A, Kim J W, Hallacy C, et al. Learning transferable visual models from natural language supervision. In International Conference on Machine Learning, pages 8748-8763, 2021.

[5] Wang W, Xie E, Li X, et al. Shape robust text detection with progressive scale expansion network. In CVPR, pages 9336-9345, 2019.


原文作者: Chuhui Xue,Yu Hao,Shijian Lu,Philip Torr,Song Bai

撰稿:黄鎏丰

编排:高 学

审校:连宙辉

发布:金连文 




免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。

往期精彩内容回顾




欢迎加入中国图象图形学学会!(附入会攻略)


征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: eelwjin@scut.edu.cn)。


扫码关注,获取最新OCR资讯



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存