ECCV2022 | 基于对比学习和多信息表征的端到端视频OCR模型(有源码)
一、背景
视频作为移动互联网时代飞速发展的新媒体形式,已经超越了图片、文本等传统媒体形式,正在成为互联网的主要应用,其中视频文字作为高级语义载体,是视频感知、内容理解等方面的重要基础信息。
传统的光学字符识别(OCR)研究工作集中在图像领域,主要包含文本检测和识别过程,且在很多应用场景下都取得了较高的精度。然而,近年来视频OCR(Video Text Spotting, 端到端视频文字识别,需要模型同时去完成检测,跟踪,和识别的任务)作为新的挑战,社区的关注较低,研究工作也不多,导致很多基于视频OCR的应用难以成熟落地,如视频理解,视频检索等。
先前存在的一些视频OCR研究工作,都存在以下几点问题:
为此,本文提出了一个基于对比学习和多信息表征的端到端视频OCR模型CoText,与现有的方法相比,CoText主要有4点贡献:
二、方法
2.1 算法框架
图1 CoText 算法架构
如图1所示,本文的网络框架主要包括Backbone(如Resnet18),FPN、上采样,Maked-roi和三个Head,包括检测头、识别头和跟踪头。其中检测头和Masked-Roi继承自PAN++[1];为了获得高性能的推理速度,识别头采用轻量级CRNN;对于跟踪头,我们将识别头输出的文字的语义序列特征和从Masked-roi获取的视觉特征、位置特征三种特征融合在一起,获得文字的最终特征表示R。最后通过基于余弦距离的Kuhn-Munkres(KM算法/匈牙利匹配)进行相邻帧文字的比对关联,获得最终的跟踪结果。通过这个架构,CoText可以同时获得文字的检测框、跟踪id和文字的识别内容。
在训练阶段,三种损失函数各自优化三哥任务头,其中跟踪头基于对比学习,将持续不同帧的相同文字对象视为同类,不同文本对象视作不同类,以此学习视频文字的时序信息。
2.2 多信息表征
图2 加入语义信息后的特征空间
传统的文字跟踪模型仅利用视觉特征(图2左侧),当遇到运动、模糊等复杂场景的视频文字时,非常容易出现Id-switch问题。这种仅利用视觉特征的方式与人类的阅读机制是不一致的,人类观看视频时,会不断地通过阅读文字的内容、查看文字的样式以及观察文字位置去判断哪些文字是同一对象。我们遵从人类的机制,设计了三种编码器(Visual Encoder、Semantic Encoder和Positional Encoder),分别对应文字的语义特征、视觉特征和位置特征。可以看到,加入了语义特征后的的表征特征空间(图2右侧),前后帧相同文字的空间距离更近,这也说明了加入了语义特征后,文本表示更加鲁棒。
图3 特征编码器结构示意图
三种特征编码器的结构如图3所示。为了获得更少的计算消耗,我们将三种编码器结构最大程度简化,均为Convolution+Gloablpooling的结构。三种特征输出维度均设置为128*1*1,并直接Concat到一起,最后再经过两层卷积做特征融合,获得文字最终的多信息表征。
2.3 多帧间的对比学习
现有的文字跟踪算法,均使用了相邻帧的文字关联问题研究,而忽略了长时序信息的学习。我们提出了基于长时依赖的多帧学习策略。如图4所示,给定一个属于轨迹Tm的文字实例Ti,我们认为,轨迹Tm中的任意文字,都与Ti构成正样本对;除Tm以外的任意轨迹中的文字Tj,都与Ti构成负样本对。使用基于公式1)和公式2)的损失进行优化,拉近正样本对之间的Embedding距离,同时拉远负样本对之间的Embedding距离。
2.4 文字识别
不同于先前图片级别的端到端网络如PAN++,ABCNet等,多使用基于Attention的识别架构。我们提出基于CTC的文字识别分支,应用CTC架构的原因如下:
●相比Attention,基于CTC的并行解码推理速度大大提升
●基于CTC结构产生的文字序列更加分散和原始,这对于跟踪头中的”语义特征表达“来说是更加全面的信息(”Blank“、重复字符都是重要的语义信息)。相反,使用Attention产出的语义信息相对高级,不适合用作模型的特征输入
如表1所示,得益于共享BackBone和Masked-roi,基于CTC的识别头非常轻量化,仅仅包含2个卷积层、一个双向LSTM和一个全连接层。给定一个从Masked-roi提取的特征Patch,我们首先使用两个卷积层将特征的高度h缩减为1,然后使用一个双向LSTM层学习文字的序列特征,最后使用一个全连接层映射到字符集大小。类似PAN++、ABCNet,我们在训练阶段使用GT box做特征提取,在推理阶段使用检测头的输出作为RPI区域。
2.5 损失函数
整体模型的损失函数如公式4所示。其中Ldet、Lrec和Ltrack分别代表检测、识别、跟踪的损失函数。为了将三种难度不同的任务做统一优化,我们参考[2]的工作,利用了σ1、σ2、σ3作为三个损失的可学习参数;σ1 + σ2 + σ3 是总损失的正则项。
2.6 推理
在推理阶段,与很多先前的工作一样,CoText获得相邻帧之间的文字Embedding矩阵后,通过KM算法获得前后帧文字的关联关系;整合所有帧的关联文字获得最终的跟踪结果,并在跟踪结果中选择文字识别置信度最高的作为文本识别结果。
三、实验
实验阶段我们评估了4个开源视频OCR数据集,分别为:ICDAR2013 Video、ICDAR2015 Video、Minetto和BOVText。
本文中的所有实验,我们都预先使用图片级别的数据COCO-Text进行预训练,然后在其他视频级别的数据集下进行Finetuning。在图片级预训练阶段,我们应用了Random Shift来将图片数据处理成为视频帧序列进行学习。在训练阶段,我们使用8卡TeslaV100,设置Batch_size为44,初始学习率设置为1e-3。在推理阶段,我们将图片的短边固定为特定尺寸并保持原图比例去Resize长边。所有的速度性能测试均在单卡V100和2.2GHzCPU的机器上进行,推理Batch_size为1。
对于Video Text Detection任务,检测评估指标与图片类任务一致,这里对实验详情不再介绍,具体可参考文末论文链接了解。接下来详细介绍文字跟踪和端到端任务。
得益于更简单的模型架构,相比于先前方法的复杂Pipeline(如TransVTSpotter[3])和多阶段模型(如Free[4]),CoText在更高精度提升的前提下,速度成倍提升。
3.1 视频文字跟踪
如表3所示,在Minetto 数据集上,我们设定短边640 Pixels,CoText取得了83.9%的IDF1和86.9%的MOTA,同时维持了64.2FPS的推理速度;在ICD15Video和ICD13Video数据集中,CoText分别达到了68.6%和68.1%的IDF1。对比于先前的方法,在ICD15下实现了2.5%的IDF1提升和27.6FPS的提升。在双语大规模数据集BOVText下,我们同样获得了SOTA。
3.2 端到端视频文字spotting
表4展示了端到端任务下的实验结果。CoText继承了文字跟踪下的优势,在ICD15Video数据集下取得了72.0%的IDF1和59.0%的MOTA,相比之前的SOTA算法分别超出了10.5%和5.8%,同时,CoText实现了更高的推理速度(59.5FPS/短边640Pixel,41.0FPS/短边832Pixel),提升了至少32FPS。
BOVText包含了大规模多场景的双语视频文本数据,更具挑战。CoText实现了47.5% 的IDF1和 10.8% 的MOTA与之前的SOTA相比,分别提升了3.9%和12.2%,同时推理速度至少达到36.2FPS,相比之前方法提升3倍。
四、离线排行榜结果
与Paper中实验设置不同的是,我们在离线模型训练时,加入了更多的图片数据做预训练,进一步提升模型的性能。增加的数据包括ICDAR2015 Image,1000图;SynthText,80w图,同时增加了训练Epoch和训练时间。
在ICDAR官方社区中,我们在ICDAR2015 Text In Videos比赛,获得了全部任务的第一名。
TASK1 Text Localization
TASK4 End-to-End
五、总结与讨论
六、其他资源
文章链接:
●CoText:https://arxiv.org/abs/2207.08417
●SVRep:https://arxiv.org/abs/2112.14976
代码链接:https://github.com/weijiawu/CoText
参考文献
[1] Wang, W., Xie, E., Li, X., Liu, X., Liang, D., Zhibo, Y., Lu, T., Shen, C.: Pan++: Towards efficient and accurate end-to-end spotting of arbitrarily-shaped text. TPAMI (2021)
[2] Alex Kendall, Yarin Gal, and Roberto Cipolla. Multi-task learning using uncertainty to weigh losses for scene geometry and semantics. In CVPR, pages 7482–7491, 2018.
[3] Wu, W., Zhang, D., Cai, Y., Wang, S., Li, J., Li, Z., Tang, Y., Zhou, H.: A bilingual, openworld video text dataset and end-to-end video text spotter with transformer. In: NeurIPS (2021)
[4] Cheng, Z., Lu, J., Zou, B., Qiao, L., Xu, Y., Pu, S., Niu, Y., Wu, F., Zhou, S.: Free: A fast and robust end-to-end video text spotter. TIP 30, 822–837 (2020)
快手MMU介绍
快手MMU(Multimedia Understanding)部门负责快手全站海量音视频、直播的内容理解,在多个技术领域广泛布局,比如视觉方向,在视频、直播、图像的分析和理解、视觉检索、视频生成等技术上有成熟应用和投入;音频方向,在语音识别 & 合成、音乐理解与生成、音频前端与分类等技术上达到行业先进水平,同时也有知识图谱、NLP、智能创作、内容商业价值理解等多种能力,为实现跨模态内容理解奠定坚实基础。
MMU为快手生态提供 500 + 智能服务,应用在搜索、推荐、生态分析、风险控制等诸多场景。团队拥有业内最顶尖的算法工程师和应用工程师,持续招募相关领域技术人才,博士占比 15%,硕士及以上占比 95%,拥有人工智能领域专利 394 件,每年发表论文数十篇。
原文作者:Wejia Wu, Zhuang Li, Jiahong Li, Chunhua Shen, Hong Zhou, Tingting Gao, Zhongyuan Wang, and Ping Luo
撰稿:李 壮
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
[ECCV 2022] 具有计数感知的手写数学公式识别算法(有源码)
[CVPR 2022]针对场景文本检测的视觉语言模型预训练
[CVPR 2022] 内容感知的文字标志图像生成方法
[IEEE TIFS 2022] 深度软动态时间规整:用于联机签名认证的局部表征学习新方法(有源码)
基于概率分布图的任意形状文本实例分割和检测方法(有源码)
[IJCAI 2022] 平面几何图例解析(有源码和数据集)
论文推荐|[CVPR 2022]通过权重平衡的长尾识别(有源码)
[IEEE TPAMI 2022] 基于定制化迭代和采样的高效查询黑盒对抗攻击(有源码)
[ACL2022] FormNet:表单文档信息抽取中超越序列建模的结构编码方法
[CVPR2022] 端到端的场景文字检测与版面分析统一框架
欢迎加入中国图象图形学学会!(附入会攻略)
扫码关注,获取最新OCR资讯