论文推荐|[NeurIPS2021] 一个大规模开放域视频文本数据集和基于transformer的端到端文本识别算法(有源码)
本文简要介绍NeurIPS2021录用论文"A Bilingual, Open World Video Text Dataset and End-to-end Video Text Spotter with Transformer"的工作。该论文提出了一个双语大规模数据集,包括2,000+视频、175万视频帧。此外还提出了一个基于Transformer的Video Text Spotter算法,该算法将EAST的编码方式加到了DETR结构里面,提出了一个Simple Attention-based Query-key Video Text Spotter算法。
一、研究背景
文本阅读理解是计算机视觉领域研究最广泛的课题之一。随着深度学习技术的发展,图片OCR的识别精度较传统方法已经有了明显提高并且有了很多很好的落地应用,比如文档分析,图片检索等。但是视频OCR仍然有很多未解决的困难,并且社区的关注较少,近年来的工作也很少,导致很多视频OCR的应用难以成熟落地,比如视频理解,视频检索,视频VQA等应用。
视频OCR(Video Text Spotting)是一个需要模型同时去完成检测、跟踪、识别的任务。之前存在一些数据集和工作,比如ICDAR2015(Video)[1],YouTube Video Text (YVT)[2], RoadText-1K[3]. 但是这些数据集的数据量都比较小,并且场景单一,语言单一,和许多实际应用场景不太符合。此外,部分数据集于多年前提出,维护的不是很好(YVT的下载链接已经失效),并且缺少开源统一的评价指标,这些都不利于对社区的VideoOCR的发展。考虑到这些因素,我们尝试去提出一个大规模,标准的数据集,推动VideoOCR的发展和进步。该数据集主要有四个优点:1)数据量比较大 (2,000+Video And 1,750,000+视频帧) 收集来自于 KuaiShou 和 YouTube 平台;2)支持32个开放域的场景类别,包括一些新的场景,比如 Vlog日常场景,游戏场景(和平精英,王者荣耀)和体育直播场景(NBA)。不像之前的数据集,拍摄在固定城市和单一语言,这些场景覆盖面比较广泛,没有区域和时间局限;3) BOVText支持多种文本类型标注,字幕、标题、场景文本被分类标注。因为字幕往往表示更多人物的语义信息,而场景文本更多是场景内实物的属性信息,我们认为这样分类标注有利于一些下游任务的发展(视频理解和检索);4)两种语言(中英文)标注被提供。
二、数据集BOVText
图2 BOVText数据集分布
数据收集和分析
如上图2所示,首先我们在KuaiShou和YouTube平台上收集32类开放域的视频,也就是Game, Home, Fashion,And Technology这些类别,筛选除去没有文本的视频,然后安排了20位经过培训的标注师标注了三个月左右。标注完成之后训练集和测试集按照8:2进行划分,得到1,541个视频作为训练集,480个视频作为测试集。如下图3所示,对于每个文本,我们提供了四种标注描述:1)Rotated Bounding Box用于描述位置坐标,2)Instance ID用于描述同一个文本实例在时间序列里面的跟踪轨迹,3)Text Transcription用于描述文本内容,4)Text Category用于描述文本类别(Caption、Title、Scene Text)。
图3 4类标注描述说明
为了进一步对比提出的数据集和现有数据集的不同,我们将更加详细的数据整理到下表1。D、R、T、S和BI分别表示Detection、Recognition、Tracking、Spotting 和Bi-lingual Text。Incidental在这里指的是日常生活中常见的室内室外场景比如走在路上,开车等。Open指的是任意开放的场景,包括一些虚拟和直播场景,如Game、Sport(NBA)。绿色字体表示第一次提出的新的场景。
表1 一些数据集的统计对比
如下图4所示,数据集支持四个任务:(1) Video Text Detection;(2) Video Text Recognition;(3) Video Text Tracking;(4) End to End Text Spotting in Videos。 具体的Evaluation Protocols参考来自于ICDAR2015video,具体请参考原文。
三、算法简述
Baseline算法部分比较简单,与DETR相似,主要有两个重要的点:1)Bipartite Multi-orient Box Matching. 2)Architecture。
Architecture.如下图5所示该网络的结构分为四个部分Backbone、Encoder、Decoder(Tracking Or Object)、Recognizer。前面两部分和Deformable DETR是差不多的,这里主要是Decoder不同,本文借鉴了TransTrack[4],我们这边也把Decoder分为两个分支Tracking Decoder和Object Decoder,这两个分支的权重是共享的,不同的是Input Query,Object Decoder Query来自于t帧的Learned Object Query,而Track Decoder Query是来自于上一帧的检测分支产生的目标的特征向量。因此经过Decoder后,对于每一帧我们都可以得到一个Detection Box Set和Track Box Set(其实就是两个Set的Boxes),然后我们将它们互相做进行IOU匹配就可以得到Track ID。
Bipartite Multi-orient Box Matching. 相似于DETR,不管对于哪个Decoder出来的Box,我们都需要与Ground Truth进行最优二分图匹配(匈牙利Cost匹配),每对的Prediction Box和Image Object匹配的Cost如下图所示:
前两项对应DETR中的Classification和Box的代价,Box这里是用L1和GIOU的这两个Loss相加得到的。后面就是对应EAST的Angle Cost代价。这样我们就能得到每对Prediction Box和Image Object 配对时的Cost。再利用匈牙利算法即可得到二分图最优匹配。得到了Prediction Boxes和Image Objects之间的最优匹配之后,我们就能根据对应的Index计算最终的Loss:
四、实验
实验分为独立的两部分:Benchmark和Method,这里先介绍Benchmark,下图6展示了本文提出的算法在不同场景下的Track指标,并且为了和之前的数据集做对比,使用目前最大的数据集做Training Set进行实验比较,从图中主要可以得出关于Scenario的两个结论:1)不同Scenario之间的表现方差是很大的,一些场景是具有挑战的,比如最高指标88.4% 在 Fishery场景下,最低指标46.7%在Sports场景下,主要是因为Fishery存在很多很清晰,字体很大的Caption Text,几乎不存在Scene Text(因为在野外),而Sports场景多数是一些体育直播的场景,一些Scene Text是很难检测跟踪到。2)一些现有的数据集很难评估算法在某些Scenario下的指标,比如在NewsReport场景下,使用Roadtext和Lsvtd进行训练的效果是相对较差的,但是我们的数据集有比较好的表现,对于评估这些Scenario下的性能有一定效果。此外文中还有一些Attribute Experiments Analysis,例如关于Language或者Long Text等,感兴趣读者请阅读原文。
表2为关于Tracking和Spotting这两个Tasks在BOVText数据集上的表现。相比使用Detector直接进行Detection,再进行Match的方法,我们的算法具有相对较好的表现。另外,本文算法的整体性能仍然有很大的提升空间,因为该数据集包含大量的Caption Text和Easy 场景,当前的表现仍然不能满足实际需要。当然这一类场景更符合应用场景。
表2 BOVText上的文本跟踪与端到端视频文本识别性能
方法:我们在三个数据集上进行了实验,主要贴了Tracking的指标,总体看来还是有一点点优势。并且Pipeline简单,希望能对未来工作有一些启发。
表3 本文算法在ICDAR2015(video)、Minetto和YVT数据集上的实验结果
五、总结
本文介绍了一个大规模Video Text数据集,包含两种语言、多样的场景(游戏、体育直播、电视剧等)和文本形式(标题、字幕、场景文本),支持检测、识别、跟踪和端到端Spotting等四个任务。另外,本文介绍了一个基于Transformer Query的跟踪识别算法。总体来看,近年Image Level的工作很多,并且极大地推动了社区的发展和进步。但是Video Level的工作还是比较少。基于Video的应用场景却越来越多,目前的算法和数据集也比较难以满足这一需求,所以希望这个Benchmark和算法能够给社区贡献一点点工作,希望对大家有用。
六、其他资源
Paper:https://arxiv.org/pdf/2112.04888.pdf
BOVText Benchmark:https://github.com/weijiawu/BOVText-Benchmark
TransVTSpotter:https://github.com/weijiawu/TransVTSpotter
Email: weijiawu@zju.edu.cn,lizhuang05@kuaishou.com,lijiahong@kuaishou.com
参考文献
[1] Dimosthenis Karatzas, Lluis Gomez-Bigorda, Anguelos Nicolaou,et al. Icdar 2015 competition on robust reading. In IEEE International Conference on Document Analysis and Recognition, pages 1156–1160, 2015.
原文作者: Weijia Wu, Yuanqiang Cai, Debing Zhang, Sibo Wang, Zhuang Li, Jiahong Li, Yejun Tang, Hong Zhou
撰稿:蔡院强
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
论文推荐|[ACM'MM 2021] MAYOR: 再思考基于Mask R-CNN的密集任意形状自然场景文本检测
论文推荐|[ICCV 2021] 面向表格结构识别的表格图重构网络(有源码)
论文推荐|[ICCV 2021] 联合视觉语义推理:文本识别的多级解码器
论文推荐|[ICCV 2021] 面向未见单词识别:基于错误蒸馏的迭代式文本识别器
论文推荐|[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答
论文推荐|[TIP 2021] 基于互引导网络的半监督像素级场景文本分割
论文推荐|[ICCV 2021] Handwriting Transformer
论文推荐|[ACM MM2021]尝试理解交通标志
论文推荐|[T-MM 2021] RUArt: 一个以文本为中心的文本视觉问答方法
论文推荐|[ICCV2021]端到端的文本图像分块矫正方法
欢迎加入中国图象图形学学会!(附入会攻略)
扫描二维码,关注我们: