查看原文
其他

论文推荐|[ICCV 2019] 基于几何感知和域自适应网络的文本检测与识别

林庆祥 CSIG文档图像分析与识别专委会 2022-07-11


本文简要介绍ICCV2019录用的一篇文章GA-DAN:Geometry-Aware Domain Adaptation Network for Scene Text Detection and Recognition。该文章使用生成对抗网络的思想来做Domain Adaptation,解决了源域(Source Domain)和目标域(Target Domain)由于数据分布差异大造成训练效果差的问题。


一、研究背景

近年来,随着深度神经网络的发展,很多领域都取得了突破性的进展。但是,要训练一个鲁棒的深度神经网络需要大量的标注数据,这就需要耗费大量的人力物力成本。而现有的基于监督学习方法训练得到的深度神经网络模型泛化能力有限,当新的测试数据与训练数据存在差异时,可能会导致训练好的模型在新的测试数据上效果较差,而要想取得一个较好的效果就需要再额外标注一批与测试数据分布相似的数据。数据集可迁移性较低导致标注成本大大提高。为了解决这个问题,作者提出了一种基于生成对抗网络的Domain Adaptation的方法用来缩小Source Domain和Target Domain的差异。

基于生成对抗网络的Domain Adaptation方法已经有比较多的研究,但是现有的方法主要解决的问题是数据在外观上(Appearance)的差异,往往忽略数据在几何形状(Geometry)上的差异。作者认为数据在几何形状上的差异和外观上的差异都会造成模型效果下降,从而提出Geometry-Aware Domain Adaptation Network (GA-DAN),该模型同时对外观(Appearance)和几何形状(Geometry)进行迁移。作者将GA-DAN应用到自然场景文本检测识别任务上,取得了很好的迁移效果。


二、方法描述 

Fig.1. Overall architecture.
 

Fig. 1是GA-DAN的整体网络结构图。总体网络结构是基于CycleGAN[1]的改进,图片从Source Domain到Target Domain主要是经过两个模块,第一个模块是对几何形状进行迁移(对应Fig. 1中的蓝色虚线框内的模块),第二个模块是对图片外观进行迁移(对应Fig.1 中的绿色虚线框内的模块),这个模块由两个网络组成和。经过几何变换后,图片边缘会存在空缺,主要是用来对边缘空缺像素做一个填充,是对填充后的图片进行外观上的迁移。通过这两个模块的迁移,可以生成几何形状和外观都和Target Domain比较相似的图片。从Target Domain到Source Domain的循环过程同样也包括上面所述的两个模块。判别器主要由两个部分组成,其中一个主要用来判别外观上是否真实(对应Fig.1中的和),另一个主要用来判别几何变换是否真实(对应Fig. 1中的)。

为了输入一张图片能有多张不同形状的图片输出,作者设计了一个Multi-modal Spatial Learning的模块(Fig. 1中的蓝色虚线框内的模块)。做法就是在预测几何变换过程中加入一个Spatial Code,这个Spatial Code是一个随机向量,不同的Spatial Code可以生成不同的几何变换。所以当网络训练完成后可以通过多次前向操作生成多张不同形状的图片,大大扩充数据集。


Fig .2. Illustration of the disentangled cycle-consistency loss.

本文的总体框架是基于CycleGAN的,与CycleGAN不同的其中一个点是作者同时考虑了数据在几何形状和外观上的差异,还有一个不同点是Cycle-consistency Loss设计不同。在CycleGAN中Cycle-consistency Loss的提出主要是为了解决Source Domain和Target Domain中数据没有一一配对而提出的一个损失函数,通过Cycle-consistency约束可以在一定程度上约束Source Domain到Target Domain的变换是能够保留主要信息的。本文的方法对几何变换进行了显性的建模,也就是说Source Domain的图片到Target Domain的图片一般是会存在几何变换的,Cycle的过程就是将生成的图片再迁移回Source Domain,这个过程同样也会有几何形状和外观上的迁移,但是几何变换如果不加约束的话很难做到将图片的几何形状恢复原样,也就是说生成回来的图片与原图片可能会存在几个像素的偏移,而Cycle-consistency Loss一般是对整张图片做逐像素的L1或者L2 Loss,当生成回来的图片与原图有几个像素的偏移时Loss就会很大,影响网络的训练。

针对这个问题作者设计了一个Disentangled Cycle-consistency Loss,具体细节如Fig. 2所示,是几何变换网络用来获取从X(Source Domain)到Y(Target Domain)的几何变换,表示从X到Y的几何变换矩阵,通过我们可以直接计算逆变换矩阵,通过逆变换矩阵可以直接将变换后的图片恢复原来的形状,那么在Cycle的过程我们就可以用直接替换网络预测的变换,那么这时生成回来的图片就不会与原来的图片有几何形状的差异,同时也可以用来指导的生成。通过分解后得到的Loss有两个部分,如下:


网络训练的损失函数主要包含三个部分,一个是Disentangled Cycle-consistency Loss,一个是GAN的对抗Loss,还有一个Identity Loss用来保留原图的主要信息,分别如下:


三、实验结果

本文在自然场景文本检测和识别这两个任务上验证了GA-DAN的有效性,首先在自然场景文本检测任务上,作者用ICDAR2013数据集作为Source Domain,这个数据集主要包含一些规则的自然场景文本,然后分别以ICDAR2015和MSRA-TD500作为Target Domain进行实验验证,这两个数据集与ICDAR2013数据集有较大的差异。检测网络使用的是EAST[2].


TABLE 1. Scene text detection over the test images of the target datasets ICDAR2015 and MSRA-TD500.


TABLE 1是GA-DAN在检测任务上的实验结果,其中EAST[IC13]表示直接用ICDAR2013训练检测模型,然后分别用ICDAR2015和MSRA-TD500测试得到的结果。EAST[AD-IC13]表示使用GA-DAN以ICDAR2013数据集作为Source Domain,分别以ICDAR2015和MSRA-TD500作为Target Domain进行迁移的结果,一张Source Domain的图片只生成一张Target Domain的图片。

可以看到,相比于直接用ICDAR2013训练,使用GA-DAN生成的图片训练检测模型检测结果有明显的提升,其中在ICDAR2015测试集上F-score有11.1%的提升,在MSRA-TD500测试集上F-score有11.7%的提升。

EAST[10-AD-IC13]表示一张Source Domain的图片生成10张Target Domain的图片。可以看到,相比于只生成一张图片(EAST[AD-IC13]),检测效果有进一步的提升,从而也证明了Multi-Modal Spatial Learning的有效性。TABLE 1中[Target]表示用了Target Domain的图片训练检测模型,可以看到使用GA-DAN生成的图片再加上Target Domain的训练数据训练得到的检测模型甚至超过了一些比EAST[2]更加先进的检测模型,比如(RRD[3]和TextSnake[4])。Fig. 3可视化了GA-DAN和其他Domain Adaptation方法生成图片的差异,可以看到GA-DAN生成的图片还是比较真实的。


Fig.3.  Comparing GA-DAN with state-of-the-art adaptation methods.

TABLE 2. Scene text detection on the IC15 test images(comparison with other domain adaptation methods).


TABLE 2对比了GA-DAN与其他Domain Adaptation方法的差异,其中CycleGAN是在外观上(Appearance)进行迁移的方法,ST-GAN是在几何形状上(Geometry)进行迁移的方法,ST-GAN+CycleGAN是作者将这两个算法拼接起来。可以看到,用GA-DAN生成图片训练得到的检测器在检测结果上显著超过其他方法。就算是将CycleGAN和ST-GAN拼接起来效果也没有GA-DAN好。

作者同时在自然场景文本识别任务上做了验证实验,其中Source Domain的图片选自ICDAR2013,IIIT 5k和SVT这三个规则的数据集(三个数据集合称为COMB),Target Domain选择CUTE80和SVTP这两个不规则数据集,识别网络使用的是MORAN[5]。结果如TABLE 3所示,Baseline是直接用COMB训练,用CUTE80和SVTP测试。

作者首先对比了其他Domain Adaptation方法的效果,可以看到其他Domain Adaptation方法相比Baseline没有明显提升,甚至有些方法还有些下降。GA-DAN[WD]表示直接使用Cycle-consistency Loss,而不是Disentangled Cycle-consistency Loss训练,GA-DAN[WM]表示使用GA-DAN方法,一张Source Domain的图片只输出一张Target Domain图片的结果,通过这两个结果对比可以看到Disentangled Cycle-consistency Loss起到了很大的作用。最终GA-DAN方法显著超过了Baseline和其他Domain Adaptation方法。Fig. 4可视化了GA-DAN和其他Domain Adaptation方法生成的自然场景文本图片。

TABLE 3. Ablation study and comparisons with state-of-the-art adaptation methods.


Fig .4. Comparing GA-DAN with state-of-the-art adaptation methods.

四、总结及讨论
  1. 本文中作者针对Source Domain和Target Domain存在数据偏移的问题提出了一种新的Domain Adaptation方法,该方法同时考虑了数据在几何形状上(Geometry)和外观上(Appearance)的差异,对这两个因素同时进行迁移。该方法在自然场景文本检测和识别任务上取得了很好的迁移效果。

  2. 从文中的实验结果可以看到,当Source Domain与Target Domain数据存在差异时,GA-DAN取得了很不错的效果,但是实验结果仍然和直接用Target Domain数据直接训练得到的结果存在较大差距,同时当存在Target Domain训练数据时,使用GA-DAN生成的样本对实验结果的提升就没有那么明显。

  3. 综上所述,当缺乏业务相关数据时,Domain Adaptation方法能起到很重要的作用,但是现有的Domain Adaptation方法生成的数据和Target Domain仍然存在一定差距,说明了Domain Adaptation方法仍然有很大的提升空间。


参考文献
[1] J.-Y. Zhu, T. Park, P. Isola, and A.A. Efros. Unpaired image-to-image translation using cycle-consistent adversarial networks. In ICCV, 2017
[2] X. Zhou, C. Yao, H. Wen, Y. Wang, S.Zhou, W. He, and J. Liang. East: An efficient and accurate scene text detector.In CVPR, 2017.
[3] M. Liao, Z. Zhu, B. Shi, G. Xia, andX. Bai. Rotation sensitive regression for oriented scene text detection. InCVPR, pages 5909–5918, 2018.
[4] S. Long, J. Ruan, W. Zhang, X. He,W. Wu, and C. Yao. Textsnake: A flexible representation for detecting text of arbitrary shapes. In ECCV, pages 20–36, 2018.
[5] C. Luo, L. Jin, and Z. Sun. Moran: A multi-object rectified attention network for scene text recognition. In Pattern Recognition,volume 90, pages 109–118, 2019.


原文作者:Fangneng Zhan, Chuhui Xue, Shijian Lu

撰稿:林庆祥

编排:高  学

审校:殷  飞

发布:金连文




免责声明:1)本文仅代表撰稿者观点,个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。 


往期精彩内容回顾



征稿启事:本公众号将不定期介绍一些文档图像分析与识别领域为主的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (投稿邮箱:xuegao@scut.edu.cn)。



(扫描识别如上二维码加关注)

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存