本文简要介绍发表于TIP2022录用论文“Mixed-Supervised Scene Text Detection With Expectation-Maximization Algorithm”的主要工作。针对检测模型对强标注数据的依赖问题,该论文首先提出了一系列弱标注形式来大幅度缩减数据标注成本,其次提出了一种基于EM算法的混合监督学习策略来利用这些弱标注数据提升检测器性能。此外,为了便于在混合监督学习框架中合理利用这些弱标注,该论文还提出了一种基于轮廓回归的两阶段任意形状场景文本检测器。在多个公开数据集上的实验结果显示,该论文提出的混合监督模型可以达到接近全监督模型的性能。
近几年来,一大批基于深度学习的场景文本检测算法涌现出来,这些算法虽然取得了优异的检测效果,但是它们在训练过程中无不依赖于大量的强标注数据(多边形标注),需要耗费巨大的标注成本。为了缩减数据标注成本,一个自然的想法就是使用弱标注。作者从标注者的角度出发提出了一系列的弱标注形式,包括紧致的矩形框、宽松的矩形框、粗糙的矩形框以及图像级别标签。针对利用弱标注数据提升检测器性能的问题,之前的学者一般采用弱监督学习或半监督学习方法,这些方法虽然取得了一定的进步,但其效果与全监督模型还有较大的差距,不适用于真实场景(如自动驾驶领域)。该论文提出使用混合监督学习方法,即只有少量图片采用强标注,其余图片采用弱标注。作者首先提出了一种基于轮廓回归的两阶段文本检测器来更好地利用这些弱标签,其次作者将弱标签图片的多边形标签看作隐变量,使用了一个类似于EM算法的学习策略来解决这个混合监督学习问题。具体地,该算法主要包括两步:(1)E步:估计弱标签图片中文本实例的多边形轮廓;(2)M步:使用E步估计的多边形标签监督模型训练进而更新模型参数。由于整个迭代优化问题是高度非凸的,所以模型的质量很大程度上取决于初始化,因此,作者使用少量的强标注数据进行预训练来初始化模型。在六个场景文本数据集上的实验结果显示仅使用10%强标注图片以及90%弱标注图片,该论文提出的混合监督模型达到了接近全监督模型的性能。图1 五种监督形式及其平均标注耗时
文章提出的四种弱监督形式如图1所示。紧致的矩形框为紧紧包围文本实例的边界框,因此标注者需要文本轮廓的四个端点,导致标注效率较低。为了加快标注速度,作者提出了宽松的矩形框,即矩形框不需要紧贴文本。随后,作者基于对场景文本分布的观察,提出使用粗糙矩形框粗略地定位文本簇(多个文本实例)的位置。但是当数据规模非常大时,任何框级别的标注成本都非常大,图像级别标签则成为最优的选择,即标注图像中是否含有文字。如图1所示,随着注释复杂性的降低,使用不同标注策略标记的时间成本逐渐降低。2.2. 基于轮廓回归的任意场景文本检测器
图2 基于轮廓回归的任意形状场景文本检测器框架图
受论文[1]的启发,作者提出了一种基于轮廓回归的文本检测器(如图2所示)。对于一张输入图片,该检测器首先使用特征提取网络提取原始特征,在此基础上文本定位网络(TLN)被用来生成文本实例建议框。然后,作者使用一个轮廓初始化网络(CIN)为每个文本实例生成初始轮廓。最后,初始轮廓和原始特征被送入轮廓变形网络(CDN)来进行渐进轮廓回归,直到得到最为准确的文本边缘轮廓。由于该检测框架里的建议机制与文章提出的弱监督形式(粗糙、宽松和紧边矩形框)十分接近,因此该检测方法可以充分利用弱标签来提高检测性能。文本定位网络:作者使用CenterNet来生成文本建议框,检测器头主要包括两个分支:(1)分类分支预测一张文本中心点分割热图,其中的峰值即为文本实例中心;(2)回归分支预测每个峰值对应的建议框的高度和宽度。轮廓初始化网络:该网络用于回归文本建议框四个边的中心点到对应极点的偏移量。作者在每个极点向两个方向延伸一条线,其长度为对应建议框边长的1/4,并连接它们的端点得到一个八边形初始轮廓。相对于矩形建议框,八边形可以更紧致地包围文本,更适于拟合文本轮廓。轮廓变形网络:该网络用于回归初始轮廓点到其对应真值点的偏移量。具体地,作者在初始轮廓上采样了128个点(足以拟合场景中各种形状的文本)。在回归模型中,作者引入了圆卷积结构来处理输入的轮廓顶点,并基于学习到的特征得到每个顶点需要调整的偏移量。2.3. 基于EM算法的学习策略
作者借鉴隐变量学习的方法,将场景图片中的文字多边形框看作隐变量,采用迭代优化的方式求解。文中使用x表示图像,y表示图边形轮廓,w表示图像的弱标注。对于弱标注图形,我们可以观测到图像的每个像素值以及弱标注,图像中所有文本的多边形轮廓都是隐含变量,因此可以获得了如下的概率模型:
为了利用弱标注数据来学习模型的参数,论文可以采用类似EM算法的学习方法:E-step:此步的作用是估计所有数据的对数似然函数。已知上一轮估计出的参数,可以获得如下的对数似然函数的表达式:
其中隐变量的估计值可由下式得到:
M-step:此步的作用是最大化,而最大化的关键是最大化,因此将用作伪标签,使用批量梯度下降算法(SGD)来迭代优化。将检测器融入到学习算法中就可以得到完整的弱监督学习流程(如图3所示)。首先使用少量强标注数据对检测器进行初始化,初始化模型可以为第一轮E-step提供模型参数,还可以为第一轮M-step提供伪标签。之后,模型在E-step和M-step间迭代优化。图3 基于EM算法的混合监督学习策略
在迭代优化过程中,弱标注主要用于指导伪标签的生成。不同的伪标签可以提供不同的指导信息,因此文章也使用了不同的伪标签生成策略。对于紧致、宽松矩形框,作者直接使用矩形框弱标注替代文本定位网络的文本建议框输入给轮廓初始化网络。对于粗糙矩形框,作者使用粗糙框(在框外的一定为负样本)和预测置信度对预测结果做过滤。对于图像级别标签,作者则使用预测置信度对结果做过滤。
作者在六个公开数据集(CTW1500[2]、Total-Text[3]、ICDAR-ArT[4]、ICDAR2015[5]、MSRA-TD500[6]、C-SVT[7])上进行了实验,对于每个数据集随机选取10%的数据为强标注图片,剩余的图片为弱标注图片。基于上述数据划分可以得到如下模型:(1)100%Poly:使用100%强标注数据训练的模型。(2)10%Poly:使用10%强标注数据训练的模型。(3)10%Poly&90%XXX:使用10%强标注数据以及90%弱标注数据训练出的模型。3.2. 与State-of-the-art方法对比
实验结果显示,全监督模型在多个数据集上都取得了优异性能。此外,混合监督模型相较于Baseline模型(10%Poly)均有明显提升,且在紧致矩形框或宽松矩形框弱标注条件下,混合监督模型取得了接近全监督模型的性能。
3.3. 可视化结果
文章方法在弯曲文本行以及四边形文本行上的检测效果分别如图4和图5所示。
图4 弯曲文本行检测效果图
图5 四边形文本行检测效果图
该论文提出了一种基于EM的混合监督场景文本检测框架,以利用各种形式的弱标注和多边形级别的强标注。该框架由基于轮廓的任意形状文本检测器和基于EM的学习策略组成。大量实验的实验结果验证了该框架的有效性:只使用10%的强标注数据,其混合监督模型可以达到接近全监督模型的性能。[1]S. Peng, W. Jiang, H. Pi, X. Li, H. Bao, and X. Zhou, “Deep snake for real-time instance segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2020.[2]Y. Liu, L. Jin, S. Zhang, and S. Zhang, “Detecting curve text in the wild: New dataset and new solution,” in arXiv preprint arXiv:1712.02170, 2017.[3]C. S. C. Chee Kheng Chng, “Total-text: A comprehensive dataset for scene text detection and recognition,” in Proceedings of the International Conference on Document Analysis and Recognition, 2018.[4]C. K. Chng, Y. Liu, Y. Sun, C. C. Ng, C. Luo, Z. Ni, C. Fang, S. Zhang, J. Han, E. Ding et al., “Icdar2019 robust reading challenge on arbitrary shaped text-RRC-art,” in Proceedings of the International Conference on Document Analysis and Recognition, 2019.[5]C. Yao, X. Bai, W. Liu, Y. Ma, and Z. Tu, “Detecting texts of arbitrary orientations in natural images,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2012.[6]Y. Sun, J. Liu, W. Liu, J. Han, E. Ding, and J. Liu, “Chinese street view text: Large-scale chinese text reading with partially supervised learning,” in Proceedings of the IEEE International Conference on Computer Vision, 2019.[7]D. Karatzas, L. Gomez-Bigorda, A. Nicolaou, S. Ghosh, A. Bagdanov, M. Iwamura, J. Matas, L. Neumann, V. R. Chandrasekhar et al., “ICDAR 2015 competition on robust reading,” in Proceedings of the International Conference on Document Analysis and Recognition, 2015.
原文作者:Mengbiao Zhao, Wei Feng, Fei Yin, Xu-Yao Zhang, Cheng-Lin Liu
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: eelwjin@scut.edu.cn)。