其他
01文章介绍文档版面分析任务是文档智能的一个关键任务。然而,现有的很多文档版面分析研究方法都基于通用目标检测方法,忽视了文档的文本特征而仅仅只关注于视觉特征。近年来,基于预训练的文档智能模型在很多文档下游任务中都取得了成功,然而在具体的文档版面分析任务上同样也只是简单将预训练的参数迁移到纯视觉的目标检测器中进行fintune。基于此,本文设计了可插拔的多模态融合方法M2Doc,可以赋予纯视觉的目标检测器感受多模态的能力。M2Doc包含两个融合模块,Early-Fusion和Late-Fusion模块。其中Early-Fusion模块使用一个类似Gate的机制去融合主干网络提取出的视觉和文本的模态特征,Late-Fusion模块使用简单的加和操作去融合框级别的文本和视觉特征。得益于M2Doc简洁且有效的模型结构,它可以很容易地应用到多种目标检测器上。我们的实验结果也显示使用M2Doc的目标检测器可以在DocLayNet和M6Doc版面分析数据集上得到显著的提升,值得一提的是DINO目标检测器搭配M2Doc可以在多个数据集上取得SOTA的结果。02出发点版面分析任务与目标检测任务最大的不同在于它们面向的场景不同,版面分析任务的检测目标大多都是文本区域,也即天然就具有视觉和文本两个属性,故而使用多模态的建模方法去解决这个问题应该更符合任务的特点。版面分析任务的多数实例都具有语义的连接关系,例如存在上下文联系的两个实例大概率属于同一个类别,故而将语义信息考虑到文档版面分析任务中应该是更符合直觉的建模方式。现有的文档版面分析方法大多都是基于通用目标检测器改进的,它们在相对简单的物理版面分析数据集上能取得不错的成绩,但是在更复杂的逻辑版面分析场景中表现不佳。现有的多模态版面分析方法比较少,且也存在效果不好参数量过大等问题。基于上述三点,本文为单模态的检测器设计了通用可插拔的多模态融合方法M2Doc,从而赋予它们在复杂逻辑版面分析场景中能感知文本内容和语义的能力。03M2Doc框架M2Doc的总体框架如图3(a)所示。整个网络包含四个阶段:文本表征阶段、特征提取阶段、Early-Fusion阶段和Late-Fusion阶段。其中两个融合模块都是可插拔的,可以轻松应用到其他的单模态目标检测器中。(1)文本Grid表征阶段:给定一张文档的图片,文档图片中包含多个单词,我们处理的场景都提供OCR结果和对应的检测框。为了能够得到每个单词对应的特征表示,我们将各个单词按阅读顺序排布之后送入到预训练语言模型BERT得到对应每个单词的Embedding。然后我们利用OCR检测框,将每个单词的Embedding填回到其OCR框中。最终我们就得到了和原图像高宽一致,只是通道维度不同的文本Grid输入。这样的表征方式使得我们能够最大限度地保留了文本模态的版面格式,同时又使得两种模态的输入能够在像素级别上对齐,方便后面的特征融合。(2)特征提取阶段:因为在前面我们提到两种模态的输入其实在像素级别上是对齐的,于是我们仅使用单个主干网络去提取文本和视觉特征。我们使用ResNet网络作为我们的主干网络,经过主干网络之后我们得到了四个不同尺度的文本和视觉特征。(3)Early-Fusion阶段:在传统的单模态网络中,主干网络提取出的特征需要被用来生成候选框,以及作为候选框的视觉特征表达,所以我们需要在得到候选框之前就将两个模态的特征进行有效的融合。我们参照了指代分割领域的LAVT的做法,使用一个类似于Gate的机制来融合两个模态对应尺度的特征。在融合之后,考虑到在第一个阶段中没有文本的地方表征为0,于是我们使用LayerNorm去归一化融合后的特征。(4)Late-Fusion阶段:我们把第一次融合后的特征送入到候选框生成模块之后,得到了一系列的候选框。于是我们可以用一个简单的IoU的操作为每个候选框分配合适的文本特征。并且将每个候选框对应的视觉和文本特征进行二次融合。我们发现其实一个简单的带权重的加法融合的策略就已经能够比较好的将两个特征进行融合。04实验a)