一、研究背景
图1 几何图例的示例
二、任务描述
几何图例解析任务包括三个子任务:(1)提取几何基元和非几何基元,并进行细粒度分类。(2)构建基元之间的多元关系;(3)生成几何命题,形成图例的几何语言描述。这三个子任务互相关联,共同组成了几何图例解析任务。
本工作将几何图例解析视为一种特殊的场景图生成任务。图2形象对比刻画了这两种任务。任务区别可以总结为两方面:(1)场景图生成任务通过目标检测,从自然场景图像中获取目标的粗粒度矩形框位置。而几何基元是细长状的且交叉重叠,需通过实例分割得到几何基元的细粒度Mask。(2)场景图通过主-谓-宾三元组刻画,需要对谓语进行分类。而几何图例的基元之间具有几何依赖关系,可以通过基元的细粒度类别来进行判断,而不需要额外的分类步骤。
三、数据集简介
本文构建的几何图例解析数据集PGDP5K,收集了来自三本6-12年级教科书中的几何图例,总共包括5,000张样本,划分为3.5K张训练集,0.5K张验证集以及1K张测试集。这些样本具有基元级别的细粒度标注,标注内容涵盖几何基元、非几何基元和基元关系。其中,几何基元的标注包括:基元类别、解析位置;非几何基元的标注包括:边界框位置、符号类别、文本细粒度类别、文本内容;基元关系标注方式如图3所示,这也是模型的构图方式。基元之间的关系用二元组(如图2)来表示,以点、符号、文本作为主语,其他相关的基元作为谓语。根据以上的标注方式,可以自动生成一一对应的几何命题,组合成完整的几何描述语言。关于数据集更加详细的介绍,请阅读数据集介绍论文和数据集网页。
四、方法原理简述
PGDPNet模型由支干模块(BM)、非几何基元检测模块(NDM)、几何基元实例分割模块(GSM)、视觉位置嵌入模块(VLEM)和基元关系解析模块(GM)5个模块构成,如图4所示:
BM是一种典型的FPN架构。其P3-P7层用于非几何基元(文本和符号)的提取。嵌入位置特征图的P2层作为GSM和VLEM共享特征图。视觉特征与空间信息的融合有利于模型下游任务的学习。NDM采用了FCOS的检测头,包括回归、中心度和分类三个分支。
由于几何基元形状细长且互相交叉重叠,本文构造的GSM在像素语义层面,对多类别基元实例进行聚类。语义分割分支分别对点、线、圆进行二值语义分割。分割嵌入分支采用判别损失来区分不同实例。这里直线和圆的实例是联合学习的,目的是为了更好区分实例特征。而对于点实例,对二值分割结果进行连通域分析即可,因为点在空间上就是实例分离的。
原始的几何图例关系图是一个具有异构节点和多边关联的复杂超图,本文将其化简成一个简单稀疏的同构图。对于初始基元节点特征的生成, 本文融合了基元的视觉、解析位置及语义特征。其中,几何基元的视觉特征通过Mask Average,非几何基元的视觉特征使用RoIAlign方法,解析位置特征借助基元的解析几何表示,语义特征根据基元类别而学习的向量嵌入。对于图的边特征初始化,这里仅考虑箭头的指向关系,而其他关系的特征在GM学习过程中得到。GM包含两个学习任务:任务一是对边进行二分类,确定是否存在关系;任务二是对文本基元进行细粒度分类。
在训练阶段,模型的总损失函数为NDM、 GSM和GM损失的加权和。在推理阶段,GSM的语义分割分支得到的几何基元的Mask,分割嵌入分支采用MeanShift对Mask中的像素特征进行聚类,得到直线和圆的实例。提取到的几何和非几何基元通过VLEM生成GM的初始特征,然后GM通过边和节点的分类得到基元之间的关系。最后,结合几何先验知识和几何描述语言语法,生成一系列几何命题。
五、主要实验结果
实验中对不同子任务性能进行评价。表1列举了三种对比方法:Inter-GPS,PGDPNet Without GNN 和 PGDPNet。可以看到,提出的PGDPNet是一个设计精巧的组合框架,实现了所有子任务高效且统一的学习。
表2给出了PGDP5K数据集中几何基元的提取性能,其中直线实例只评估共线最长的直线。与传统方法(如Freeman链码和GEOS[1])相比,本文的方法取得了显著的进步,特别是在点和线的实例提取。
针对GM节点特征初始化方式的消融实验结果如表3所示。由于几何基元之间关系在所有关系中占主导,导致结果差异不明显。但是,通过关系解析完全正确率可以进一步印证,融入视觉、语义以及解析位置信息,可以提取到更具表征能力的特征,进而提升基元关系的解析性能。
本文在几何描述语言生成上进行更深入的评估。表4展示了几何基元之间,几何与非几何基元之间所属关系的几何命题的实验结果,其中”&/&/&”分别代表三种对比方法的性能。在没有GNN的情况下,本文的方法在几何基元之间性能上明显优于InterGPS,而加入GNN模块进一步提高了几何与非几何基元之间的推理能力。
为了展示本文方法在解决几何问题方面的潜力,本文使用当前最优的几何问题解题系统InterGPS,用本文的方法替换它的几何图例解析器,同时保持其他模块不变。表5报告了使用不同文本和图例解析内容的系统解题性能。当使用InterGPS的文本解析器和PGDPNet图例解析器时,Inter-GPS的准确率达到了74.1%,接近采用Ground Truth的结果,比采用InterGPS本身图表解析器得到的性能高16.6%。
表4 几何描述语言生成的性能表现
尽管PGDPNet解析器很强大,但仍存在一些解析失败的案例。如图5(a),文本“8”被误认为是圆的半径长度,而通过问题描述知道,“8”是角的指代。如图5(b),文本“124°”错误指代为∠PQS的角度,而文本题目指出∠PQR的角度才是“124°”。因此,几何图解析不应仅依赖图像,也要充分利用文本题目语义,甚至涉及几何逻辑推理。
六、总结和讨论
相关资源
1、论文资源
https://arxiv.org/pdf/2205.09363.pdf
https://arxiv.org/ftp/arxiv/papers/2205/2205.09947.pdf
2、代码地址
https://github.com/mingliangzhang2018/PGDP
3、数据集地址
参考文献
[1] Pan Lu, Ran Gong, Shibiao Jiang, Liang Qiu, Siyuan Huang, Xiaodan Liang, and Song-Chun Zhu. Inter-GPS: Interpretable geometry problem solving with formal language and symbolic reasoning. In ACL-IJCNLP, 2021.
[2] MinJoon Seo, Hannaneh Hajishirzi, Ali Farhadi, and Oren Etzioni. Diagram understanding in geometry questions. In AAAI, 2014.
[3] Minjoon Seo, Hannaneh Hajishirzi, Ali Farhadi, Oren Etzioni, and Clint Malcolm. Solving geometry problems: Combining text and diagram interpretation. In EMNLP, 2015.
原文作者:Ming-Liang Zhang, Fei Yin, Yi-Han Hao and Cheng-Lin Liu
撰稿:张明亮
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾