论文推荐|[IEEE TIFS2020]编码Pathlet与SIFT特征的古籍笔迹鉴别（ICDAR19古籍笔迹识别竞赛冠军方法）

Original 赖松轩 CSIG文档图像分析与识别专委会 2022-07-11

本文简要介绍于今年4月份被IEEE TIFS 录用发表的论文”Encoding Pathlet and SIFT Features With Bagged VLAD for Historical Writer Identification”。该论文针对古籍文档笔迹识别这一任务，提出了如图1所示的一个有效解决方案。在当前主流的（现代）笔迹识别方法中，基于深度学习的方法可以达到十分高的准确率。然而，对于古籍文档笔迹识别而言，目前难以获取一个大规模、标注可靠的数据集，这使得基于深度学习的方法难以发挥其长处。而基于特征工程的现有方法表征笔迹的能力较弱，在该任务中准确率较低。因此，该论文提出了一个新型的Pathlet特征，并结合单向SIFT特征（Unidirectional SIFT, uSIFT），以刻画笔迹图像中关键部位的形状与结构信息，并提出bagged VLAD（bVLAD）方法以编码Pathlet和uSIFT特征，获取笔迹的表征向量。笔迹的相似性即为bVLAD表征向量之间的余弦相似度，进而可以进行笔迹的识别或检索。基于该方法，本文作者参加了ICDAR 19年古籍文档笔迹识别竞赛并获得了冠军。

图1 论文提出的古籍文档笔迹识别方法

该方法框图见图1，首先采用U-Net网络进行古籍文档图像的深度二值化，以去除背景、噪声干扰，得到可靠的笔迹图像。其次，提取Pathlet特征与uSIFT特征，以分别刻画关键部位的形状与结构信息。最后，采用bVLAD编码方法对Pathlet与uSIFT特征进行高效编码，得到笔迹的表征向量，并基于最近邻方法进行笔迹识别与检索。

一、任务简介

古籍文档笔迹识别在古籍文档数字化中有着一定的应用，能够辅助人文学者进行历史与人文研究。例如，以色列特拉维夫大学的学者[1]通过笔迹识别技术进行书页拼接，已完成约1000篇Cairo Genizah文章的拼接，而过去整个世纪，数百人类专家只完成了几千篇文章拼接（注：由于年代久远等各种因素，原Cairo Genizah书籍散落成页，需要首先进行拼接，才能进行后续的解读）。由于古籍文档往往存在破损或退化、版面多变、字体风格多变等情形，古籍文档笔迹识别具有较大的难度。ICDAR 17和19连续两年举办了古籍文档笔迹识别竞赛[2,3]，参赛队伍使用了多种主流方法；比赛结果显示，当前的主流方法并不能取得理想的准确率。而该论文提出的方法，在ICDAR 17和19两年的比赛数据集上，均大幅度地提升了识别准确率。

二、方法原理简述

首先，针对古籍文档背景复杂、噪声严重等情形，该论文采用了U-Net网络进行深度二值化，以获取可靠的二值化笔迹图像。网络结构和训练方法详见https://github.com/masyagin1998/robin，训练数据主要来源于ICDAR历年二值化竞赛DIBCO提供的数据，以及挑选典型背景作为负样本。相比于传统的OTSU二值化等方法，基于U-Net的深度二值化能够有效去除背景和噪声，并召回更多文字，从而一定程度提升笔迹识别性能。

基于二值化的笔迹图像，该论文提出了一个新型的Pathlet特征，用以刻画文字的轮廓形状。从文字轮廓中提取笔迹风格特征，在笔迹识别中是一个十分常见且切实有效的方法。但是以往的基于轮廓的方法，其特征较为简单，未能有效刻画复杂的笔迹风格。而Pathlet特征基于路径积分理论[4],能够由粗到细、多层级地表达轮廓形状的几何信息。为了计算该特征，首先如图2所示，利用多项式化操作去除冗余轮廓点，然后通过滑窗方法获取去冗余后的轮廓片段（称为Pathlet），接着计算该片段的路径积分，并进行特征的长度归一化[5]。相比于其他基于轮廓的特征，Pathlet特征能够表达更为丰富的信息。

图2 从轮廓中获取Pathlet片段，(a)采用了多项式化操作去除轮廓冗余，(b)则采用了稀疏等距采样操作，论文中最终采用了(a)方法。

除了Pathlet特征，论文中还使用了uSIFT特征，用以刻画笔迹关键点的结构信息。值得注意的是。相比于原始的SIFT特征，uSIFT对于局部关键点的方向敏感，因此能够有效区分一些结构，例如向上和向下的拐角，从而更适用于笔迹识别任务。实验表明，Pathlet特征与uSIFT特征能够有效互补，提升识别精度。

为了将一张图像中数量众多的Pathlet特征与uSIFT特征聚合为一个全局表征向量，该论文进一步提出了bVLAD编码方法。bVLAD通过从码本中随机采样多个小码袋（有放回采样）进行VLAD编码，并采用SVD方法进行去相关和降维。相比于经典的VLAD编码方法，bVLAD在小幅提升计算量的情况下，大幅度提升了大码本情形下的编码性能。其原因在于，在码本较大时，数据点相对较为稀疏，而bVLAD能更有效利用这些数据点。

三、主要实验结果

该论文使用了ICDAR 17和19年古籍文档笔迹识别竞赛的数据集，即ICDAR2017 Historical-WI数据集[2]和ICDAR2019 HDRC-IR数据集[3]，分别记为DB1和DB2。评价指标有Top-1、Top-10准确率以及检索精度mAP。

论文首先探究了Pathlet参数，包括长度、特征阶数等，对其性能的影响。此阶段使用VLAD编码作为基准。确定合适参数后，对比Pathlet特征与主流轮廓特征，如表1所示，证明Pathlet特征更具表达能力。其中，下标PS、LPS表示的是路径积分的两种表现形式。

表1 Pathlet特征与主流轮廓特征在DB1上的结果对比

其次，论文探究了不同二值化方法对于Pathlet特征（采用表1中第7行的方法）的影响，结果如表2所示。可以看到，Pathlet特征对于不同二值化方法，都有较好结果，但是相对来说基于U-Net的深度二值化效果最好，因为它召回了更多的文字，并且降低了背景及噪声对Pathlet提取过程的影响。

表2 不同二值化方法对于Pathlet特征性能的影响（mAP）

接着，论文验证了bVLAD编码方法的有效性，如表3所示，其中C为码本大小，B为码袋大小，K为码袋数量，而B/C=1.0,K=1兼容了经典的VLAD编码方法。可以看到，在码本大小C=1000时，无论是Pathlet特征还是USIFT特征，BVLAD均大幅提升了mAP（超过5个百分点）。论文还通过实验指出，在B/C固定的情况下，K越大，准确率越高，但是为了在准确率和计算量之间取得折中，论文推荐使用B/C×K≈2的设置.

表3 bVLAD方法在DB1上的结果（mAP）

通过结合Pathlet特征和uSIFT特征，该论文的方法在DB1（ICDAR2017 Historical-WI数据集）与DB2（ICDAR2019 HDRC-IR数据集）上均取得了当前领先的结果，特别是在DB2上，本文提出的方法大幅优于前人的方法，如表4所示。

除了古籍文档，论文中还将Pathlet+bVLAD方法直接应用于现代笔迹识别数据集，在没有任何参数调优或码本重训练的情况下，亦取得了当前领先的结果，证明了该方法对于笔迹刻画的通用有效性。

表4 论文提出方法与主流方法在DB1与DB2上的结果对比

四、总结

该论文提出了一种新的笔迹特征Pathlet，并通过精心的特征设计，提出了结合Pathlet特征、uSIFT特征以及bVLAD编码的解决方案，在古籍文档笔迹识别这一任务上达到了领先的水平，对于笔迹分析和文档分析领域有着一定的借鉴意义。该方法不需要有人工标注的训练数据，因此具备很高的适用性及实际应用价值。

五、论文链接

https://ieeexplore.ieee.org/abstract/document/9083956/

参考文献

[1] Wolf L, Littman R, Mayer N, et al. Identifying join candidates in the Cairo Genizah[J]. International Journal of Computer Vision,2011, 94(1): 118-135.

[2] Fiel S, Kleber F, Diem M, et al. ICDAR2017 competition on historical document writer identification(historical-wi)[C]//2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR). IEEE, 2017, 1: 1377-1382.

[3] Christlein V, Nicolaou A, Seuret M, et al. ICDAR2019 competition on image retrieval for historical handwritten documents[C]//201915th IAPR International Conference on Document Analysis and Recognition (ICDAR).IEEE, 2019, 1: 1505-1509.

[4] Chevyrev I, Kormilitzin A. A primer on the signature method in machine learning[J]. arXiv preprint arXiv:1603.03788, 2016.

[5] Lai S, Jin L. Recurrent adaptation networks for online signature verification[J]. IEEE Transactions on Information Forensics and Security, 2019, 14(6): 1624-1637.

原文作者: Songxuan Lai, Yecheng Zhu, Lianwen Jin

撰稿：赖松轩

编排：高学

审校：连宙辉

发布：金连文

免责声明：（1）本文仅代表撰稿者观点，撰稿者不一定是原文作者，其个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。（2）本文观点不代表本公众号立场。

▼

往期精彩内容回顾

▼

欢迎加入中国图象图形学学会!（附入会攻略）

征稿启事：本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果，欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。

(扫描识别如上二维码加关注）

万年县委书记毛奇案，又有新消息！

不生娃不买房，李健自曝消失3年真相：永远不要和人性较劲

三联，刺痛了多少中国人

六大火药桶：世界种种动荡背后的历史逻辑

官媒消息！94.6元充100元话费，电费96.9充100元！招团长~

论文推荐|[IEEE TIFS2020]编码Pathlet与SIFT特征的古籍笔迹鉴别（ICDAR19古籍笔迹识别竞赛冠军方法）

欢迎加入中国图象图形学学会!（附入会攻略）

您可能也对以下帖子感兴趣

万年县委书记毛奇案，又有新消息！

不生娃不买房，李健自曝消失3年真相：永远不要和人性较劲

三联，刺痛了多少中国人

六大火药桶：世界种种动荡背后的历史逻辑

官媒消息！94.6元充100元话费，电费96.9充100元！招团长~

生成图片，分享到微信朋友圈

论文推荐|[IEEE TIFS2020]编码Pathlet与SIFT特征的古籍笔迹鉴别（ICDAR19古籍笔迹识别竞赛冠军方法）

欢迎加入中国图象图形学学会!（附入会攻略）

您可能也对以下帖子感兴趣