论文推荐|[IEEE TIFS2020]编码Pathlet与SIFT特征的古籍笔迹鉴别(ICDAR19古籍笔迹识别竞赛冠军方法)
本文简要介绍于今年4月份被IEEE TIFS 录用发表的论文”Encoding Pathlet and SIFT Features With Bagged VLAD for Historical Writer Identification”。该论文针对古籍文档笔迹识别这一任务,提出了如图1所示的一个有效解决方案。在当前主流的(现代)笔迹识别方法中,基于深度学习的方法可以达到十分高的准确率。然而,对于古籍文档笔迹识别而言,目前难以获取一个大规模、标注可靠的数据集,这使得基于深度学习的方法难以发挥其长处。而基于特征工程的现有方法表征笔迹的能力较弱,在该任务中准确率较低。因此,该论文提出了一个新型的Pathlet特征,并结合单向SIFT特征(Unidirectional SIFT, uSIFT),以刻画笔迹图像中关键部位的形状与结构信息,并提出bagged VLAD(bVLAD)方法以编码Pathlet和uSIFT特征,获取笔迹的表征向量。笔迹的相似性即为bVLAD表征向量之间的余弦相似度,进而可以进行笔迹的识别或检索。基于该方法,本文作者参加了ICDAR 19年古籍文档笔迹识别竞赛并获得了冠军。
该方法框图见图1,首先采用U-Net网络进行古籍文档图像的深度二值化,以去除背景、噪声干扰,得到可靠的笔迹图像。其次,提取Pathlet特征与uSIFT特征,以分别刻画关键部位的形状与结构信息。最后,采用bVLAD编码方法对Pathlet与uSIFT特征进行高效编码,得到笔迹的表征向量,并基于最近邻方法进行笔迹识别与检索。
古籍文档笔迹识别在古籍文档数字化中有着一定的应用,能够辅助人文学者进行历史与人文研究。例如,以色列特拉维夫大学的学者[1]通过笔迹识别技术进行书页拼接,已完成约1000篇Cairo Genizah文章的拼接,而过去整个世纪,数百人类专家只完成了几千篇文章拼接(注:由于年代久远等各种因素,原Cairo Genizah书籍散落成页,需要首先进行拼接,才能进行后续的解读)。由于古籍文档往往存在破损或退化、版面多变、字体风格多变等情形,古籍文档笔迹识别具有较大的难度。ICDAR 17和19连续两年举办了古籍文档笔迹识别竞赛[2,3],参赛队伍使用了多种主流方法;比赛结果显示,当前的主流方法并不能取得理想的准确率。而该论文提出的方法,在ICDAR 17和19两年的比赛数据集上,均大幅度地提升了识别准确率。
首先,针对古籍文档背景复杂、噪声严重等情形,该论文采用了U-Net网络进行深度二值化,以获取可靠的二值化笔迹图像。网络结构和训练方法详见https://github.com/masyagin1998/robin,训练数据主要来源于ICDAR历年二值化竞赛DIBCO提供的数据,以及挑选典型背景作为负样本。相比于传统的OTSU二值化等方法,基于U-Net的深度二值化能够有效去除背景和噪声,并召回更多文字,从而一定程度提升笔迹识别性能。
基于二值化的笔迹图像,该论文提出了一个新型的Pathlet特征,用以刻画文字的轮廓形状。从文字轮廓中提取笔迹风格特征,在笔迹识别中是一个十分常见且切实有效的方法。但是以往的基于轮廓的方法,其特征较为简单,未能有效刻画复杂的笔迹风格。而Pathlet特征基于路径积分理论[4],能够由粗到细、多层级地表达轮廓形状的几何信息。为了计算该特征,首先如图2所示,利用多项式化操作去除冗余轮廓点,然后通过滑窗方法获取去冗余后的轮廓片段(称为Pathlet),接着计算该片段的路径积分,并进行特征的长度归一化[5]。相比于其他基于轮廓的特征,Pathlet特征能够表达更为丰富的信息。
除了Pathlet特征,论文中还使用了uSIFT特征,用以刻画笔迹关键点的结构信息。值得注意的是。相比于原始的SIFT特征,uSIFT对于局部关键点的方向敏感,因此能够有效区分一些结构,例如向上和向下的拐角,从而更适用于笔迹识别任务。实验表明,Pathlet特征与uSIFT特征能够有效互补,提升识别精度。
为了将一张图像中数量众多的Pathlet特征与uSIFT特征聚合为一个全局表征向量,该论文进一步提出了bVLAD编码方法。bVLAD通过从码本中随机采样多个小码袋(有放回采样)进行VLAD编码,并采用SVD方法进行去相关和降维。相比于经典的VLAD编码方法,bVLAD在小幅提升计算量的情况下,大幅度提升了大码本情形下的编码性能。其原因在于,在码本较大时,数据点相对较为稀疏,而bVLAD能更有效利用这些数据点。
该论文使用了ICDAR 17和19年古籍文档笔迹识别竞赛的数据集,即ICDAR2017 Historical-WI数据集[2]和ICDAR2019 HDRC-IR数据集[3],分别记为DB1和DB2。评价指标有Top-1、Top-10准确率以及检索精度mAP。
论文首先探究了Pathlet参数,包括长度、特征阶数等,对其性能的影响。此阶段使用VLAD编码作为基准。确定合适参数后,对比Pathlet特征与主流轮廓特征,如表1所示,证明Pathlet特征更具表达能力。其中,下标PS、LPS表示的是路径积分的两种表现形式。
其次,论文探究了不同二值化方法对于Pathlet特征(采用表1中第7行的方法)的影响,结果如表2所示。可以看到,Pathlet特征对于不同二值化方法,都有较好结果,但是相对来说基于U-Net的深度二值化效果最好,因为它召回了更多的文字,并且降低了背景及噪声对Pathlet提取过程的影响。
接着,论文验证了bVLAD编码方法的有效性,如表3所示,其中C为码本大小,B为码袋大小,K为码袋数量,而B/C=1.0,K=1兼容了经典的VLAD编码方法。可以看到,在码本大小C=1000时,无论是Pathlet特征还是USIFT特征,BVLAD均大幅提升了mAP(超过5个百分点)。论文还通过实验指出,在B/C固定的情况下,K越大,准确率越高,但是为了在准确率和计算量之间取得折中,论文推荐使用B/C×K≈2的设置.
通过结合Pathlet特征和uSIFT特征,该论文的方法在DB1(ICDAR2017 Historical-WI数据集)与DB2(ICDAR2019 HDRC-IR数据集)上均取得了当前领先的结果,特别是在DB2上,本文提出的方法大幅优于前人的方法,如表4所示。
除了古籍文档,论文中还将Pathlet+bVLAD方法直接应用于现代笔迹识别数据集,在没有任何参数调优或码本重训练的情况下,亦取得了当前领先的结果,证明了该方法对于笔迹刻画的通用有效性。
该论文提出了一种新的笔迹特征Pathlet,并通过精心的特征设计,提出了结合Pathlet特征、uSIFT特征以及bVLAD编码的解决方案,在古籍文档笔迹识别这一任务上达到了领先的水平,对于笔迹分析和文档分析领域有着一定的借鉴意义。该方法不需要有人工标注的训练数据,因此具备很高的适用性及实际应用价值。
https://ieeexplore.ieee.org/abstract/document/9083956/
[1] Wolf L, Littman R, Mayer N, et al. Identifying join candidates in the Cairo Genizah[J]. International Journal of Computer Vision,2011, 94(1): 118-135.
[2] Fiel S, Kleber F, Diem M, et al. ICDAR2017 competition on historical document writer identification(historical-wi)[C]//2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR). IEEE, 2017, 1: 1377-1382.
[3] Christlein V, Nicolaou A, Seuret M, et al. ICDAR2019 competition on image retrieval for historical handwritten documents[C]//201915th IAPR International Conference on Document Analysis and Recognition (ICDAR).IEEE, 2019, 1: 1505-1509.
[4] Chevyrev I, Kormilitzin A. A primer on the signature method in machine learning[J]. arXiv preprint arXiv:1603.03788, 2016.
[5] Lai S, Jin L. Recurrent adaptation networks for online signature verification[J]. IEEE Transactions on Information Forensics and Security, 2019, 14(6): 1624-1637.
原文作者: Songxuan Lai, Yecheng Zhu, Lianwen Jin
编排:高 学
审校:连宙辉
发布:金连文
论文推荐|[IEEE CVPR 2020] SEED:用于场景文本识别的语义增强编解码器框架 论文推荐| [CVPR 2020 Oral] ABCNet:基于自适应贝塞尔曲线的实时端到端自然场景文字检测及识别网络(附代码) 论文推荐|[AAAI 2020]文本感知器:面向端到端任意形状的文本识别 论文推荐|[AAAI 2020]FET-GAN:通过K-shot自适应实例规范化进行字体和效果转移(有源码) 论文推荐|[AAAI 2020] TextScanner:依序阅读分类的鲁棒场景文本识别 论文回顾|[ICDAR 2019]DeepSignDB:大规模联机签名数据集 论文推荐|[CVPR 2020]UnrealText:基于虚拟场景的真实场景文本图像合成 论文推荐|[CVPR 2020]增广学习:面向文本行识别的网络优化协同数据增广方法 论文推荐|[IEEE TPAMI 2020] TE141K:用于文字风格转换的大规模艺术文字数据库 论文推荐|[CVPR2020] SwapText: Image Based Texts Transfer in Scenes
欢迎加入中国图象图形学学会!(附入会攻略)
(扫描识别如上二维码加关注)