查看原文
其他

古籍文档图像二值化:基于背景估计和能量最小化的方法

CV君 我爱计算机视觉 2022-07-20

今日分享一篇论文『An enhanced binarization framework for degraded historical document images』,基于背景估计和能量最小化的古籍文档图像二值化。

详细信息如下:


  • 作者:Wei Xiong, Lei Zhou, Ling Yue, Lirong Li, Song Wang

  • 单位:湖北工业大学电气与电子工程学院;美国南卡罗来纳大学计算机科学与工程系

  • 论文:https://jivp-eurasipjournals.springeropen.com/articles/10.1186/s13640-021-00556-4

  • 项目:https://github.com/beargolden/H-DIBCO-2018


摘要
该工作提出了一种基于背景估计和能量分割的古籍文档图像二值化框架,其核心方法在ICFHR 2018举办的手写文档图像二值化竞赛(H-DIBCO 2018)中位列第一,同时在东南亚棕榈叶手稿文档图像分析任务(挑战A)中取得第二名的成绩。

      01      

简介

历史古籍是珍贵的文化遗产,具有重要的科学和文化价值。古籍文档数字化是解决文献保护和文化传承的重要途径。然而,手工处理这些海量文献,不仅费时费力,而且容易出错,因此需要借助计算机对古籍图像进行自动化处理。古籍文档分析与识别(H-DAR)系统应运而生,它主要包括图像预处理、文档图像二值化、版面分析、文本检测与识别等环节。

针对现代图书的扫描文档识别技术已经很成熟,但历史古籍的文本识别效果还不理想,而且后者的难度远大于前者,原因在于历史古籍中的文字展现形式极其丰富:(1)允许多语种文本混排,字符具有不同的大小、字体、颜色、亮度、对比度等;(2)文本行可能有横向、竖向、弯曲、旋转、扭曲等样式;(3)图像中的文字区域还可能存在墨迹浸润、印鉴遮蔽、文本残缺或模糊等现象;(4)古籍文档图像的背景变化多样,如纸张老化、发黄或页面存在污渍,文字区域附近有复杂的背景纹理或非文字区域有近似文字的纹理等。因此,古籍文档图像分析与识别是一项非常具有挑战性的任务。

      02      

方法



古籍文档图像一般都会有严重的退化现象,如页面污渍、墨迹浸润、文字笔画褪色和图书印章等,这不利于从图像中正确提取文本像素。文档背景估计与补偿技术可以有效消除这些退化因素的影响。其次,受图像信息熵的启发,采用基于最小熵的笔画宽度变换(SWT)能够自动检测出文档图像的类型,例如亮背景上的暗文本或暗背景上的亮文本。

另外,图割是一个马尔可夫随机场(MRF)模型,它使用最大流/最小割算法来解决离散能量最小化问题,已经被广泛用于图像分析任务,例如图像修复和重建、边缘检测、纹理分割、光流和立体视觉。因此,作者采用了古籍文档图像二值化的黄金三步法标准,即预处理、基于能量的分割以及后处理。


      03      

实验结果

3.1数据集

该研究使用了2009-2018年期间的9个国际文档图像二值化竞赛数据集,如DIBCO 2009、2011、2013、2017以及H-DIBCO 2010、2012、2014、2016、2018,涵盖31张印刷体和85张手写文档图像及其对应的GT图像。数据集中的历史文献图像来源于READ (Recognition and Enrichment of Archival Documents)项目,其中包含了从15-19世纪的各种收藏。

3.2评价指标

作者采用了国际文档图像二值化竞赛中使用的评价指标,即FM (F值)、pFM (伪F值)、PSNR (峰值信噪比)、NRM (负率度量)、DRD (距离倒数失真度量)和MPM (错误分类惩罚度量)。前两个指标,即FM和pFM介于0和1,数值越高越好。PSNR用于衡量二值化图像与GT图像的接近程度,其值也是越高越好。然而后三个指标,即NRM、DRD和MPM的数值越低,说明算法的二值化性能越好。

3.3与DIBCO/H-DIBCO年度竞赛中的前三名进行性能比较

作者提出的方法是基于拉普拉斯能量的分割方法,可谓是深度学习时代的一股清流(采用非深度学习的方法)。主要由两部分组成,即数据部分和正则化部分,前者用于衡量包含图像特征的分割区域内图像数据的一致性,后者则通过保持图像的空间信息来平滑分割区域的边界。在使用一组种子(如文字笔画边缘和文档背景)对图像进行分割时,图割算法被认为是构造图的能量最小化过程,而且不需要训练。

然而,基于深度学习的网络模型遵循层次结构。图像块被送入网络模型,然后由不同层提取特征。浅层提取细粒度的低级视觉特征,即输入的次要细节,如边缘和斑点,而深层则提取粗粒度的高级语义特征,这些特征更加抽象,并建立在低级特征之上,用于检测或识别物体。

虽然作者所提方法的FM、pFM、PSNR和DRD指标比DIBCO 2017竞赛中的前三名方法略差或相当,但它仍然能够说明该方法可以更好地分割文本像素和保留文本笔画。


3.4与SOTA方法进行客观评价(第一、二、三名的结果分别用红、绿、蓝粗体表示)


可以看出,作者提出的方法优于其他所有采用非深度学习的方法,甚至可以与几种最先进的基于深度学习的方法相媲美。这也意味着,该方法对各种类型和不同程度的文档退化因素都具有鲁棒性,并且能够更好地保留文本笔画。


3.5与SOTA方法进行主观评价

(1)DIBCO 2017中的P15图像以及由SOTA方法输出的二值化图像


(2)H-DIBCO 2018中的H06图像以及由SOTA方法输出的二值化图像


3.6与SOTA方法进行时间复杂度比较

由于笔画宽度变换和基于能量的分割是该算法中最耗时的两个阶段,因此,作者从理论上分析了这两个阶段的计算复杂度,分别为,其中,分别表示图中的像素(节点)数和边数,表示笔画横截面的长度,表示最小割的代价。

为了让读者更清楚地了解每种方法的执行效率,作者还采用每百万像素的平均运行时间(秒/MP)来评估每种二值化算法的时间复杂性。实验平台为Dell Alienware 17 R5笔记本电脑,系统硬件配置为英特尔®酷睿™ i7-8750H CPU @ 2.20GHz,16GB内存和NVIDIA GeForce GTX 1080,8GB GDDR5X显存。

从图中可以看出,基于简单统计特征的二值化方法,如Otsu、Niblack、Sauvola和Wolf方法的计算量相对较小,处理速度较快,但二值化性能不佳。作者提出方法的处理速度与其他大多数基于对比度/边缘或基于能量的分割算法相当,并且明显快于 Bhowmik 基于博弈论启发的二值化算法。



更多细节分析请见原文,代码已经开源,敬请关注加星,谢谢大家。

备注:ocr

OCR交流群

文本检测、识别、编辑等更多最新技术,若已为CV君其他账号好友请直接私信。

在看,让更多人看到  

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存