查看原文
其他

数字人文时代的个人数据库之三:pdf优化工具和OCR工具的选择

艺术史的图书馆 艺术史图书馆 2021-02-10

艺术史图书馆注:这一次推送主要是承接上一期的,对于PDF的各个方面的处理,尤其是进行OCR,由于这些方面都具有很强的经验性,就按照我自己平时处理时的经验来点一下,我相信如果你按照前面的方法去建立这样的数据库的话,一定会在这些启发下去举一反三的。网上有很多这方面的教程,但感觉推广产品的太多,而且很多跟我自己的经验不一致。


以下是艺术史的数字人文时代的个人数据库系列:


           数字人文时代的个人数据库之导论:目录学下的数据库阅读

           如何用目录学追踪艺术史的最新进展:书籍编目的工具Zotero

           数字人文时代的个人数据库之二:获取艺术史电子资源的方法

               数字人文时代的个人数据库之三:pdf优化工具和OCR工具的选择

               艺术史的漫游者:散漫式的阅读、笔记工具--E-ink 阅读器(明日更新)

           数字人文时代的个人数据库之六:数据库的索引与检索工具FoxTrot Pro

           艺术史家的图像和档案管理软件--Tropy



本公众号的结构和更新计划: “艺术史图书馆”的结构


上一推送讲的是获取艺术史方面的文献的一些路径和方法,这一次主要讲如何处理这些PDF,以供进一步的使用。上一次漏讲了一个方面:就是利用爬虫技术爬网页。好吧,这玩意其实我也不懂,我一般都用现成的软件,下图是用Sitesucker下载arthistorians,然后做成自己的数据库。这个毕竟不是什么光彩的事,大家举一反三吧,迅雷下载指定页面所有pdf挺好用的。


这是正在下载arthistorians网站的所有文件,下完找到html文件就可以放到foxtrot中检索了,当然最好是批量把html文件全部转成pdf文件,就可以做笔记了,但美国人写的条目质量很一般,也就是一般性参考


郑重提醒:所有的文件,在处理之前,请务必备份原文件,尤其是自行扫描文件。OCR容易出现后期错乱。

                   所有文件都是PDF

进入正题,PDF处理,请确保所有的文件都是PDF格式,因为之前推送中有的文件是mobi、epub等格式。

1.   电纸书,大法家只支持PDF,Max 2支持各种格式,但是从后面的数据库检索角度来看(即),请将所有格式转换为PDF,软件就是Calibre,补充下面两组参数,可以使转换的PDF接近原书的页码,且有较合适的页边距。

边距的上下左右都调成50pt

下面的两个字体大小一个调17pt,一个16pt,上面选A4大小

2.   网页阅读,目前网页上的长文章很多,英文没什么问题,直接用safari的阅读模式,然后打印(Command + P),存成pdf就可以。中文用这种方法存成的pdf上面的文字是无法检索的,底层是乱码。但可以用手机上的instaweb 这个软件。

            自行扫描的PDF文件处理

如果所需文献没有电子版,又很重要,就需要自行扫描,自行扫描的话,最好确保300 dpi,直接扫描双面。如果家中添置扫描仪,可以尝试那种300 dpi 彩色的扫描速度和你将一本书盖到扫描仪上再拿起的速度相当,这样扫描的质量和速度都有保证。但是在国内,最好的其实是交给打印店,节省时间,一般扫描费用不高。


这种扫描的PDF,最主要的是要中间分开成两页。我长期用的是Briss-0.9https://sourceforge.net/projects/briss/。打印店里似乎用Adobe acrobat搞的,我一直没研究出来。

                  OCR 工具的选择

OCR其实是最麻烦的一个环节,同时又是最重要的。


我用的软件主要有三个:Adobe Acrobat pro XI 、Adobe Acrobat pro DC和ABBYY。Adobe有两个,主要是经验上来说XI效果还好些,但有时候识别错误率偏高,DC 对扫描质量较高的文件友好,但时不时抽风,ABBYY号称很厉害,识别上还不错,就是导出会导致文件质量变差且文件较大。心累。


中文OCR,中文比较简单,因为我基本不检索中文的东西,OCR只是为了高亮,做笔记等。一般用Adobe XI的Exact这种模式就可以,尤其是Boox Max 2 可以对页面进行锐化、加黑之后,就没必要预先处理了。但如果想获得好的效果,用clearscan,对于一些偏淡字体的文件,需要用PS或Comic Enhancer Pro这样的软件将预先导出的图像文件进行黑白化处理。


这是最常用的一种模式

外文OCR:一般用XI的clearscan,这样可以大幅减小文件的大小,并且有较好的阅读体验。但XI会崩溃,就用DC,如果是法语或者多语言,会用ABBYY,法语主要是阅读水平有限,需要用deepl进行翻译(CopyTranslator拷贝文字可去除PDF格式,很实用,推荐,但其内置的google翻译准度不高,deepl稳超google),多语言如果需要各语言都正确识别,似乎只有ABBYY可选。


有时下载下来的PDF会有密码保护,或者无法OCR,可以用Recover PDF Password进行破解。


另外,https://www.ilovepdf.com/desktop这个网站上的似乎也可以用。


  相关推送:  

           用“艺术”打开艺术:Roberto Longhi艺术史研究的方法及用“语言”写作中国艺术史 上

         Leonardo 2019系列:最好的《达・芬奇传》和最畅销的《达・芬奇传》

            艺术史家的讲座:潘诺夫斯基1967年在UCLA的《提香和奥维德》的讲座


             Gertrud Bing:瓦尔堡的私人图书馆、记忆女神和和语言风格研究的核心人物

              北大《艺术史方法论》课程的书目和版本(上)

              米开朗基罗的纸张使用——手稿的擦除、重写与复原

     


 扫码关注艺术史图书馆



10、100、4000、2万、30万,这是一系列图书数量的数据,10本著作大约可以比较有把握地掌握一个研究主题,100本可以差不多地勾勒出一个研究方向的框架,4000本可以满足一个学者的研究需求和一个私人图书馆的藏书开端,2万本则达到了私人藏书较为完美的状态,30万是一个专门学科的藏书的公共图书馆的量。这个公众号旨在建成一个私人的艺术史图书馆,藏书量在三万左右,主要收集艺术文献(5000)、艺术史学史(15000)以及瓦萨里《大艺术家传》中对各艺术家的注解所需要的基本研究著作(10000)。




    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存