查看原文
其他

大型纸质词典如何进行数字化:目前最大的意大利语词典GDLI的数字化之路

艺术史的图书馆 艺术史图书馆 2022-09-15

艺术史图书馆按:

Academia della Crusca 今天办公的地方

Academia della Crusca,是意大利专门研究语言的学院。该学院2017年与UTET出版社签订了合作协议,将史上最大的意大利语词典Salvatore Battaglia 主编的Grande Dizionario della Lingua Italiana 进行电子化,提供给学者使用。就是上个月,这项数字化工作已经上线了。

这套意大利语大词典的数字化有什么意义呢?这部大词典是20世纪伟大的工程,今后可能将会有很多数据库,容量将更大,但在很多使用上无法超越这部词典了。而之前学者的很多工作,也将随着这部词典的数字化,得到重新检验。举个简单的例子,有一个对达芬奇的手稿进行术语研究的项目,出版了一系列的GLOSSARIO LEONARDIANO研究,比如最近出版的GLOSSARIO LEONARDIANO Nomenclatura dell'anatomia nei disegni della Collezione Reale di Windsor,但这些术语研究的结果放入到这部大词典时,将会重新得到检验。

达芬奇的术语研究系列,最新出版的一册是关于温莎的手稿



艺术史的语言词典系列:

一、艺术史的词典系列之一:古典语言词典推荐(上)  艺术史的语言词典系列之一:古典语言词典推荐(下 )

二、大型纸质词典如何进行数字化:目前最大的意大利语词典GDLI的数字化之路

三、意大利语词典推荐



意大利语中最为庞大的词典是Grande dizionario della lingua italiana总共编了40年,共21卷,2004年增补一卷,2009年增补一卷,人名索引一卷。简称为GDLI,但常被称为Battaglia。

21卷本的意大利语大词典,以下是出版信息:

Battaglia S., Grande dizionario della lingua italiana

Luogo: Torino

Editore: Utet

Anno: 1961-2002

diretto da G. Bàrberi-Squarotti.

Con Supplemento 2004, diretto da E. Sanguineti, Torino, UTET, 2004, e Indice degli autori citati nei volumi I-XXI e nel Supplemento 2004, a cura di G. Ronco, Torino, UTET, 2004; e Supplemento 2009, diretto da E. Sanguineti, Torino, UTET, 2008.

Volumi: 21 voll.

这中间的LEI 是在编的意大利语词源词典,按照现在的编辑计划,将来是有可能超过Grande的,但这部毕竟是词源词典,里面收录了大量的方言


2016年从意大利回国时,一度很想买这套词典回国,其实价钱并不贵,四五百欧,但实在是太重,不方便运输回国。但对于研究来说,这词典有点像定海神针一样,对于瓦萨里的某些词实在没把握,我就会去工具书区查这个词典。因为词典较大、较厚,需要支架,有几次,跟一个妹子一起蹲在那查词典,简直无比安静美好。


其实曾有几次想尝试扫一下,大概扫了一百页就放弃了,这玩意实在太重了。但是这么多重要词典中,唯有这部最重要的没有数字版,回国之后,查到国图有,找了半天,最后也没找到。


就在上个月,这部词典终于电子化了,而且免费提供使用。http://www.gdli.it(点击原文。

这是GDLI电子版的检索首页


这篇推文分三个部分:一、意大利的这部大型词典数字化的方法;二、进一步优化的可能;三、查词的方法。

GDLI的数字化方法

现在全世界数字人文发展很快,这种词典类的更是朝向数字化发展。相对来说,英语这种,市场巨大,基本是全世界都在用,因此可以投入更多,一般来说数字化后做成的无论是在线检索或是APP都是跟纸质词典差不多的价格,而专业化的词典更是比纸质词典还要昂贵,比如上次提到的Brill翻译的希意词典,在线版要几千欧一年,相比之下,原版希意词典才几十欧的手机APP。


意大利语的大百科全书,尤其艺术类,都是由专家撰写,而且免费提供使用。GDLI则也免费提供使用。


意大利很多数字人文项目,都在第一个阶段就开始阻滞不前,就是扫描纸版阶段。比如GDLI这个,居然全搞完好了,就缺2009年的增补本。以前看到Roberto Longhi早期的术语研究的数据库,其扫描的文本居然不齐全。



上面是这个大词典的数据化过程,大致上就是高质量扫描后,对页面进行OCR,分为文字层和图像层,文字层进行词头和页码校正,然后再用相关的数据库建成可供查询的网页。


这里面最大的问题就是事实上低层文本并没有经过校对,自动OCR有多少精度,其检索的结果就有多少精度。这个就个人数据库来说还可以接受,居然这么重要的词典数据库也搞成这样,这还是有点夸张。

进一步优化的可能

要进一步优化,有以下几点:

1.   校对现在的文本,从而保证这个底本完全无误。但是这个校对工作确实工作量相当之大,总共有两万多页,按每人校对五十页,需要四百个学生。放中国还能搞搞,放意大利人身上,大概四十个学生的工作量已经意味着彻底完不成了。


2.   目前的图像质量太差。扫描其实得到的是高质量图像,包括OCR所使用的,但是现在网上能看到的图像太差,直接影响了使用。其实利用现有的图像,进行图像的黑白处理,并用Acrobat的clearscan,就能得到非常好的效果,而且图像层依旧是图像层。

经过处理后的图像


未经处理的图像


3.   这个词典最大的问题是词条,既然是一个大项目,既然是一个词典,竟然没有单独把词典的词条都提取出来。词典的词头提取,高手编个程序可以从每个页面自动进行(理论上感觉是可行的),能力不行的,那可以利用现有的大型词典的词条,再逐一进行页面对应和增补新词条,这词典总共两万多页,感觉一个人做做,也就是个把月的时间,对于如此重要的一个项目来说,是真正值得的。

有了词条之后,检索就可以直接检索某个词,出现到某个该词条的页面,这是查纸质词典的最基本的方法,现在这个电子版其实只是做了扫描和自动OCR,两者都可以用不到人(扫描只要通过切边放那种自动扫的就行),开着机器干事,就能出去喝咖啡了,大概这是目前最适合大意呆干活的方式。不过,其中的希腊语部分是单独输入的,这点是值得表扬的。

查词的方法

受限于上述的工作的不彻底性,这个查词就比较讲究。

官方的查词共有六种:自由检索、顺序检索、词形目录、按频次词形目录、按引用作者、按缩写。


而这六种,实际有用的就是前两种。词形目录其实只是将Abbyy的OCR结果中的词形进行排序,实在是无语。后面按引用作者,只是根据印刷版的工作OCR了一下,这项工作其实就是将6000多个引用作者作为一个库,编个程序,走一遍文本,直接就可以打完标签。多的不说,但这项工作还是有意义的。


至于前两种,自由检索和顺序检索,其实只是搜组合词时的区别,顺序就是严格按照两个或多个单词出现的顺序,比如搜già spiegato,自由检索时只要出现两者之一就检得,而顺序检索是必须两者同时出现,且顺序一致时才检得。


自由检索già spiegato

顺序检索già spiegato,只有3条记录


平常使用,一般就检索单个词,自由检索就可以了。


如果要检索词条,还是要熟悉每一卷的词头范围,这样你搜abbacinato,就会先往卷一找,当然,这种检索结果较少的,直接找检得数最多的页面就可以了,一般都是词条所在页。这个检索结果,其实应该加上一个按检得数量排列,那样对于检索结果较多的单词也能较快定位到页面。


在相应的页面,点击Vedi PDF的话,就会出现文字版的PDF页面,且会高亮检索词。

如果点击Vedi jpg,那就会出现该页的图像。


而这两者其实并没有对应起来的,图片归图片,文字归文字。


其实我的用法是通过建立自己的个人数据库,来与其他的艺术术语等库进行配合使用。


其中使用到的方法大致来自于以下几篇文章:


  数字人文时代的个人数据库之六:数据库的索引与检索工具FoxTrot Pro.

  数字人文时代的个人数据库之三:pdf优化工具和OCR工具的选择

   数字人文时代的个人数据库之二:获取艺术史电子资源的方法




以下是艺术史的数字人文时代的个人数据库系列:


           零:数字人文时代的个人数据库之导论:目录学下的数据库阅读

           一:如何用目录学追踪艺术史的最新进展:书籍编目的工具Zotero

           二:数字人文时代的个人数据库之二:获取艺术史电子资源的方法

               三:数字人文时代的个人数据库之三:pdf优化工具和OCR工具的选择

               四:艺术史的漫游者:散漫式的阅读和笔记工具—E-ink 阅读器

               五:艺术史的写作:图像的尤利西斯之旅

           六:数字人文时代的个人数据库之六:数据库的索引与检索工具FoxTrot Pro

           七:艺术的判断力之源:随身携带的个人数据库Foxtrot attaché

           八:艺术史研究中原始材料和术语的整理:Marginnote在艺术史研究中的两个实例

           九:Evernote作为艺术史阅读和观看的判断力工具

           十:数字人文时代的个人数据库之十:数据的同步与备份

         

  艺术史研究中的图像使用系列:

 艺术史家的图像和档案管理软件--Tropy

 亿万像素的艺术史研究图片库:Haltadefinizione


  本公众号的结构和更新计划: “艺术史图书馆”的结构


 相关推送:

             潘诺夫斯基1967年在UCLA的《圣经题材和使徒故事的问题》讲座 

              朱青生:我的博士论文选题由随机的方式确定 

             用“艺术”打开艺术:Roberto Longhi艺术史研究的方法及用“语言”写作中国艺术史 上

             艺术史家的讲座:潘诺夫斯基1967年在UCLA的《提香和奥维德》的讲座

             Gertrud Bing:瓦尔堡的私人图书馆、记忆女神和和语言风格研究的核心人物

              北大《艺术史方法论》课程的书目和版本(上)

              北大《艺术史方法论》课程的书目和版本(中)

              米开朗基罗的纸张使用——手稿的擦除、重写与复原

     


 扫码关注艺术史图书馆



10、100、4000、2万、30万,这是一系列图书数量的数据,10本著作大约可以比较有把握地掌握一个研究主题,100本可以差不多地勾勒出一个研究方向的框架,4000本可以满足一个学者的研究需求和一个私人图书馆的藏书开端,2万本则达到了私人藏书较为完美的状态,30万是一个专门学科的藏书的公共图书馆的量。这个公众号旨在建成一个私人的艺术史图书馆,藏书量在三万左右,主要收集艺术文献(5000)、艺术史学史(15000)以及瓦萨里《大艺术家传》中对各艺术家的注解所需要的基本研究著作(10000)。





您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存