大型纸质词典如何进行数字化：目前最大的意大利语词典GDLI的数字化之路

Original 艺术史的图书馆艺术史图书馆 2022-09-15

收录于合集

艺术史图书馆按：

Academia della Crusca 今天办公的地方

Academia della Crusca，是意大利专门研究语言的学院。该学院2017年与UTET出版社签订了合作协议，将史上最大的意大利语词典Salvatore Battaglia 主编的Grande Dizionario della Lingua Italiana 进行电子化，提供给学者使用。就是上个月，这项数字化工作已经上线了。

这套意大利语大词典的数字化有什么意义呢？这部大词典是20世纪伟大的工程，今后可能将会有很多数据库，容量将更大，但在很多使用上无法超越这部词典了。而之前学者的很多工作，也将随着这部词典的数字化，得到重新检验。举个简单的例子，有一个对达芬奇的手稿进行术语研究的项目，出版了一系列的GLOSSARIO LEONARDIANO研究，比如最近出版的GLOSSARIO LEONARDIANO Nomenclatura dell'anatomia nei disegni della Collezione Reale di Windsor，但这些术语研究的结果放入到这部大词典时，将会重新得到检验。

达芬奇的术语研究系列，最新出版的一册是关于温莎的手稿

艺术史的语言词典系列：

一、艺术史的词典系列之一：古典语言词典推荐（上）艺术史的语言词典系列之一：古典语言词典推荐（下）

二、大型纸质词典如何进行数字化：目前最大的意大利语词典GDLI的数字化之路

三、意大利语词典推荐

意大利语中最为庞大的词典是Grande dizionario della lingua italiana，总共编了40年，共21卷，2004年增补一卷，2009年增补一卷，人名索引一卷。简称为GDLI，但常被称为Battaglia。

21卷本的意大利语大词典，以下是出版信息：

Battaglia S., Grande dizionario della lingua italiana

Luogo: Torino

Editore: Utet

Anno: 1961-2002

diretto da G. Bàrberi-Squarotti.

Con Supplemento 2004, diretto da E. Sanguineti, Torino, UTET, 2004, e Indice degli autori citati nei volumi I-XXI e nel Supplemento 2004, a cura di G. Ronco, Torino, UTET, 2004; e Supplemento 2009, diretto da E. Sanguineti, Torino, UTET, 2008.

Volumi: 21 voll.

这中间的LEI 是在编的意大利语词源词典，按照现在的编辑计划，将来是有可能超过Grande的，但这部毕竟是词源词典，里面收录了大量的方言

2016年从意大利回国时，一度很想买这套词典回国，其实价钱并不贵，四五百欧，但实在是太重，不方便运输回国。但对于研究来说，这词典有点像定海神针一样，对于瓦萨里的某些词实在没把握，我就会去工具书区查这个词典。因为词典较大、较厚，需要支架，有几次，跟一个妹子一起蹲在那查词典，简直无比安静美好。

其实曾有几次想尝试扫一下，大概扫了一百页就放弃了，这玩意实在太重了。但是这么多重要词典中，唯有这部最重要的没有数字版，回国之后，查到国图有，找了半天，最后也没找到。

就在上个月，这部词典终于电子化了，而且免费提供使用。http://www.gdli.it（点击原文。

这是GDLI电子版的检索首页

这篇推文分三个部分：一、意大利的这部大型词典数字化的方法；二、进一步优化的可能；三、查词的方法。

GDLI的数字化方法

现在全世界数字人文发展很快，这种词典类的更是朝向数字化发展。相对来说，英语这种，市场巨大，基本是全世界都在用，因此可以投入更多，一般来说数字化后做成的无论是在线检索或是APP都是跟纸质词典差不多的价格，而专业化的词典更是比纸质词典还要昂贵，比如上次提到的Brill翻译的希意词典，在线版要几千欧一年，相比之下，原版希意词典才几十欧的手机APP。

意大利语的大百科全书，尤其艺术类，都是由专家撰写，而且免费提供使用。GDLI则也免费提供使用。

意大利很多数字人文项目，都在第一个阶段就开始阻滞不前，就是扫描纸版阶段。比如GDLI这个，居然全搞完好了，就缺2009年的增补本。以前看到Roberto Longhi早期的术语研究的数据库，其扫描的文本居然不齐全。

上面是这个大词典的数据化过程，大致上就是高质量扫描后，对页面进行OCR，分为文字层和图像层，文字层进行词头和页码校正，然后再用相关的数据库建成可供查询的网页。

这里面最大的问题就是事实上低层文本并没有经过校对，自动OCR有多少精度，其检索的结果就有多少精度。这个就个人数据库来说还可以接受，居然这么重要的词典数据库也搞成这样，这还是有点夸张。

进一步优化的可能

要进一步优化，有以下几点：

1. 校对现在的文本，从而保证这个底本完全无误。但是这个校对工作确实工作量相当之大，总共有两万多页，按每人校对五十页，需要四百个学生。放中国还能搞搞，放意大利人身上，大概四十个学生的工作量已经意味着彻底完不成了。

2. 目前的图像质量太差。扫描其实得到的是高质量图像，包括OCR所使用的，但是现在网上能看到的图像太差，直接影响了使用。其实利用现有的图像，进行图像的黑白处理，并用Acrobat的clearscan，就能得到非常好的效果，而且图像层依旧是图像层。

经过处理后的图像

未经处理的图像

3. 这个词典最大的问题是词条，既然是一个大项目，既然是一个词典，竟然没有单独把词典的词条都提取出来。词典的词头提取，高手编个程序可以从每个页面自动进行（理论上感觉是可行的），能力不行的，那可以利用现有的大型词典的词条，再逐一进行页面对应和增补新词条，这词典总共两万多页，感觉一个人做做，也就是个把月的时间，对于如此重要的一个项目来说，是真正值得的。

有了词条之后，检索就可以直接检索某个词，出现到某个该词条的页面，这是查纸质词典的最基本的方法，现在这个电子版其实只是做了扫描和自动OCR，两者都可以用不到人（扫描只要通过切边放那种自动扫的就行），开着机器干事，就能出去喝咖啡了，大概这是目前最适合大意呆干活的方式。不过，其中的希腊语部分是单独输入的，这点是值得表扬的。

查词的方法

受限于上述的工作的不彻底性，这个查词就比较讲究。

官方的查词共有六种：自由检索、顺序检索、词形目录、按频次词形目录、按引用作者、按缩写。

而这六种，实际有用的就是前两种。词形目录其实只是将Abbyy的OCR结果中的词形进行排序，实在是无语。后面按引用作者，只是根据印刷版的工作OCR了一下，这项工作其实就是将6000多个引用作者作为一个库，编个程序，走一遍文本，直接就可以打完标签。多的不说，但这项工作还是有意义的。

至于前两种，自由检索和顺序检索，其实只是搜组合词时的区别，顺序就是严格按照两个或多个单词出现的顺序，比如搜già spiegato，自由检索时只要出现两者之一就检得，而顺序检索是必须两者同时出现，且顺序一致时才检得。

自由检索già spiegato

顺序检索già spiegato，只有3条记录

平常使用，一般就检索单个词，自由检索就可以了。

如果要检索词条，还是要熟悉每一卷的词头范围，这样你搜abbacinato，就会先往卷一找，当然，这种检索结果较少的，直接找检得数最多的页面就可以了，一般都是词条所在页。这个检索结果，其实应该加上一个按检得数量排列，那样对于检索结果较多的单词也能较快定位到页面。

在相应的页面，点击Vedi PDF的话，就会出现文字版的PDF页面，且会高亮检索词。

如果点击Vedi jpg，那就会出现该页的图像。

而这两者其实并没有对应起来的，图片归图片，文字归文字。