查看原文
其他

《汉籍数字图书馆》的实际进展——汉字古籍数字化讨论之四

袁林 汉籍数字图书馆V2 2019-05-15

在将近二十年的时间里,我们致力于汉字古籍数字化,进行了多方位的探索,在上述四个基本子系统领域都进行过建设尝试,并取得了一些阶段性成果。基于这些经验和成果,我们形成了建设一个完整的汉字古籍数字化系统的设想,并计划在《汉籍数字图书馆》的建设中逐步付诸实施。

我们正在建设的《汉籍数字图书馆》计划分为传世文献、甲骨文献、金文文献、石刻文献、敦煌文献、明清档案、书画文献、舆图文献、中医药文献9个数据库,其中传世文献库为主库,其余8个是专题库,各数据库内容独立,每个数据库的建设都按照目录数据库、图版数据库、全文数据库三个层次逐步进行。

传世文献目录数据库已基本完成。我们采取了与最新古籍目录研究成果《中国古籍总目》对照进行的办法,先根据我们已有的数字古籍建立起一个目录数据库,然后与《中国古籍总目》进行比对,二者只要在文献名、卷数、作者、子目等任何一方面存在差别,即按照不同文献来处理,这样形成了三个目录数据分库:二者完全一致的文献、《中国古籍总目》收入而我们尚无原件的文献、我们有原件而《中国古籍总目》尚未收入的文献。截止2016年5月,我们收入的文献共有64,745种,包含在子目中且与其不重复的文献有22,959种,二者合计87,704种,其中有63,440种与《中国古籍总目》一致,24,264种与其不一致。以版本数计算,我们现已入库文献共有102,870个版本。《中国古籍总目》总计收入文献177,107种,我们尚无原件的有113,667种。这三个目录分库合并之后,包括子目所含文献在内,总计为201,371种。

我们的目录之所以与《中国古籍总目》出现较大的差距,主要有如下几个原因。首先,由于二者关于汉字古籍的定义不同,涵盖范围自然有差距。其次,在具体工作中,我们发现二者有许多细小的差异,例如二者文献名相同,但卷数不同,或文献名相同,子目有差别,在这种情况下,我们采取了比较谨慎的处理方法,将二者并列共存,以待在将来的动态改进过程中逐渐修正错误,不致因为我们的武断而损失文献信息,从而使最终结果出现错误的概率降到最低。再次,我们收录汉字古籍以用户需求为基本目标,而用户需要尽可能充分的文献,因此在古籍与非古籍的界定上,我们采取了比较宽松的标准,可收可不收的均予收入,从而使收入文献数有所增加。当然,《中国古籍总目》确实也有遗漏和差错,这是产生差距的又一个原因。

“传世文献数据库”中,目录数据库和图版数据库合为一体。我们采用了文献、版本、印本、文件四级管理体系。在文献和版本层面,具有目录数据库的全部内容,包含了上述三个目录分库,在这里可以通过多种检索方式充分了解汉字古籍的全部目录信息,诸如文献名、作者名、时期、分类、子目、版本等等。而在印本和文件层面,则只涉及我们已经入库数字原件的文献。之所以设计印本层面,是因为同一个版本的文献,可以有多种印本表现形式,主要有两种情况。一是数字原件有着不同的形成过程,或来源于不同的图书馆,或有彩色、灰度和黑白等不同格式。一是来源于不同的现代汇编丛书,例如同一版本文献被上海版《丛书集成续編》、台北版《丛书集成续編》、《续修四库全书》、《四库未收书辑刊》等汇编丛书同时收入,那么从这些丛书中剪切出来的文献原件便成为不同的印本。

我们广泛收入不同印本,主要有两点考虑。一是收藏于不同图书馆的古籍原件,可能完好程度各不相同,翻拍汇编丛书中的文献原件,完好和清晰程度也各不相同,为避免使用中可能遇到的缺失,需要将这些印本都收集起来。二是数字原件在制作、保存过程中,可能会出现各种差错、缺失、损坏,多种印本并存,可以大大降低使用风险。这样做,会形成文献图版重复的表象,但由于计算机存储、网速等技术条件改善极快,一两年时间性能就会翻番,因此这种重复并不会对数据库的使用形成任何障碍,相反,会给使用者提供最为安全的使用环境。

传世文献图版数据库共收入116,671个印本,按文件计算,共307,803个文件,总计7.4T,这些文件与对应的文献、版本、印本相关联,检索获得的任何一个层次的文献信息,都与相应的文件相关联。这些图版文件采用具有国际标准的PDF格式,可以全本下载使用,在众多PDF阅览器中,可以任意浏览,放大缩小。如果使用Acrobat Reader 11.0以上版本的阅览器,还可以添加标记、注释,这些标记和注释是可检索、可集中浏览的,在某种意义上,它比纸本书阅读使用更为方便。为了在下载PDF文件之前就对相关文件有一个初步了解,以节约用户时间,我们专置了“预览”界面,可以预先浏览每个文件的前6页图版,然后再决定是否下载全文。我们收录的古籍图版有相当一部分来源于网络,是一些图书馆或其他机构、个人制作的,有一些文件剪切自现代汇编影印丛书,我们专门请相关法律专家进行过界定和论证,我们的所有使用都严格限定在法律允许的范围之内。在这里,我们要对所有汇编影印丛书的编纂者,数字图版的制作者表示深深的感谢,他们的工作为我们建设一个完整的汉字古籍数字化系统奠定了重要基础,为后人留下了重要的精神财富。

 


为了适应手机普遍使用的现状,我们将“传世文献库”中的图版库又改造为微信版,已于2019年1月推出。这个版本的缺陷是图版清晰度较低。由于我们设备条件极差,只有一台服务器,存储非常紧张,带宽也很有限,因此用于微信版的图片都按统一标准缩小了,如果使用原图片,效果会好很多,但数据量至少会扩大5倍,这是我们的存储和带宽无法承受的。我们准备请各位用户将自己不满意的文献选出来,然后用较清晰图版替换掉这些文件,等我们的存储和带宽改善之后,将全部替换为较清晰图版。

   


现在建成的传世文献数据库只是一个初步的阶段性成果,按种类计,不到全部汉字古籍的40%,但如果按版本计,则不足30%,我们计划以每年增加1-2T或者更多数据的速度,不断完善目录数据库和图版数据库。

传世文献全文数据库的建设已经着手进行,第一步是先将我们以前所做的全文数据库资源导入其中,然后继续扩大代码文本数据,计划在2020年之后逐步公布其成果。

各专题数据库的建设也在逐步进行之中,进展情况如下。

已建成第一个版本的数据库有两个。

敦煌文献数据库:1.0版本已建成上线,已入库文献涉及编号72,513个,不同印本重复计算为97,046条记录,收入图片文件517,022个,数据量约1TB。所有图片既可在线浏览简图,也可下载高清图片察看。为了给研究提供最充分的资料,我们的收录并不仅仅局限于藏经洞文献,而是收入了所有发现于敦煌莫高窟、以文字、图画甚至实物为表现形式、反映了中国古代文化、且在相关的收藏机构或著作中有确切编号的资料。另外,对于没有对应图版的“空号”、“存目”等编号,我们也收录其中。1.0版本还有许多缺陷,补充工作正在进行,主要包含:一、有13,351个编号目录数据已经入库,但图版文件正在加工中,数月后可补充入库;二、对于已入库图版,另有约80,000件来源不同、清晰度不同的图版文件,将按照不同印本进行处理,陆续补充入库;三、按广义敦煌文献概念来理解,库中尚缺许多文献,将广泛搜求,以期完善;四、“題记说明”、“文献释文”、“规格品形”、“研究著录”等方面的信息欠缺尚多,将陆续补充或通过共建共享机制来完善。另外,1.0版本在界面方面还有缺陷,也将在后面的版本中陆续修改完善。另外,敦煌数据库也准备在恰当的时间改造为手机微信版。

 


中医药文献库:1.0版本已建成上线,分为目录和图版两个数据库。目录数据库收录文献约2.2万种,图版数据库收录文献原件4914种,约470万页。

 


已做好准备等待建设的专题数据库有6个,其准备情况如下:

甲骨文献数据库:已准备好有字甲骨片图版60,000余件,这些图版大多具有两个不同印本,刻辞释文代码文本也已大致准备就绪,适合甲骨文的数据库架构也已确定,待整理好目录系统、完成入库后即可提供服务。

金文文献数据库:已准备好有铭青铜器图版近17,000件,大多具有三个不同印本,部分铭文释文代码文本已准备就绪,适合金文的数据库架构也已确定,待整理好目录系统、完成入库后即可提供服务。

石刻文献数据库:已准备好石刻照片及拓片图版约60,000件,传世石刻类文献约1,200种,这些文献收录的石刻文字约15,000篇。目前适合石刻文献的数据库架构已经确定,已整理好目录的照片及拓片17,938件,待完成入库工作后即可提供首期服务。

明清档案数据库:已准备好图版文件约50000件,后续工作将择机开始。

书画文献数据库:已准备好图版文件约80000件,后续工作将择机开始。

舆图文献数据库:已准备好图版文件约3000件,后续工作将择机开始。

当然,我们也期待与感兴趣的朋友一起合作建设这些专题库。

上述阶段性成果总合为《汉籍数字图书馆》2.0版,由陕西师范大学出版总社正式出版,其目录数据库及预览图版对社会免费开放,访问地址为:http://www.hanjilibrary.cn/。我们期待感兴趣者试用并提出宝贵意见。

我们是在“三无”的条件下进行工作的,没有项目经费,没有专门机构,也没有稳定的专业化制作队伍,所遇到的困难更是层层叠叠,虽然我们竭尽全力,力争使之品质完善,但实际上仍然存在许多缺陷、差错和瑕疵,对于这些问题,我们只能“惕惕愧不已”。另外,为了使这项工作能够继续进行下去,我们必须在2016年下半年提交正式产品,投放市场,由于这个原因,有一些工作还没做完,只能在后续更新版本中逐步完善。例如,为了纠正数据库中的差错,我们特别设计了一套改错系统,任何人经过注册之后,都可以方便快捷地修改数据库中的信息,同时,我们还尝试研究建立一套报偿办法,给所有对数据库进行了良性、有效修改的劳动给予一定的回报。遗憾的是,这套改错系统只能在后面的版本中提交用户了。好在平台的基本架构已经搭建起来,海量的数据已经入库,缺陷和差错可以在后续的动态过程中逐步改正。

我们的理想,是让所有希望使用汉字古籍的人士,即使处于穷乡僻壤,只要能联上互联网,就能得到比任何图书馆都更为完善的服务,能够得到全部汉字古籍的目录、图版和可深度检索利用的代码文本,能够得到越来越完善的各种自动化服务,真正实现“身居陋室、坐拥书城”,节约他们珍贵的时间和精力,为学术做出更多的奉献,为学习、工作和生活提供更多的方便。我们期盼所有学界同仁、所有使用者、所有感兴趣者,能帮助我们,改正差错,完善系统,增添资源,使之日臻完善。希望凭借众人的力量,再经过若干年的努力,能给后人留下一个比较完善的汉字古籍数字化系统。


(文/袁林)


温馨提示:欢迎转载,欢迎分享。转载请注明:《汉籍数字图书馆》(微信号:hanjilibrary)。



    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存