其他

中华书局的古籍数字化之路

2017-07-22 洪涛 古籍

2014年6月,“中华经典古籍库”在国家图书馆发布,中华书局的古籍数字化工作逐渐为人所知。自此以后,中华书局才真正具有了古籍数字出版的概念,并加速发展。截至2016年底,“中华经典古籍库”已经收入了7个出版社的古籍整理图书1274种,计7.5亿字,古籍数字化整理平台和多个专业产品蓄势待发。回顾中华书局这些年来古籍数字化的历程,2014年之前内容与数据的积累是基础,2014年后产品化、市场化的转型是关键,2016年平台化发展又是一个新的起点。在下文中,我将分享中华书局这些年来古籍数字化工作的历程,分析从“项目”到“产品”再到“平台”的发展转变中我们的思考与实践。

中华书局“中华经典古籍库”


十年的准备与积累

2003年,中华书局成立了“古籍资源开发部”,负责建设“中华古籍语料库”项目,正式开启了古籍数字化的工作。从部门名称上可以看出来,那时候还没有“数字出版”的概念。古籍资源开发部最主要的工作是数字化编辑加工,即将中华书局铅排古籍整理图书通过OCR采集等手段数字化,并按照语料库的要求编辑加工成XML格式的文件。通过几年建设,我们完成了3亿字整理本古籍的数字化工作。这3亿字现在看来数据量不多,但是籍此书局建立了一整套数字加工标准和流程管理规范,直到今天还在应用和完善。古籍资源部在数据加工的同时,也开发了一套系统用来编辑、标引、存储、检索、统计古籍数据。

有别于普通图书,古籍的数字化工作有很多难点,需要在实践中不断摸索。比如整理本古籍,大部分是按照专名线、浪线式书名号的全式标点体例规范来整理的。在进行OCR采集的时候,当时没有一家公司具有成熟的技术,可以让识别软件自动识别并标引出专名线和浪线式书名号,构成了很大的技术障碍。我们通过和技术公司的合作,不断优化OCR系统,梳理整理本古籍的特殊体例和要求,建立相关的数据加工规范,很好地解决了整理本古籍特有的数字化要求,极大地提升了数字化的效率和质量。

在整理本古籍的数字化工作中,最个性化的困难是计算机用字的处理。“中华经典古籍库在系统里使用了Unicode编码字符集,从基本集到扩展E集,共有8万余个国际标准编码的汉字。即便如此,依然有很大一部分古籍整理作品中的字形无法表示。到目前为止,我们额外造了3.1万个字符集以外的字,使这些字具有检索功能,并实现灵活的样式显示,在PC端和移动端可提供更好的阅读和检索体验。

Unicode字符集

整理本古籍的用字处理是最为复杂的一种,不仅有大量繁难的古籍用字,还涉及到对古籍用字的整理和规范,通常要查阅大量的工具书甚至是整理底本、校本才能确定。数字化时出现Unicode字符集以外的字,通常会有三种原因:一是整理本编校排印时的错字,属于文献中根本不存在的字,必须要纠正。二是与现在Unicode字符集里相同的字,但是笔形有差异。遇到这种情况,如果原书不是从字型入手进行论述,我们通常会采用认同这两个字的处理方式,使用Unicode编码中已有的字型,方便读者阅读检索。三是真正需要造的字,这些字在文献中有实实在在的用例,但是没有收入到Unicode编码字符集中。每一个字的判断处理都需要摘录判断依据,填写字的属性库,如IDC、四角号码等等,便于在之后的工作中核查。多年的古籍数字化实践,让我们越来越深刻地体会到数字化的过程并不是简单还原的过程,而是一个标准化的过程,需要投入大量编辑力量,是用数字形式对古籍的一次再整理。用字处理这一个环节,就体现了古籍的数字化对古籍整理用字的规范化作用。中华书局为了更好地完成数字化用字的处理工作,不仅在实践中制定了大量相关的标准和流程规范,而且投入了大量精力参与到相关标准建设,如“中华字库工程”、“国家数字图书馆汉字规范处理”项目等。通过项目建设,不断完善数字化古籍用字标准,积累了大量的汉字属性数据,为数字化奠定了基础。

2008年前后,中华书局通过OCR方式采集数据的工作流程基本确定,并完成了大量文本的数字化加工。当时书局并没有迅速开发产品,而是提前进入了另外一个领域的探讨——对古籍知识库的研究。随着互联网发展,以谷歌为代表的检索引擎,有强大的资源索引、聚合的功能,对于专业领域来说,内容服务注定向知识服务转变。2009年至2012年,中华书局开始了《资治通鉴》和“二十四史”分析系统建设,主要探索如何为用户提供知识化的古籍内容服务。

我们与合作方把“二十四史”和《资治通鉴》中的信息通过人机结合的形式标引并组织起来,形成以人物、时间、地点和事件等不同维度的知识网络,帮助读者更方便地使用古籍。通过文本的标引和本体库建设,系统可以脱离原书目录结构按照不同维度来导航,比如时间、地点、人物;可以按照知识点来检索,比如检索张飞,系统就会图形化的给出与张飞相关的人物、地点、时间、事件等等,进一步还可以检索两个知识点的相关关系,比如检索张飞和关羽,系统就会给出两个人物的关系图,包括他们共同参与的事件、共同相关人物等等,即使两个知识点不直接相关,也可以给出两个知识点间接关联的路径。除了检索和阅读的功能,还提供了人物的时空分析,把人物、时间、文献记载与地点坐标关联,并连接成线,这样就看到一个人物在地域上的移动轨迹。类似很多的分析功能这里不一一细表。

《资治通鉴》和“二十四史”分析系统的项目最终没有产品化,但是为后续将要开发的“中华经典古籍库”产品提供了重要的思路。但在当时,发展知识服务的条件还不具备。从企业的角度讲,产品化的内容一定是要通过市场获得收益。但当我们回头审视知识库的开发时,感到相关领域的基础性研究和知识储备还不足,过多依赖人工进行内容标引和知识体系构建,资金需求量巨大,而且要完成大量文献的本体库建设,时间成本也难以符合市场化的需求。此外用户的使用场景也并不明确。知识库的技术含量虽然更高,但是当审视每一个用户群体,从普通读者到学者,从学生到老师,这个知识库都不能满足他们的主要需求,或者说很多时候并不知道该用它来做什么。而数据量大、适用人群广的海量数据库,虽然结构简单,在商业上反而更加成功。

中华书局在古籍数字化工作开展的初期,一直没有加速产品化建设,这其中包括了数据与技术的因素、对市场理解和把握的因素,还有就是始终对知识产权的保护存在担心,特别是古籍的特殊性增加了知识产权保护的难度。整理本古籍是中华书局最核心的资源,也是中华书局这个品牌构成的核心要素,也是中华书局重要的经济支柱。推出数字化古籍是否会伤害传统市场,加速盗版风险,都没有办法验证。但是随着社会上古籍数字化的产品越来越多,特别是中华书局与数字公司之间不断的知识产权诉讼,我们逐渐认识到产品化也许是保护数字版权的一种更好的方式,即通过高质量的产品占据市场。鉴于此,中华书局着手开发了第一个古籍数字化产品——“中华经典古籍库”。


走向产品化道路

“中华经典古籍库”从开始产品化的2012年至今,已经历了五年时间。在此期间,数据规模从2亿字扩展到7.5亿字,从单一的局域网版到在线版、微信版,发展的动力来源于对用户需求的响应。

“中华经典古籍库”高级检索页面

2012年开始设计该产品时,手里的主要资源就是中华书局整理本的古籍图书,有2至3亿字已经过数字化的文本。当时社会上一些数字公司开发的古籍库往往有10亿字级的数据量,在这方面,“中华经典古籍库存在天然的差距。我们在研究数据库使用行为时发现,有很多用户先通过海量数据库检索到内容,然后去图书馆利用整理本的图书核对原文,最后记录下来原文出处等信息,完成了一次文献检索与使用的全流程。在这个使用流程里,用户并没有完全脱离纸质图书,只是把数据库当成了纸质图书的电子索引使用。因此在设计产品的时候,我们特意强化了对于原版纸书的利用:

在数字化成XML文件的同时,保留了原书版面图像,并和文本内容对应,让用户可以不必再到图书馆查阅纸书,就可以看到与原书一致的内容;

系统提供了“引用”功能,用户复制一段文献出来,会自动在文献后加上来源出处,如中华书局某年某版第几页,省去了再去核对版本与原书页码的麻烦;

在产品里还为用户提供了一些必要工具,比如联机字典、历史纪年换算、关联字表查询等等;利用工具书和原书后的索引,制作了人名异称的关联检索,当用户检索时输入一个人名,系统会提示这个人物在文献中的其他称谓,比如曹操,系统会提示孟德、魏武帝、阿瞒、吉利等等,便于用户提高检索的查全率。

通过一系列的功能设计,我们希望用户在“中华经典古籍库”产品里完成从内容检索到文献使用的全流程。

从资源角度来看,整理本是“中华经典古籍库”与其他古籍库最根本的区别,它涵盖了建国以来专家学者的研究成果。从社会各行各业对古籍的应用来看,整理本最具有普遍性和不可替代性。因此在系统功能的设计上,我们也紧紧围绕资源的特点展开。在检索时,充分利用整理本的特点,允许用户在正文、注释、校勘、专名、书名等不同范围内检索,如果要查询一个人名,在专名范围中查找,就能极大提高命中的准确率。检索时也能够选择是否忽略标点,合理地利用标点和断句信息,用户能够更有针对性的找到所需要的内容。可以说发挥自己资源的优势,结合用户的实用需求,是产品设计初期重要的考虑因素。

2014—2015年,“中华经典古籍库”的局域网版是数字化的主要产品和收入来源,这和产品定位在国内机构用户是紧密相关的。大多机构希望一次性付费使用,并买到实体,而不是按年付费订阅。但是局域网版具有很多劣势:一是海外用户基本不会采购,他们不愿安装软件到本地,更多的是希望通过浏览器在线访问;二是数据库的采购通常伴随大量的试用过程,局域网版需要给用户上门安装,如果不采购还要再撤回,试用效率低而且成本高。2015年底,我们发布了在线版,可以通过网络授权访问。短短一年里,在线版已经在100多个机构开通试用,北美地区的哈佛、耶鲁、普林斯顿、哥伦比亚等几所大学都购买了在线产品。在线版的试用不仅让更多机构了解到了“中华经典古籍库”,而且对局域网版的销售还起到了促进作用。

2016年4月23日,在中华书局读者开放日上,我们发布的微信版“中华经典古籍库”,可能对很多人来说都是始料未及的产品。这是在社交移动平台第一次出现大规模的古籍资源,读者可以随时随地的阅读检索,分享内容。短短半年,微信版吸引了近3.5万名读者,大大加速了“中华经典古籍库”的品牌推广。微信版的推出看起来是“中华经典古籍库”又一个形式的产品,其实本质是运营推广的一次尝试,也是从机构用户向个人用户的一次拓展。

微信版“中华经典古籍库”

“中华经典古籍库无论是局域网版还是在线版,都是面向机构用户销售的产品。用户构成主要有以下几类:高校图书馆及专业院系、公共图书馆、党政机关、出版社、研究机构及博物馆、其他民间机构、海外机构(主要是大学和一些国家图书馆)。根据调研,古籍库机构版的潜在用户不下千家。但是经过两年的推广,古籍库的试用用户只有上百家,这种一对一的面向机构推广的模式效率不高。有90%以上的读者,无缘接触到“中华经典古籍库,甚至不知道中华书局有了古籍数字化成果。另一方面,面向机构的产品存在一个天然的问题,采购者和使用者往往是两个群体,因此我们不太容易接触到真正的用户,用户也无法顺畅地向我们表达对产品的反馈。为了解决这些问题,需要一个面向个人的产品,还要具备高效的传播方式,用户能够很方便和我们沟通,自然就选中了微信作为数据库的载体。

微信产品让我们第一次真正地面向读者:通过后台的统计分析功能,可以了解到用户检索和阅读哪些内容、什么时间使用数据库、哪些地方的用户最多、他们操作方式是什么等等。很多读者本着对中华书局及其产品的信任,在注册时提供了完整的注册信息,包括专业、职业、联系方式等等,这让我们有了更加具体的用户画像。通过微信的二维码关注功能,在不同活动、不同推广媒体和场合投放的二维码,可以明确区分出用户群体和传播渠道。微信用户数据对于我们明确产品的发展方向和提升营销的针对性都起到了关键作用。真正定位到“人”,是微信产品最核心的价值。认识到这一点后,我们与高校用户开展合作,将微信版账号赠送给在校学生使用。对于学生来说,他们获取到了一大批免费优质资源;对于学校来说,已经购买的机构版新增了额外的增值服务;对于中华书局来说,我们得到了一大批潜在的用户。


推动平台化发展

中华书局在发展了两年产品后,深切感到要想真正做到融合发展,推动出版的转型升级,靠现有的产品线是不够的。很多根本性的问题没有解决:一、古籍整理作品通过整理者和编辑的努力,内容质量远高于社会其他古籍资源,但是在数量上具有天然劣势,无法满足用户在更大范围内检索文献的需求。二、现有数字产品的模式实际上是纸书的附属物,从内容到版权,都受制于纸质图书的出版,还远达不到产业转型升级的要求。三、在互联网时代,很多与内容相关的产品并不是依赖对现有内容的数字化来完成的,而是通过用户自己产生内容,迅速扩张,维基百科、知乎等都是很典型的例子。出于这些原因,我们感到发展产品只是我们工作一部分,更重要的是通过互联网搭建一个平台,提供一个古籍整理的新模式,加速古籍的整理速度。

“中华古籍整理出版资源平台”力图打通数字与出版的双向通路:古籍整理出版物可以通过数字产品的形式发布,整理平台也可以通过数字化产生整理作品,可直接在线发布,还可以提供给出版社纸质出版。平台提供了古籍从整理到发布的一系列流程:

1

该平台提供了一个古籍书目系统,包括了从版刻书到整理本一系列的古籍目录,可以让用户方便的检索古籍书目信息,并且了解整理出版情况。不仅能达到检索古籍书目的目的,还能够依照中国古籍的整理情况,进行古籍整理的规划工作。

2

提供了版刻书调阅系统,涵盖大量的版刻图书资源,以原版扫描的形式提供,作为用户整理古籍的底本和校本使用,也可作为其他的整理参考。

3

作为一个古籍整理平台,提供了自动校勘和辅助标点功能,利用后台的数据支持,为用户整理古籍提供大量的参考资料和已有整理成果。

4

工具书与知识单元查询系统,深度嵌入到整理平台,为整理者提供必要的知识提示。

5

成果发布系统,可以将在线的整理成果直接发布,供读者使用。同时,平台还具备一个约稿系统,可以发布需要整理古籍的信息,采用众包的形式,由读者共同整理完成。该平台的设计从根本上要实现古籍的在线整理和发布,通过众包与多人协作,提高古籍整理的速度。

在平台下面,学术期刊库、碑刻墓志库、小学文献库等等多个专业子库也在研发中,既可以为古籍整理者提供资料支持,也可以作为单独产品运营。我们希望通过平台的建设,将进一步打通读者和作者之间的关系,通过互联与协作,推动古籍整理事业的发展。

经验和总结

中华书局这十几年的数字化道路经历了从缓慢积累到加速发展的多个阶段。回顾当初,我们感觉起步还是晚了。当“中华经典古籍库”进入市场时,大量的古籍数据库已经占据了市场,销售推广工作因此遇到很大的困难。所幸中华书局终究还是迈出了这一步,2015年成立了古联(北京)数字传媒科技有限公司,专门负责古籍数字化业务,至此走上了专业化加速发展之路。成立一年多来,古联公司迅速发展,人员近30人,“中华经典古籍库”在2017年末将突破10亿字。在2017年初发布的《中华经典古籍库》第四期,来自6个兄弟古籍专业出版社的古籍整理图书聚合在一起,第一次实现了古籍整理出版领域大规模跨地域跨集团的数字资源合作,共同为读者提供优质内容。数据库的价值是以聚合内容为前提的,资源合作与扩展,成为了古籍数字出版做大做强的关键因素。

另一方面,技术在数字出版领域占据重要作用。这里所说的技术并不是单指计算机技术,还包括提供数字服务的一切相关技术、标准。以中华书局的产品为例,包括了数字化的相关标准、超过10万字的古籍字表和属性数据库、不断完善的汉字关联表、准确的历史纪年换算工具、几十万的专名词表、在线显示超大字符集和版权保护技术等等,这些都是在数字化过程中不断发展出来的。2016年底,古联公司组建了“古籍数字化与知识工程重点实验”,成为首批新闻出版业科技与标准重点实验室,在“古籍数字化汉字处理”“古籍文本自然语言处理与语义关联”“古籍知识组织体系建设”“古籍资源知识库构建”“古籍整理自动化”五个角度进行深入研究,这些将来都是构成古籍整理数字化工作最核心的技术。在资源量达到一定级别的时候,技术的价值将越来越充分地体现出来。

用短短的一篇文章来写古籍数字出版,注定是挂一漏万的,比如本文并没有涉及到运营推广的内容,但它是数字出版非常重要的一环。也没有包含任何理论,只能尽量梳理了中华书局这些年在数字化上所做的工作和实践经验,希望能够对愿意从事古籍数字化的同仁有所帮助。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存