从“上图”看图书馆数字人文项目建设经验
数字人文因其将现代信息技术与传统人文研究相结合的特点,近年来被各相关领域机构视为热门话题。国际图联对数字人文研究的重视,不仅体现在2013年启动的《国际图联趋势报告》上,而且还专门设立了“数字人文/数字学术特别兴趣组”。
2017年国际图联启动“数字统一”项目并设立工作组,成员包括联合国教科文组织世界记忆项目、国际档案理事会、国家图书馆馆长联席会议等,目的是运用互联网手段将散见于世界各地的原始文献和遗物实现共建和共享,并让研究者和公众有一个更完整的视野来看待相互连接的文化和历史。
数字化改变了时空格局,人们可以通过历史文献与古人对话,也可以通过不断流动的信息以大数据的方式预测未来。有研究认为,数字人文的第一次浪潮主要是在数据和检索的量化层面,而第二次浪潮体现在质化、解析、实验、情感、生成的层面上。
上海图书馆(以下简称“上图”)自2014年起,就开始投入人力物力资源,探索图书馆从事数字人文项目建设的方法和路径,并从上图的特色资源——家谱开始,利用以关联数据为主的语义万维网技术,融合馆藏元数据记录、专家的研究成果、相关的网络资源,以知识本体为基础的知识组织方法重组数据,以RDF对数据进行编码,以平台化的思维为用户提供差别化的服务,吸纳并鼓励专家用户贡献知识,建成了“家谱知识服务平台”,探索了基于关联数据技术支持数字人文项目建设的路径;并以关联开放数据的形式开展开放数据应用开发竞赛,向全社会征集创意的同时推广馆藏资源,获得了良好的社会影响。
在家谱知识服务平台的基础上,上图又以24万余种盛宣怀档案及其他大量近现代名人的手稿和档案为基础,建设了面向人文研究的“名人手稿档案库”,集手稿档案的编目与展示于一体,利用社会关系分析、实体关系分析、留言、标注等功能支持人文研究。上图与柏克莱东亚图书馆合作建设的“中文古籍联合目录及循证平台”,创新性地借鉴了“循证实践”的概念,试图在收集大量现存或散佚的古籍目录数据的基础上,利用基于知识图谱的知识组织技术,建设古籍版本知识库、作者知识库、刻工知识库、收藏家及藏印知识库、避讳字知识库等,以支持古籍目录学研究、版本研究、古籍源流探析等基于文献证据的古籍循证功能。
上图在建设各种文献知识库的同时,建设“人、地、时、事”等基础知识库,以便于从不同的维度探索图书馆的所有相关资源。比如,“人名规范库”中的每个人都当作一个实体,这样可以从某个人出发,探索其所有的手稿、档案、著作、照片、音视频资料,而不用受到传统数字图书馆建设中以资源类型建设相互独立的数据库系统的限制,真正做到面向内容而非面向文献,为研究者提供精准的知识服务而非文献查阅服务。
这些文献知识库和基础知识库建成后,都在互联网上提供开放数据服务,试图成为面向人文研究的国家数据基础设施的一部分。
项目建设的目的:从文献服务到知识服务
在数字图书馆时代,图书馆使用元数据的方法来组织资源,基于元数据的字段检索来提供文献查询和全文阅览服务。而到了数字人文时代,由于互联网的发展和数字图书馆建设的成果,学者可获得的文献不是太少,而是太多。如何帮助学者在海量文献中找到与研究主题相关的数据、事实和知识,是图书馆服务的首要任务。图书馆需要直接为学者提供文献中蕴含的且与研究主题相关的知识,帮助学者准确而全面地定位到所需文献。更重要的是,数字人文的优势还在于提供不一样的视角帮助学者发现新的研究问题。因而对于图书馆来说,完成从文献服务到知识服务的转型,是图书馆从事数字人文项目建设的主要目的。
项目建设的方法:知识重组
图书馆的文献服务是建立在对文献的规范标引和著录、对标引著录的结果——元数据进行组织和管理的基础上的,而知识服务则需要建立在对文献中的知识进行组织和管理的基础上。知识组织是揭示知识单元(包括显性知识因子和隐性知识因子),挖掘知识关联的过程或行为,最为快捷地为用户提供有效知识或信息。
知识编码的形式化——机器可读
知识单元的细粒度化——机器可计算
知识表示的语义化——机器可理解
知识组织的关联化——机器可推理
知识增长的自动化——机器可自学习
上图数字人文项目建设流程图
(图片源于所选文献配图)
上图的名人手稿及档案知识库是上图整个数字人文平台的一部分,其建设方法、流程、技术也和数字人文平台的建设基本一致,经过三年多的探索实践,这套方法、流程和所采用的技术逐步趋于成熟,其特点是数据架构和技术平台的灵活性和可扩展性,支持在不断的迭代中完善数据、模型和功能,减轻了项目建设和系统实施的压力。
>>本文摘自
夏翠娟,张磊,贺晨芝. 面向知识服务的图书馆数字人文项目建设:方法、流程与技术[J]. 图书馆论坛, 2018.(网络出版时间2017-10-16 15:12:25)
吴建中.再议图书馆发展的十个热门话题.[J].中国图书馆学报,2017.
编辑/广东小知
转自/公共服务在线
推荐阅读: