包弼德 | 计算机科学、社会科学与人文学术
计算机科学、社会科学与人文学术
包弼德
(哈佛大学东亚语言与文明系)
数字人文,是使用计算机科学的技术与算法以及社会科学中的定量分析方法来探索人文学科中的问题。人文学科的学者拥有自己领域内文学、历史学、哲学的专业知识,但很少有人接受过上述科学技术和方法的训练。因此,我们必须与受过计算机科学、数据库管理、定量分析以及数据可视化训练的同事合作。这就是为什么我们要建立数字人文研究中心的原因。通过数字人文研究中心,人文学者可以找到他的合作者。
笔者从事数字人文方面的工作,开始于与复旦大学历史地理中心的合作,当时希望创建世界上第一个公元前221年至1911年的中国历史地理信息系统。经过这些优秀的历史地理学者多年努力,终于建成了中国历史地理信息系统。对于所有数字人文项目,从中国历史地理信息系统建立的经验中,我们感受到五个方面的体验。
第一,如果可以将数据集免费开放给世界各地的用户,那会是一件非常好的事情。实际上,我认为共享数据至关重要。
第二,我们希望这是一个基础的、通用的GIS。我的意思是说,我们设计GIS的目的是,让GIS系统来回答成千上万不同类型的问题,而不只是回答一些固定的、预设好的问题。因此,中国历史地理信息系统为研究提供了一套通用的基础数据。基于这套数据,学者可以灵活地对中国历史中与省、州、县行政管理系统相关的任何数据灵活地进行可视化。
https://sites.fas.harvard.edu/~chgis/
第三,项目所需要的时间总比我们计划的更长,花费也更多。如果我们希望为数字人文项目创建有用的研究工具,那么,充足的时间和经费是非常必要的。另外,非常幸运的是,我们所申请的基金要求我們向世界各地的学者免费开放与GIS相关的工具及所有数据集。
第四,在开始的时候,绝大多数人文学者并不知道该如何使用GIS软件。因此,我们不得不花时间来训练使用者。比如,我们创建了在线教学视频、地名检索网站等。当我们创建数据、工具、平台时,我们衷心希望人们能真正使用它。这也意味着数字人文中心也必须是教学中心。
第五,我们需要确保数据集存储的安全,并将数据向公众开放。为此,我们使用Dataverse这个由哈佛开发的平台来存储和分享数据。它是开源的,任何大学都可以部署自己的Dataverse平台。如果我们只是把创建的工具和数据集保存在自己办公室的电脑里,那终有一天,它们将丢失。因此,大学必须创建可以长期保存数据的平台,并且这些平台必须是开放的。“世界一流”大学应该将这样的平台向世界开放,而不应该因为一些与学术完全无关的原因临时封闭校园网而导致这些数据的封闭。
以上五点更加显著地体现在当今最大的由北京大学、台湾中研院和美国哈佛大学共同建设的数字人文项目——中国历代人物传记数据库(CBDB)中。这个数据库当前已经收集了47万历史人物的数据。
https://projects.iq.harvard.edu/chinesecbdb
期待上海师范大学创建的数字人文中心在不久的将来能向全世界分享数字人文项目成果。
(原载《中国社会科学报》2020年12月21日第6版,发表时有删改)
编辑:刘婷