查看原文
其他

《数字人文》学者 | CBDB中国地区学术支持者——向帆

徐璇 DH数字人文 2022-07-17

当“数字”与“人文”结合,一场方兴未艾的变革正在悄然发生。《数字人文》Journal of Digital Humanities)杂志汇聚了一批积极参与这场探索的学者,致力于挖掘与展示数字人文成果的多样性和前沿性。《数字人文》编委之一向帆就是其中一位。近日,向帆成为“中国历代人物传记资料库(CBDB)”中国地区学术支持者。

 

CBDB官方网站:

https://projects.iq.harvard.edu/chinesecbdb


中国历代人物传记资料库(CBDB)简介

中国历代人物传记资料库(以下简称CBDB)系线上的关系型资料库,其远程目标在于系统性地收入中国历史上所有重要的传记资料,并将其内容毫无限制地、免费地公诸学术之用。自2018年CBDB在中国大陆建立商业化分支,以求借助商业化力量建设更符合学术研究需求的产品。CBDB学术分支与商业化分支相互扶持,且保持各自独立性。


截至 2021年12月,该资料库共收录约 515,488 人的传记资料,这些人物主要出自七世纪至十九世纪,该资料库现正致力于增录更多唐代和明清的人物传记资料。


CBDB能根据不同检索条件反馈相应的传记资料。这些检索条件可以是简单的问题,如“哪些人来自同一地方”,也可以是更复杂的问题,例如“在某一时段来自同一地址、通过科举入仕的人之间有哪些社会和亲属关系”。除可作为人物传记的一种参考资料外,亦冀可敷统计分析与空间分析之用。中国大陆用户可以通过无需前置训练的引得平台进行检索,亦可以通过学术分支,使用需要一定编程思维和能力的学术分支数据。


CBDB选择学术支持者的过程十分复杂,讨论和考量的问题非常多。对于选择向帆作为CBDB中国地区学术支持者,CBDB项目资深经理王宏甦从个人角度是十分赞赏向帆老师的:

首先,向帆老师在加入我们之前对 CBDB 已经非常熟悉,并且用 CBDB 的数据做出过非常精彩的作品《增强家族树:进化的研究与表现》(该作品获得计算机图形学领域顶级学术会议SIGGRAPH2020最佳艺术论文)。第二,向帆老师对学习新知识有极大的热情。CBDB 从七十年代始建时就一直致力于把最新最好的技术和方法引入历史学研究。因此一旦有新技术、新史料产生,我们就要立刻学习。向帆老师之前说她对 DH 是“门外汉”,反而我们最不担心这件事。对于日新月异的新技术,每年我们都是从各种领域的“门外汉”一步一步走向“学以致用”。学习能力强的人是我们特别赞赏的。第三,向老师和她的合作者们做出了精彩的作品,我们对向老师的管理和协调能力也非常赞赏。第四,我和向老师很久之前就认识了,作为朋友,我信任她。


向帆至今回忆起同CBDB从相识到互相支持的过程,仍会十分感动,她谈道:

正如我每次在介绍“中国古代家族树“之前所介绍的那样,我以为寻根溯源是一个不太可能、不切实际的事情。但是在看到哈佛大学与北京大学合作的CBDB的新闻时,我直觉这个数据库意味着什么。于是我联系了哈佛大学东亚语言与文明系的教授包弼德,他是整个CBDB数据库的负责人。从那之后,我就见到了CBDB的一些重要的贡献者:徐力恒先生、王宏甦先生。


王宏甦同向帆和朱舜山讲解

如何从人名辞典中录入数据

于哈佛大学,2017年5月


我同他们在家族可视化实现的过程中非常自然地展开了许多交流,包括我们后来去哈佛大学燕京学社的讲座及与其他中国社会学者、历史学者之间的许多对话。在这个过程中,我是逐渐地,从一个设计师的角度去理解历史研究的方法、古代文献数据化、数据处理、可视化技术应用等等,也就是说,不经意地获得了一个新的视野。


向帆和朱舜山同时任哈佛燕京图书馆馆长

郑炯文先生合影

于哈佛大学,2017年5月


向帆和朱舜山于哈佛大学燕京学社演讲

2017年5月


我的合作者朱舜山先生是一位数据库工程师,他在运用CBDB梳理人物关系的时候经历了非常痛苦的过程。因为在数据库中我们常常看到A是B的爸爸,B也是A的爸爸,我们仿佛站在历史面前不知所措。在可视化工作中的前期数据理解部分,我们遇到了许多未曾遇到的问题。这些问题特别金贵,帮助我理解了我们在做什么,CBDB在做什么。


因此,我觉得CBDB并不仅仅是一个历史研究的数据库,更像一个开放的大水池,激发不同学科潜入进去探寻。


CBDB委员会主席包弼德(Peter K.Bol)

参观作品《家族树》(策展人:王之纲

于清华大学,2019年12月


我并没有进入历史学,但是我的专业——视觉设计可以贡献的是如何呈现、解释、表达、讲述曾经的故事,而且这些故事对于今日现实世界是具有意义的。


因为我已经对人物亲属关系数据有一些基础性了解,接下来在“时间—空间”关系中一定会有许多可能性。当然,最重要的工作是要支持其他学者对CBDB的理解和运用。


CBDB分为“学术分支”和“商业化分支”。两个分支相互尊重对方的决定,并且相互扶持,一同合作。关于CBDB在亚洲商业分支发展重点,北京元引科技有限公司创始人朱厚权谈道:对于商业化分支来说,CBDB在亚洲发展的工作重点要以中国大陆为根基,在练好内功的基础上,再寻求向东亚和欧美进行学术和商业拓展。现阶段,我们会以开放的心态,不断探索人文学科科研成果转化的各种可能性路径,快速响应现地学术研究的切实需要。具体来看,包含以下几个方面:其一,在未来,商业化分支团队会协同CBDB项目数据小组,确保每年不低于3万条新增信息入库。其中,商业化分支会在历代正史的传记和地方志、人物志等数据处理的财务支持、人力资源、文本选型等方面为CBDB项目组提供集中支持,以期实现数据类型、发布先后的差异策略。其二,在向帆老师加入团队后,我们会与向老师通力合作,强化CBDB在线系统的可视化效果和用户界面友好性。力争通过简洁易操作的方式,呈现人物与时间、空间、事件、仕途、交往的关联,为学术研究提供支持。

其三,结合一线用户的反馈,做好专题数据细分工作,为不同专业、不同研究领域的学者,提供更为贴合的产品,如断代人物库、历代进士库、地方人物库等。同时,结合现代信息化的趋势,开放相应数据API,为不同机构和研究者提供更为灵活的数据获取方式和功能部署方式。


从CBDB商业分支角度,朱厚权认为未来工作会从以下方面进行延伸:2018年3月,包弼德先生在我们的签约仪式上提出要建设中国史学的网络基础设施。签约以来,我们一直以此为己任,不断尝试,目前已有初步成果。在合适的时机,会推出相关平台为学界服务:其一,以CBDB数据结构化为模版,结合正在测试中的历代地名沿革数据、历代职官数据、历代机构数据、年号纪年转换数据等,将CBDB与相关参考文献和古代典籍打通,做到数据可索引、可溯源,减少学者对相关资料的考证时间,让学者们能集中精力做具体的学术研究。其二,不断完善学科研究环境和学生计算思维训练环境建设,对文本处理模块中的文字识别、辅助断句、专名识别、学科标注、分词等功能进行算法优化和UI/UE迭代;对数据分析模块中的文本风格、主题模型、情感计量、关系提取等不断完善细节,集中提升数据处理效率;在视觉呈现方面,在统计图表、历史地理分析、社会网络分析、文字云等领域,以人文学者的零编码为目标,力争达成所见即所得的一种数据,多种呈现方式复合利用效果。

其三,将整体平台微服务组件化,以能快速响应学者的紧迫性需求为基础目标,助力学者科研的私密化、本地化、小型化、低成本应用部署。


关于CBDB在亚洲学术分支的发展重点和方向,王宏甦认为:

1、对于一个数据库来说,本职工作就是数据建设和开放。我们之后在亚洲会继续和学者、机构合作,制作更多系统性强、准确率高、能解决真正群体传记学学术问题的数据。这是我们当前权重最高的事。
2、进行群体传记学研究的训练。我们认为定量研究和定性研究一样重要。鉴于国内对于群体传记学可能存在一定误解,我们会通过工作坊和培训的形式在亚洲让更多学者和我们一起探索用群体传记学研究宏观问题的更多可能性。3、CBDB 的数据增长离不开数据众包,CBDB 现在有二十多位来自全世界各地的历史研究者、爱好者,他们每月以千计地往 CBDB 录入系统中贡献数据。我们会期待未来有更多的学者和历史爱好者加入我们。4、促进使用 CBDB 更多的、能解决实际学术问题的高质量研究。



向 帆

向帆,清华大学美术学院副教授、《数字人文》编委、CBDB中国地区学术支持者


学术主张

通过对数字视觉技术的理解与应用,利用基于人类历史积淀的所有文化信息储备,探索大型文化性、社会性数据中所未见的事实,以视觉艺术表现而实现生动的信息传播,这是人文学者从未使用过的方法与能力。

以文化性、社会性数据为材料,视觉设计艺术为语言,通过设计实践案例,寻求自身的艺术创作路径。


研究方向:

动态媒体设计、数字艺术创作、数字视觉化设计


长按下方二维码

即刻阅读向帆相关作品



往期回顾
疫情的流图——以设计实验理解可视化技术应用方法
将科技融入人文教育:数字人文、批判性思维和本科教学研究
包弼德:数字人文要配合学术思考

为学作记——从网络分析和文本分析视角看宋代地方官学碑记的作者与主题



编辑 | 肖爽






数字使人文更新

投稿邮箱:dh2020@tsinghua.edu.cn

数字人文门户网站:www.dhlib.cn

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存