查看原文
其他

交换机|关系型史学数据库(下):从开发者角度看CBDB,兼及数字文献学

徐力恒 零壹Lab 2022-10-08


“数字人文研究技能与方法”读书会

北京大学人文社会科学研究院,2017年


三、 关系型史学数据库(下)

从开发者角度看CBDB,兼及数字文献学

(4月21日,周五)


(进行数字化时借用哈佛大学法学院租来的扫描仪)


01

思考题

1. 什么是数据化?数据化和电子化有什么区别?

2. 你最感兴趣的研究课题需要什么资料支撑?这些资料是否已经经过电子化和数据化?

3. 建立数据库或数据集时,应如何选择史料,将其变成数据?请从两个方面思考:从CBDB的角度、从你自身研究兴趣的角度。

4. CBDB把人物传记资料做成数据有哪几种方式?各有什么利弊?

5. 对文本进行标注,然后做成数据的做法有什么结果?其中隐含了看待文献的何种观念?

6. 以你用过的一个学术数据库为例,设想建设该资源时会遇到哪些主要困难。这些困难可以如何解决?


(为了标记地方志人物资料,设计的半自动线上标记平台)


02

阅读材料

1. 【精读】徐力恒,《唐代人物资料的数据化:中国历代人物传记资料库(CBDB)近年工作管窥》,《唐宋历史评论》,待刊。 

2. 【精读】徐力恒、王宏甦,《CBDB开发者告诉你,他们是怎么妙用MARKUS的!》,零壹Lab,2017年2月20日,

https://mp.weixin.qq.com/s?__biz=MzIxMzYwOTAyMw==&mid=2247483810&idx=1&sn=d6e4a807979e9e4c9a3cbf974c8219e3&chksm=97b57ef2a0c2f7e440add530730e3204c988949195dac9630b5593e44bdfdc982cbbb833be31&scene=0#rd

3. 【泛读】Peter K. Bol, Chao-Lin Liu, and Hongsu Wang. “Mining and discovering biographical information in Difangzhi with a language-model-based approach,” Proceedings of the 2015 International Conference on Digital Humanities (DH 2015). Parramatta, New South Wales, Australia, 29 June-3 July 2015. 下载网址:(点右上角“Download”下的“PDF only”)

4. 【泛读】赵思渊:《地方历史文献的数字化、数据化与文本挖掘:以〈中国地方历史文献数据库〉为例》,2016年第4期,页26-35。下载网址:(点“全文:PDF”下载)

5. 【需要时参考】程卉,《CBDB Computer Assisted Gazetteer Tagging System 操作手冊》。

6. 【需要时参考】杜协昌,《宋会要系统简介》。下载网址:


(利用MARKUS标记墓志文本中的人物任官资料,导出数据用以输入CBDB)


03

参考网站

1.RegExr:

2. 正则表达式30分钟入门教程:

3. NotePad++下载网址:

4. Automating Data Extraction from Chinese Texts:

5. 台湾大学《宋会要辑稿》资料探勘系统(可申请免费账号):


(准备唐代墓志全文,以作文本挖掘之用)


往期内容

第一期:交换机|“数字人文研究技能与方法”读书会(报名已满,线上分享)

第二期:交换机|关系型史学数据库(上):从用户角度看CBDB


“零壹Lab”将发布本读书会的更多学习资料,请持续关注!

END


主编 / 徐力恒

责编 / 陈静 顾佳蕙

美编 / 傅春妍


零壹Lab

记录数字媒介之日常

反思科技与人文精神

长按关注

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存