查看原文
其他

如何管理你的研究资料?来自科学史图书馆的全方位指南

科学史图书馆 科学史图书馆 2023-09-19

前言

我很久不写长篇的原创内容了,但是这次的推送系列可以说是科学史图书馆三年积累的干货,也是我个人近两年来博士期间积累的干货总结,同时也是一个框架,还会引出未来更多的干货。想到这里,我就觉得要向Seminar Live的创始人安博san致敬一下,安博的目标是博士论文完成的同时也把自己开发的学术app完成,这种课题与工具/方法双管齐下的精神是我很佩服的。我们的研究过程中有太多日用而不自知的东西,因此我一直认为开展研究的时候反身性地反思和更新自己的技术、方法和方法论应当成为一种常态。今天要推送的课程大纲就是我自己教学与反思的结合。


这个大纲的一半内容是我去年秋季完成的。作为Cambridge Data Champion的一员,去年秋季学期我在系里开了一期Graduate Training训练课程,给系里的硕士、博士等同学讲如何有效地进行个人研究中的数据管理(Research Data Management),也就是如何整理史料、制作书目、记笔记、使用软件和数据库等。我们系的Graduate Training课程很丰富,但多年来并没有专门针对数据管理的训练课程,这部分是我和我的导师一起推动加入到training里的。在数字化时代,我认为人文学科的数据管理训练应该成为常态,每个人都需要学习和思考如何与自己的研究数据相处。 一般高校图书馆提供的学术方法训练能cover到一部分查找资料和使用软件方面的技术,但是从个体研究者的角度出发,如何在研究中将技术层面的东西和自己的研究思路、方法论结合起来,还是需要多样、常态化的数据管理训练才能让学生具备这个意识。


研究数据管理(Research Data Management,简称RDM)一直是科学史图书馆的主题之一,但我自己也是成为Data Champion之后阅读了一些这方面的材料,才把这个专有名词和我们的实践结合起来。简单来讲,RDM就是你与你使用的一切研究资料之间的关系。这个范畴比我们常说的数字人文(Digital Humanities)更广,不仅涉及数字化的资料,也涉及非数字化的资料,不仅涉及用来处理具体学术问题的工具、方法,还涉及更多“使学术研究本身成为可能”的个人基础设施:从如何有规律地命名电脑文件夹,如何给co-author分享文件,到如何收集社交媒体上的有用信息,这些都是RDM的一部分。而研究数据的管理又和我们每个人的Workflow、研究方法论、乃至长期的学术发展密切相关,可以说是基础到经常被忽视的技能。


科学史图书馆目前已经推了很多期关于个人图书馆建设、Notion的个人数据库功能:档案查阅、资料收集的最好助手、写作方法、数字化研究工具(Transkribus等)、文献扫描等等的方法总结,这些都会成为我的授课材料基础,正在进一步系统化。在科学史图书馆内部,我们有一个自己的Notion数据库,库里的一个子页面就是专门用来收集RDM和DH相关资源的,所有团队成员和合作者都可以进入学习,读者现在也可以点击浏览:

https://histscilib.notion.site/e7f708a3e9124bb9b31a8b1353928978?v=9f196a20f19b4a379f06261a812fa957

和我们的其他Notion数据库一样,在课程更新的过程中,我还会继续扩充这个资源库。


课程大纲


作为Graduate Training备课过程的一部分,我设计了一套整个研究数据管理(RDM)方法的学习地图,设计的同时同时也是为科学史图书馆的推送做准备。这个地图以课程大纲的形式设计,但并不等于我在系里实际开设的课程,系里各种training排得很满,我只能挑最关键的内容浓缩到一节课里。但是理解RDM这件事的思路是不变的。这个地图的设计基于我自己以及更广意义上历史学科的研究经验,其他如古典学、文学、各种理论研究等等以文献为主要研究数据的学科应该都比较好适配,更多领域可能需要根据学科方法进行更大的调整。

有些同样很重要的RDM内容例如机密数据、以及以人为研究对象时的数据伦理、隐私保护等问题,由于我自己的研究中不太涉及,这里就不做介绍了,网络上也有很多相关的训练资料。


导论:如何思考我的研究数据?How to think about my data?


1. 什么是我的数据?


在档案馆用手机拍摄的档案照片

从JSTOR下载的二手文献

在纸质书上随手画的线、记的笔记

论文的草稿一、草稿二、草稿三

和导师的往来邮件

浏览器上同时打开的73个Tab

Twitter上和他人进行的学术信息交换


希望你形成一个意识:这些都是我的研究数据(Research Data)。数据不仅是指数字。


2. 从哪里开始思考“管理”这件事?


答案:从计划开始。


许多funding机构会要求研究经费的申请者提交data management plan,这个对于理工科似乎比较必须,人文学科一般不是所有项目都需要,但是写过的人会知道这种东西有时候非常繁琐。

对于没有细想过如何管理研究资料的人,这个计划书给你提出的问题其实很有帮助。可以参考一些Data Management Plan模板或者checklist,许多高校图书馆和信息管理部门都会放在网页上。


下面这个是英国的Digital Curation Centre (DCC)制作的checklist.

https://www.dcc.ac.uk/news/new-checklist-data-management-plan 


下面这个是UK Data Service制作的。

https://ukdataservice.ac.uk/learning-hub/research-data-management/plan-to-share/checklist/


    我这里大致用中文总结一下,在着手为一个研究课题积累数据之前,你可以自己回答一下这些问题

  1. 1. 我的研究过程中会收集哪些数据?如何收集?(下载?拍照?购买?)为什么要收集这些数据?(这个一般是proposal阶段都会想的)同理——我的研究过程中会生产哪些数据?如何生产?(例如word文档、手写笔记、PDF阅读器批注等)


  2. 2. 我的各种数据在研究中如何配合?我能否现在想象出(或总结出)自己处理这些数据的大致workflow?这个workflow以前遇到过什么问题?(记的笔记找不到、拍的照片忘记在哪里拍的、写论文没有备份等)


  3. 3. 我如何为这些数据创造元数据——说白了就是数据的目录或README?(如果你没听过元数据这个词,后面会讲)


  4. 4. 短期内(也就是研究具体课题期间)我把数据储存在哪里?这段时间内我准备如何备份,才能使得研究不至于因为数据丢失而停滞?


  5. 5. 长期内(也就是做完这个课题后,或者不为具体课题收集的数据)我把数据储存在哪里?储存多久?储存的性价比如何?(成本、安全性、方便程度等)如何保证我以后要用还能找到?是否计划删除某些数据?


  6. 6.(如果你有导师、合作者、研究团队成员等)我准备如何在内部分享这些数据?什么分享方式能最好兼顾到我和其他人的使用需求?如果是合作团队关系,我们如何分工存储、处理数据,如何保证一方需要的时候另一方能立即找到,不会耽误进度?


  7. 7. 我准备如何公开出版这些数据?(论文发表、书籍出版、在线数据库、博客文章等等都算)出版要获得什么许可?(档案馆的版权费、照片的credit等)思考这一问题时也可以参考我们的推送:What is Open Research?


想过一遍,你就会发现数据的管理是一个全盘的过程。你思考1如何收集和生产数据时,就要思考3和4如何存储和备份,思考2workflow时,就要考虑到一个项目workflow的最终端,也就是6如何发表。但是我们一般收集数据时经常很乱,各个环节之间是断裂的,比如下载了文献忘记了存在哪里、文章忘记备份,加脚注时忘记了写作时随手记下的“See Smith 2014“是指哪篇文献,或者一大半数据存在合作者那里,结果合作者出国失联了你什么也找不着。


在数据管理领域有一个名词对应这个过程,也就是我们说的数据生命周期 (Data Lifecycle)



https://www.reading.ac.uk/research-services/research-data-management/about-research-data-management/the-research-data-lifecycle


一个研究者理想的工作状态就是有一个自洽、贯穿全部这些环节的工作流程。 不同研究课题、不同方法论,连接的具体方式可以是多样的,但是如果你不去连接,研究中就很容易踩坑。数据管理训练的目的就是为了帮助研究者把这些断片连接起来。因此我们训练一开始就需要建立这个全盘workflow的概念。


人文学科的数据处理经常是一个人独自进行,尤其数据这种概念是近几年的新事物,许多导师、PI可能也未必有相应的经验供年轻人参考,相反他们可能更需要年轻人帮忙解决电脑问题。如果没有专门的训练课程,学生一般自己摸索着也会大概有一个workflow,但是这中间可能会额外产生很多试错代价和心理负担。这就是我们完整地训练Data Management的意义。

下面放一下我的课程大纲和参考文献,科学史图书馆以往的推送基本就是我的课程参考文献来源。未来会慢慢一讲一讲展开。


一 数据管理的顶层设计:Architecture and Workflow

这部分主要是本次导言的进一步延伸,也是整个数据管理课程的基础,涉及到一些核心的原则。


二 数据管理的85分标准:存储、安全与分享

85分也就是优秀线(相当于英国的First Class线),意味着你(可能遇到的意外情况下,例如电脑被偷了的时候)可以基本做到不丢资料,不损坏资料,(日程工作中)资料存放有较为清楚的条理。这里讲的东西例如文件备份、命名等很多听起来像是基本常识,但是真要做到却不那么容易,因此我把它们定为85分标准。这些就是这个单元主要关注的。

那么95分、100分的数据管理应该是什么样?很难说世界上存在一个完美的数据管理系统,科学史图书馆的结构和workflow也不能说是完美的,在我看来还有很多改进的空间。而且数据管理系统本身就需要随着研究的深入不断改进,并不存在一个一劳永逸的状态。但是如果要我说85分和95分的区别,那就是能否使你的研究数据管理系统不仅不拖后腿(不丢东西),而且带着你往前走。如果你的数据管理方法可以为研究带来新的灵感,新的资源和更高的效率,那就是一个杰出的数据管理系统。



在以下的单元中,我们就会涉及到如何在85分的基础上继续完善自己的数据系统。这里就主要是我个人在科学史图书馆的建设过程中总结出来的一些经验了。我之后将推送的课程第一单元会讲到我自己的研究数据分为哪几类。这里先剧透一下:



三 知识类数据管理

这里我主要会讲两个原则:


原则1: 同时收集Metadata和文件

原则2: 从“见”到“藏”,减少中转


参考文献

科学史图书馆本身就是一个管理知识类数据的例子。参见我们的Zotero主馆:

科学史图书馆在线版:首批20000+馆藏条目正式发布

科学史图书馆在线版使用指南

以及Notion数据库:

通向最前沿:科学史图书馆新书数据库

科学史图书馆电子资源与在线展览数据库正式发布

科学史图书馆申请/征稿信息数据库正式发布

还有一些公开的Zotero图书馆可以参考:

知识的台阶:12个Zotero上的开放数字图书馆


四 处理类数据管理

​如上面的剧透所示,这一单元主要围绕一些特定的数据处理软件展开。有一些软件是科学史图书馆一直在安利的,除了Zotero以外还有:

​Notion

Notion的个人数据库功能:档案查阅、资料收集的最好助手

模板分享:在Notion上度过的博士生活

Transkribus以及其他手稿处理软件:

识别手稿准确率95%的人工智能:Transkribus与人文研究的前景

用画动漫的app学习手稿:一些适合平板使用的资源|馆藏更新03

还有像离线检索引擎Foxtrot和我尚未来得及讲的Network Analysis工具Gephi等等。也欢迎大家推荐。

五 生产类数据管理

对我们学科来说生产类数据基本就是写作。作为参考文献,可以看一下我去年的经验总结:

一月一章:我在博士期间的写作方法

除了写作以外,演讲的PPT、图片和图表、教课乃至给别人的文章写的feedback,我都会划入生产类数据统一管理,详情以后会讲到。


六 我的收纳区:Allow some designated mess

​这一点也是很重要的,数据管理并不是说要让所有人变成强迫症,相反,要给自己留出“乱”的余地,才能有创造和改进的空间。允许一些特定地方是乱的,然后慢慢一点一点随着思考的推进把它们归入到有条理的地方去,这是数据管理过程的基础。


七 结语:数据管理与方法论 (Methodology)

这部分就纯是我根据自己研究内容和偏好的发挥了,可发挥的东西很多,但我也可能懒得写。还是主要期待前六个单元的实操内容吧。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存