学术资源|方修琦等:清代自然灾害信息集成数据库建设
作者简介:方修琦,1962年生,吉林人,北京师范大学地理科学学部教授,博士生导师。主要从事气候变化及其影响与适应研究。赵琬一,北京师范大学地理科学学部博士研究生。宋儒,中国人民大学清史研究所博士研究生。陈思宇,北京师范大学地理科学学部硕士研究生。叶瑜,自然地理博士,北京师范大学地理科学学部副教授。
摘 要:在数字人文研究背景下,为满足历史气候变化、灾害史、环境史等学科研究的数据需求,将历史灾害大数据与数据库系统、地理信息系统以及网络共享技术结合,以清代为中心建立了自然灾害数据库系统。本文介绍了“清代自然灾害信息集成数据库”首个版本的资料来源、结构与功能设计、网页平台建设等内容,并结合网页平台界面,介绍了数据库的数据存储、检索查询、统计分析、制表绘图等功能的使用及呈现方式。该数据库可为相关科学研究提供一个开放共享的交流平台,也可为历史灾害数据库的设计和建设工作提供参考。
关键词:历史大数据 自然灾害 数据库建设 清代
引 言
中国自然地理环境复杂,受季风气候影响显著,自然灾害种类多、频率高、强度大、灾情重。在中国悠久且连续的历史长河中,应对水、旱等各种自然灾害的威胁和挑战始终是社会发展的重要组成部分,相关记载史不绝书,也为现代历史灾害和气候变化研究提供了丰富而庞杂的灾害史料。20世纪20-30年代,竺可桢、邓拓等学者就已开始在挖掘和整理中国灾害史料的基础之上研究中国历史气候变化、灾害史。1949年后,在相关行政管理部门和科研机构的组织或资助下,我国对灾害史料挖掘整理的力度更是前所未有,不同研究团队在全国范围对流传下来的文献史料中的灾害记录和信息进行了大规模的搜集、整理和汇编工作,不仅包括水灾、旱灾、地震、潮灾、疫灾等自然灾害信息,也包括这些灾害的社会影响和人类因应的资料,并形成各种或专门或综合、或区域或全国的灾害汇编资料集。这些资料为相关生产建设和科学研究提供了有效的支撑。随着信息化时代的到来,数字化的灾害史料的挖掘整理更加便捷,被挖掘整理的灾害史料也越来越多,工作重点逐渐转移到如何有效地管理这些已被挖掘整理的灾害史料上。
自计算机技术普及之后,我国学者一直致力于探索如何进行历史灾害大数据的数字化、信息化管理,使其克服纸本资料集或地图集在容纳历史灾害记录方面的局限性,并能够长期、重复地被更多研究者使用,把研究者从查找和摘录原始灾害记录中解放出来,相应的,建设了一批与历史气候变化和灾害相关的数据库。早期的工作主要通过对灾害记录进行数字编码,解决储存空间有限的问题。例如,林振杰和郑斯中于1989年设计了一套编码程式以记录灾害发生的起始时间、地点、灾情种类及严重程度、参考文献等要素,并规定了标准编码表,以对大气圈、水圈、动植物、人类及政府响应等文字描述进行数字编码;郑景云等于1992年针对民国时期的历史档案设计了自然灾害史料数据库的结构,数据库主要包括地点、持续时间、天气状况、受灾程度、受灾范围、收成状况、人类响应措施、文献出处等字段,并提出对灾害史料逐条分解和统一编码的方法;王静爱等于1995年论述了中国自然灾害数据库的建立与应用,该数据库由中国自然致灾因子数据库、中国省级报刊所载自然灾害(1949~1990)数据库、中国农村自然灾害灾情数据库、中国历史自然灾害数据库和中国行政区划(县级单元)空间数据库五个子数据库组成。后期的数据库基于地理信息系统(GIS)技术,兼顾资料与数据的存储、检索、处理和空间分析功能,例如,国家气象局建设的“中国历史气候基础资料系统”、中国科学院地理科学与资源研究所建立的“历史环境变化数据库”、中国水利水电出版社的“中国经典水利史料数据库”等。这些数据库或在灾种选择方面较为有限,主要集中于水灾、旱灾、地震等几种重大灾害;或在史料来源方面有一定的局限性;或在自然与社会要素之间各有侧重。大体来说,已有的数据库,在数据库设计思路、子数据库结构、史料信息的字段编码处理、数据库功能等方面为未来的数据库建设提供了很好的借鉴和基础,但在灾害史料的丰富性与均一化处理、更完善合理的数据库结构、灾害指标序列的提取、自然灾害本身与人类响应过程信息的融合等方面仍有进一步探讨、发展的空间。主要表现在:(1)已有数据库,其目标所指均非灾害研究,因而在资料的取舍方面各有侧重;(2)数据源各不相同,所据资料或以自行整理的史料为主,或以他人的工作为前提,都有较大局限性;(3)现有数据库建设中未能体现资料校核、考证和比勘的过程,原始资料一经录入,一般不再进行校核、考证;(4)从原始资料整理到数据库之间缺少一个过渡环节,即原始文献资料的信息集成,难以实现真正的资源共享,形成资料基础的累积性机制。
依托国家社科基金重大项目“清代灾荒纪年暨信息集成数据库建设”(No.13&ZD092),中国人民大学清史研究所、北京师范大学地理科学学部、中国政法大学人文学院和南开大学历史学院等,以清代为中心,联合设计研发了“清代自然灾害信息集成数据库”。该数据库借助地理信息系统(GIS)和网络技术,集多源史料、科学处理、开放共享等多元功能于一体,全面收录涵盖灾害发生完整过程的记录和信息,亦即包括从天气、地质等自然变异现象到成灾过程,乃至对人类社会影响较大的综合性历史灾害大数据,能够更好地满足大数据时代下对历史自然变化(如气候变化)、灾害分异、灾害影响与应对、防灾减灾应用等多方面研究的资料需求。
一 “清代自然灾害信息集成数据库”的结构
(一)数据库概述
“清代自然灾害信息集成数据库”是“清代灾荒纪年暨信息集成数据库建设”项目的三项主要研究内容之一,另两项分别是编纂《清代灾赈史料长编》和撰写《清代灾荒纪年》。其中,《清代灾赈史料长编》是从清代的海量史料中挖掘和整理有关灾害的记载,以年代为经,以省区为纬,按正史、实录(含《宣统政纪》《东华录》等) 、政书、档案、方志、报刊、诗文集、日记以及其他文献等类别,依序排列史料,并按统一规范注明资料来源,以便查考。“清代自然灾害信息集成数据库”是以《清代灾赈史料长编》为基础建立的,是一个包括自然变动与社会响应等各方面信息在内的综合性的大型灾害信息集成系统,它与《清代灾赈史料长编》一起,构成一个动态的、与时俱进的灾害信息累积式扩展系统,任何在史料和研究上的新发现、新进展以及项目在有限时间内难以收罗的其他史料,均可随时输入其中。
“清代自然灾害信息集成数据库”基于全要素(涵括灾害在自然和社会层面的所有要素)、全灾种(收录所有记录的灾害)、全过程(关注灾前、灾时、灾后,以及时人的灾害认知等多方面情况)、全文献(实现与清代灾害有关的文献和实物资料的全面收录)、全功能(涵盖目前技术能够开发的各类功能)、全历史(创造条件将时段从清代扩展到整个历史时期)、全地域(按照历史时期的疆界处理史料和讨论问题)的原则建设,所收录的灾害信息,突破以往以单一地区、单一灾种为主要内容的资料汇编形式,力求将历年各省区市各类自然灾害包含其中,便于揭示各灾种之间的关联,从整体上反映灾害演变大势。在文献资料方面,最大限度地涵括正史、实录、政书、档案、方志、报刊、诗文集、日记以及其他各类相关文献中的灾害信息;在灾害类型方面,不仅包括水灾、旱灾、地震,也包括蝗灾、雹灾、潮灾、山崩、滑坡、泥石流、雪灾、火灾等各类灾害,还涵盖农作物异常丰收等特殊气候、物候现象; 在灾害内容方面,兼顾自然与社会两个方面,不仅包括自然灾害过程,也包括由此引起的社会变动和反应。
作为一个完整的清代自然灾害信息集成系统,“清代自然灾害信息集成数据库”由数据库和网页平台两部分组成 (见图1),是一个融资料的采集整理、存储更新、查询检索、校核比勘,以及数据统计分析、制表绘图、动态演示等多种信息处理功能为一体的巨大系统。整个数据库设计为一个开放式的公共交流平台,供相关研究者使用,同时希望相关研究者能够通过此平台之各个环节、各个层级,对数据库建设做出反馈,从而以一种互动的方式推动数据库的建设、维护和发展。
(二)数据库总体结构
“清代自然灾害信息集成数据库”的数据库是利用MySQL搭建的数据库,主体是原始记录库模块,预留可扩展的原始文献库和专题数据库等数据库模块。
原始记录库用于存储从各类原始文献中摘录提取的有关灾害的信息,由原始记录表和原始校核表两部分组成。其中,原始记录表是最主要的部分,它以每一条记录为单位,将提取出的灾害记录数字化,并将有关的信息分解为不同字段进行存储,从而可以通过灾害的类型、时间等信息进行检索查询、统计分析等。原始记录表中的每一条记录都可与原始文献库中储存的原始灾害文献相链接,以便必要时与原始文献进行对比、校核。原始校核表用于存储校核过的信息,每条校核过的记录与原始记录库中的对应记录建立链接。
原始文献库用于存储原始记录库中所摘录的有关灾害记录的原始文献,包括图片、PDF等数据类型,作为底层的资料库与原始记录库相互链接。其中对于收录的一些数据量十分庞大的史料,如某人日记、某灾害纪略等文献,可单独形成一个子数据库,作为原始文献库的一部分。
专题数据库是依据不同的研究主题,对原始记录库进行筛选、拆分、集成而派生出的数据库。其主题、时空范围都视研究者的目的而定,可以某个灾种为主题建立专题库,如台风专题数据库、洪涝专题数据库、干旱专题数据库等;也可以针对某一次重大灾荒建立专题案例库,如“丁戊奇荒”专题库等;还可以某一政区单元或某一朝代建立专题数据库,如山西省专题数据库、乾隆朝专题数据库等。专题数据库的建立一般经过从原始记录表到派生数据表再到合成数据表三个步骤。原始记录表是从原始记录库中,按照一定的标准筛选、整理而成的;派生数据表是由原始记录表生成的中间层,分别与原始记录表和合成数据表相链接,将原始记录表中的每条记录进行拆分、量化,还可依据研究目的增减字段,具有较高的灵活性和较大的操作空间;合成数据表是由派生数据表生成的,为了实现定量指标序列提取、空间分析等功能,需要在属性数据和空间数据间建立一一对应的关系,因此对同一时间、同一地点的多条记录,要从记录内容、资料出处、时空关联等方面进行比较、拆补与剔除,最终将其合成一条记录。
(三)原始记录表的结构
原始记录表存储原始记录库中所摘录的灾害记录,是数据库的核心所在。将从灾害史料中所提取的原始记录中的文本信息尽可能准确、完整地转换成现代信息技术所需的数量指标,既是数据库正常运转的前提,也是用户通过数据库顺利获知有关信息的保证。
原始记录表将所提取的每条原始灾害记录所展示的信息划分为原始信息、基础信息、灾害信息、文献信息和辅助信息五类,每类又可进一步细分为若干字段,一共有29个字段(见表1)。
1.原始信息
原始信息共包括5个字段。“原始记录内容”是整个数据库的记录核心,它将原始文献中涉及灾情、救灾、备灾等的记录均完整抄录存储,若原文缺具体的时间、地点等信息,但可借助其他证据进行推断,则予以补充;若原文中确有明显的错、漏、衍字,则予以校正。经过考证进行补充、修改的信息也一并记录其中,并在“考证备注”栏内说明。“题名”记录档案、报刊、文集、笔记、方志、碑刻等史料中有关文献的具体篇名等。“作者”指各条记录明确提及或通过考证确认的作者,包括相关奏疏的奏报人,报刊通讯、时评及论文的作者,方志艺文志收录的诗文作者等。“提要”是对原文主要信息的概括和分类,分灾害类型、灾情、救灾备灾三大类。针对“关键词”字段已建立了《原始记录主题词表》,可对应填写,不局限于灾害类型和灾害过程。
“原始记录内容”摘录于清代涉及灾害发生、影响及应对等方面的各类原始文献,包括清代已刊或后世整理的纸质出版或数字化的文献等,主要包括九大类。
(1)正史类,如《清史稿》。
(2)实录类,包括顺治至光绪朝历代帝王实录、《宣统政纪》以及《东华录》等。
(3)政书类,包括记载清代典章制度和政务活动的各类政书,如《清朝通典》《清朝通志》《清会典》等,以及以灾荒为中心内容的荒政书——《中国荒政书集成》等。
(4)档案类,包括各种综合或专题、清宫或地方的档案资料,如《上谕档》(乾隆至宣统朝)、《清代干旱档案史料》、《西藏地震史料汇编》以及“国家清史工程数字资源总库”中的档案资料。
(5)地方志类,包括各地县、府、省级的方志资料,其“灾异”、“祥异”、“恤政”、“河渠”、“人物志”、“艺文志”等部分都可能有灾害相关记载。主要来源于《中国方志丛书》《中国地方志集成》中收录的方志,以及各种网络资源,如“中国数字方志库”、“中国方志库”(爱如生数据库)等。
(6)报刊类,主要包括近代各类中英文报刊,除价值最高、信息最丰富、时间连续性最长的《申报》外,还包括《万国公报》《东方杂志》《中国丛报》等,以及网络资源如“晚清期刊全文数据库(1833-1911)”。
(7)诗文集类,包括各类清人文集,如《清代诗文集汇编》《皇朝经世文编》《曾国荃全集》等。
(8)日记类,主要来源于已出版的《历代日记丛钞》及网络资源“近现代日记全文检索数据库”。
(9)其它类,内容庞杂但同样是重要的资料来源,包括各地碑刻、清人传记、谱牒、外文史料等。
2.灾害信息
灾害信息提取了与灾害直接相关的信息,包括“灾害类型”、“灾害过程”和“灾害级别”3个字段。前两者采用数字编码,存储原始记录中记载的所有灾害类型及过程。
灾害类型按照现行自然灾害划分的国家标准(GB/T 28921-2012)进行划分,包括气象水文灾害、地质地震灾害、海洋灾害、生物灾害、生态环境灾害、人为灾害、其他等;此外,还根据中国史料记载的内容,增加了“异常现象”、“不明原因的灾、荒、歉”以及非灾害年份中的“大有年”(农业丰收年)3种特殊类型,一共可分为9类38种,每种灾种规定了对应的数字编码(见图2)。其中,“异常现象”包括天文、气象、水文、地貌等方面,例如太阳黑子、
日食、气温异常(冬暖春热)等与灾害并不直接相关的现象。“不明原因的灾、荒、歉”和“大有年”均属于对收成情况有异于平常年份的记录,且从原始记录中不能判断收成异常的原因。将灾害发生的自然过程、影响以及响应等过程共划分为异常现象、致灾过程、灾害影响、灾害防备、灾害应对、灾害认知及其他七个环节(见表2)。“灾害级别”字段为预留字段,在原始记录表中暂未填写。
3.文献信息
文献信息部分共包括5个字段,其中“史料类型”与数据来源中的九大类史料相对应,以数字编码的形式存储,分别是:01-正史、02-实录、03-政书、04-档案、05-方志、06-报刊、07-诗文集、08-日记及09-其它。“直接来源”和“原始出处”分别以一定的标准格式标注了原始记录的出处。“直接来源”系后人整理或影印的涉及清代原始史料的文献,如《清史稿》《清实录》《中国地方志集成》《中国方志丛书》《中国荒政书集成》《中国三千年气象记录总集》,以及已出版的清代各类档案汇编等,并标明纂修者、文献名、卷册、出版社、出版时间及页码。“原始出处”为直接载有著录信息的原始文献,如某地方志、某文集、某报刊等的原件或目前可见的最早版本,均标明该文献的修撰者、文献名、卷册、原始页码、版本。“考证备注”用于标注历史记录录入及处理过程中的增减、修改、补充、校核等过程,以便查验。“原始文献链接”为与原始记录库(文件夹)链接地址,它的功能是可在原始记录库和原始文献库之间建立链接,使每一条原始记录都能找到相对应的原始文献文件。
4.辅助信息
辅助信息部分共包括4个字段。ID1为系统自动生成的ID,具有唯一性,用于在原始记录表和原始校核表之间建立链接。KeyID是由成灾年份和史料类型组成的6位数字,作为每条记录的特征码。“预留字段”是为功能扩展预留的空间,“责任人”则记录参与处理该条数据的所有工作人员。
(四)网页平台
“清代自然灾害信息集成数据库”的网页平台主要用于将数据库所收录数据通过互联网技术实现在不同用户群体中的交流共享。该平台以PHP作为脚本语言搭建,具备简单便捷的操作界面、不同尺度的共享权限、直观的数据输出方式等特点和功能,还针对用户需求对数据库的运行环境、开发平台进行升级和调整,开发出可实现多尺度共享的网页界面。网页平台也可以随着版本升级更新变化,其界面也可随之发生改变,以实时实际的界面为准。
1.用户登录
“清代自然灾害信息集成数据库”的使用者可通过服务平台主页面的“用户名”和“密码”远程登录系统。服务平台对管理员账户和用户账户设置了不同的权限。管理员账户享有数据库全部信息,可对数据库进行增删维护;用户账户享有包括文献记录原文、简单时间地点信息、文献所记录的灾害信息和文献本身的版本、来源信息在内的数据库信息。
用户登录成功后,根据权限的不同,选择进入“检索”界面或“管理”界面,以实现对灾害记录的查询检索、统计分析、留言纠错、数据维护。此外,平台在“帮助”界面提供了数据库的使用说明,供用户参考使用。用户使用结束后,可点击“注销”按钮注销账号(见图3)。
图3 “清代自然灾害信息集成数据库”界面
2.检索界面
用户可选择进入基础检索或高级检索界面进行检索。在基础检索界面,在“检索类别”中下拉选择“时间”、“地点”和“关键词”中任意一项进行检索,在“检索内容”框中输入相应的检索内容,点击“检索”按钮,即可得到满足相应条件的检索结果。在高级检索界面,可以在多项检索字段下框内输入相应的检索内容(见图4),得出同时满足多个检索条件的交集结果。
检索到的记录生成一个临时性的数据表,在每条记录的末尾,有报错选项,用户可以点击反馈该条记录中的错误。
检索得到的记录可以直接进行复制粘贴,统计分析后的图表结果也可储存为png、jpg等格式保存到本地文件夹。
图4 “清代自然灾害信息集成数据库”高级检索界面
3.管理界面
管理界面主要用于平台管理人员添加和修改数据,并对用户反映情况进行反馈。管理者可通过此界面添加数据,既可逐条添加或批量添加,亦可对发现的错误数据进行修改完善,还可以创建并分享专题数据库,不断丰富和拓展专题数据库的数量和内容。
二 检索结果的呈现方式
利用“清代自然灾害信息集成数据库”,用户可实现对清代灾害记录的查询检索、统计分析、制表绘图以及下载存储。用户可按时间、地点、灾害类型、史料类型等字段中的一项或多项进行简单检索或高级检索,以查询出满足目标要求的灾害记录。检索得出的结果有“史料”、“地图”和“统计”三种呈现方式,点击页面上的“史料”、“地图”或“统计”按钮,即可切换到相应的结果显示页面,对灾害信息的空间、数量等特征进行直观的可视化呈现。
(一)史料检索结果记录表
在“史料视图”下,以数据表的方式显示所有检索得出的史料记录(见图5),检索结果默认为KeyID的升序排列,无朝年的史料置于最前面。并可通过勾选想要显示的字段,或取消勾选需要显示的字段,改变检索结果中显示的字段。该数据表同时提供了报错功能,每条记录的末尾有报错选项,用户可反馈该条记录中的错误,实现用户和管理员之间的互动。
图5 清代自然灾害信息检索结果的数据表显示
(二)地图视图
“地图视图”以省(区、市)为单元统计检索得出的灾害记录数的地理分布,显示灾害记录数量的空间分布。底图使用由国家测绘地理信息局监制的1:2000万的竖版中国分省全图。“地图视图”下,阴影部分为有相关的灾害记录分布的省(区、市)(见图6),但并不限于灾害发生地,受灾害影响或参与灾害应对等环节的省(区、市)同样显示其中。
图6 清代自然灾害信息检索结果的地理分布
(三)统计视图
在“统计视图”下,用户可以统计在一定时间段内逐年的不同类型灾害的记录条数,并用时间序列图和统计表的方式显示。可选择“时间”、“省”和“灾害类型”其中一项,进行进一步筛选,筛选的结果就会在统计表中显示,如在“省”一栏下拉选择“广东省”,则统计表中显示检索结果内有关广东省的不同年份和灾害类型的记录数量,筛选后的统计结果在时间序列中也同步显示(见图7)。
图7 清代自然灾害信息检索结果各类灾害记录数量的逐年统计
结 语
基于MySQL平台、PHP网络脚本语言并结合地理信息技术,我们建成了“清代自然灾害信息集成数据库”。数据库的结构和存储字段针对史料中自然灾害的记录特点而设计;并兼顾不同学科的研究需求,提取了全灾种、全要素、全过程的灾害信息。为相关研究提供了强大的资料基础和信息平台,也为其他历史灾害数据库的建设工作提供了可参考的数据集成、管理与共享的方法。
数据库的结构及功能设计主要有以下几个特点。
(1)数据库采用三层结构设计,以层层递进的方式将原始文献、记录信息提取、专题记录集成三种数据分别存储在原始文献库、原始记录库及专题数据库中。三个数据库之间相互链接,既可向下派生,也可向上印证校核,形成了一个灵活且严谨的数据库系统。
(2)数据库的网页平台主要基于数据库的中间层——原始记录库而建立,使用数据库的研究人员可针对每条灾害记录进行反馈,也可对检索到的灾害进行再处理,建设自己的专题数据库,以实现数据库管理者和使用者之间的良好互动,共同促进数据库的长久建设与维护。
(3)“清代自然灾害信息集成数据库”不仅是一个资料共享平台,而且具有数据的统计分析、制表绘图、动态演示等功能,实现文本与图谱的有机结合,为数据库在科学研究以外的领域,如灾害教育、科学普及等领域内的应用提供了可能。
【本文为国家社科基金重大项目“清代灾荒纪年暨信息集成数据库建设”(13&ZD092)阶段性成果。本文刊载于《社会史研究》第9辑,社会科学文献出版社2020年10月版,第29—46页。篇幅有限,注释省略,详情请查阅原文】
来源 | 社会史研究;著作权及版权归原作者及原平台所有。
READING往期精选