“数据”与史学研究——抗日战争与近代中日关系文献数据平台介绍
基础设施
罗 敏 / 中国社会科学院近代史研究所
----------------------------------------------
摘 要:“抗日战争与近代中日关系文献数据平台”(以下简称“数据平台”)是由中国社会科学院近代史研究所主持建设,秉持“公益”“共享”理念的整合型数据库。自2017年下半年上线试用以来,“数据平台”可供全网免费阅览、下载的晚清民国时期报纸已有830种,期刊突破2,300种,图书23,000余册,图像数据总量已超过1,500万页。与现有若干中国近现代史相关的大型数据库相较,“数据平台”在数据体量与检索便捷性上都有其独特的优势,可以视作大数据时代下研究型数据库的初步尝试。
关键词:抗日战争与近代中日关系文献数据平台 免费数据库 大数据
----------------------------------------------
历史学是一门高度依赖材料(sources)的学问。中国近代著名学者胡适就曾说过,“有几分证据,说几分话”[1],扼要地道出了史学与史料的关系。
不过,胡适此言针对的是史学研究中缺乏直接证据的空谈,并非为束缚研究者的手脚,使研究者为史料所困;相反,正因为材料的极端重要性,更要求研究者尽可能地去扩充材料,甚至要有“上穷碧落下黄泉”地穷尽可获取史料的精神。
不可否认的是,随着近十几年电子计算机、信息化技术的高速发展与全面普及,史料的载体不再拘泥于纸本与实物,各类形态不一的电子资源日渐成为学者们著书立说的材料基础。“找材料”这一过程也相应发生了改变。相较十多年前,研究者如今更多的是在电脑前动动鼠标,在自己的硬盘或各类商业、公益数据库中,找寻相关材料,而花大部分时间在图书馆的某个角落里扒拾积灰发霉纸书的学者已经变得越来越少。可以说,专业数据库俨然已成为研究者的“第二图书馆”。
“抗日战争与近代中日关系文献数据平台”(http://www.modernhistory.org.cn)从设想、规划,到启动建设,再到如今上线试运行,已逾两年(数据库在体量与质量上仍在不断提升)。身为团队中的一分子,在工作及与团队成员的交流中,对“数据平台”的缘起、宗旨及目前的优点与不足有了一定的认识。而且,通过参与“数据平台”的建设,笔者不仅粗浅了解了与数据库搭建相关的信息技术,并且对新时代下史学研究与数据的关系也有了新的体认。故借此机会对“数据平台”作一初步介绍,以期与学界同仁与广大平台用户分享我的经验与思考。
一、“数据平台”之缘起与宗旨最初提出建设“数据平台”设想的是中国社会科学院近代史研究所已故前任所长步平先生。与一般商业数据库不同的是,步先生构想的“数据平台”不是由出版社或数据库公司负责,而是由研究机构直接主持,旨在尝试突破既有的数据库商业模式,更好地为研究人员提供数据资源服务。除了由研究机构直接策划、建设这一新兴模式外,步先生还反复强调“数据平台”须秉持“公益”“共享”的理念,从而使史料数据真正成为学术之公器,进一步推动整个近代史学科的发展。自“数据平台”上线推出以来,步先生提出的由专业研究机构主导、走“共享”“公益”路线一直是其两大突出特点。
2016年5月,步所长在与病魔斗争期间亲自修订了“数据平台”的相关申报材料,在生命最后阶段还为史学研究的未来贡献力量。2016年6月,“数据平台”的建设,作为国家社科基金“抗日战争研究专项工程”正式立项。在全国哲学社会科学规划办公室领导下,“数据平台”由中国社会科学院、中国国家图书馆和中华人民共和国国家档案局合作筹建。中国社会科学院副院长李培林研究员主持项目。近代史研究所则具体负责平台建设,百度公司提供技术支持和维护。
由“抗日战争与近代中日关系文献数据平台”这一命名可知,“数据平台”是以抗日战争相关文献为核心。以抗日战争与近代中日关系资料为“数据平台”的一个亮点,主要有如下考虑。
首先,近代以来,中日关系错综复杂又极为重要,甲午战争、抗日战争等标志性事件都深刻影响了中日两国的发展,挖掘保存抗日战争与中日关系史料的意义也就尤为重大。其次,就学术层面而言,抗日战争史与近代中日关系史又是中国史学科中的重要组成部分,能够衍生出不可胜数的研究课题。抗日战争作为中华民族的历史记忆,越来越得到国人的重视。无论是政府层面还是研究机构,抑或民间团体,都在努力抢救、保有这份重要的民族记忆。而这段历史更亟待让全世界各国人民了解与熟知,因而更需要一个整合性、公益性开放的资源平台,而不单单是一个受众面较窄的纯学术数据库。
再者,相对而言,国内近代史研究中,抗日战争史、近代中日关系史的研究尚属薄弱,其中一个最主要的原因就是研究资料的获取与使用非常不便。抗战时期的图书、期刊、报纸、档案等分散于全世界各地。而战时生成的文献史料,由于纸张和印刷质量往往较差,现在的保存状态也十分堪忧。多种主客观因素,导致史料传播与挖掘的滞后。目前,作为当时侵略国的日本,实际上早已免费推出开放了近3,000万页档案图像的“亚洲历史资料中心”(以下简称“资料中心”)(アジア歴史資料センター,https://www.jacar.go.jp);而作为战胜国的中国,国内还难有与之相匹敌的抗战文献数据库,实为憾事。因此,打造一个能够涵盖海内外有关抗日战争与近代中日关系的综合性文献共享平台与学术交流平台,具有巨大的学术价值与现实意义。
不过,需要强调的是,抗日战争与中日关系文献只是平台主打的特色资源,整个“数据平台”从推出伊始便旨在全力囊括19世纪末至1949年中国的文献史料,并不限于抗日战争或中日研究本身。抗日战争史、近代中日关系史不可能独立于近代中国的时空而存在,而是与晚清民国时期各方面息息相关,收集抗日战争、中日关系文献自然也要眼光放宽,将整个近现代中国文献纳入进来。其次,如果自设藩篱,仅收集“抗日战争文献”而不顾旁的,“数据平台”则仅为一专题库,发展空间有限,也很难跟上大数据时代的潮流。因此,它不仅仅局限于抗日战争与中日关系。整个晚清民国时期的重要文献资料,都被尽力搜集、整合、上传至“数据平台”,呈现给海内外的读者。
就文献类型而言,我们除搜集整合晚清民国时期的公开出版物(图书、期刊、报纸三大类)外,还着力于汇集1949年以后整理产生的各类档案、研究文献、影像资料、史料集等。1949年以后,在海峡两岸,以及日本、美国等海外中国近代史研究重镇中,不少档案馆、研究机构都曾花大力气整理出版大量近代史料文献汇编。其中,不少汇编资料价值极大,至今在研究者中有相当高的利用率。“数据平台”收录1949年至今整理出版的部分资料集,不仅方便研究者使用,而且避免了重复劳动,提高资料收集的效率。
“数据平台”将搜集到的材料进行分类、整理、编目、数字化转制与修复,整个过程由有历史学、信息技术等相关专业背景的研究生负责处理,以更有效地降低错误率,提高数据质量。尔后,团队再与百度公司对接,将所有处理完成的史料文献以“数据平台”的形式呈现在互联网上,免费向全球开放。使用数据平台的用户,不用注册便可轻松浏览全部公开的高清图像(150DPI)。如需下载300DPI图像,只要注册一个免费账号即可,每个账号每月可下载2,000页图像。
图1 “抗日战争与近代中日关系文献数据平台”首页(http://www.modernhistory.org.cn)
与目前世界上几个较大的在线数字典藏库相比,“数据平台”虽然仍在起步阶段,但优势与特色仍十分明显。为方便比较,此处需要简要介绍一下海内外若干与中国近代史相关的数据库。
目前,无论在体量还是在开放程度上,最出类拔萃的在线数据平台之一,仍是前文提及的日本“资料中心”。“资料中心”于20世纪末开始筹划,2001年作为日本国立公文书馆的一个部门正式成立。该“资料中心”在线免费开放国立公文书馆、外务省外交史料馆、防卫厅防卫研究所图书馆收藏的部分电子资料。这些档案史料的时间跨度是从明治初期到太平洋战争结束为止,内容主要与亚洲有关。据该“资料中心”推测,现有资料以图像数据计算,已超2,800万个图像,并且还会陆续更新上传新近扫描的档案。“资料中心”不仅涵盖几个机构的档案资料,提供可免费阅览、下载的高清图像,而且提供细化的档案卷宗。每卷档案被拆分为若干个文件,每个文件都有摘要,搜索摘要内容亦可命中,用户使用体验十分友好。美中不足的是,该“资料中心”仅整合了公文档案,同时期相关图书、期刊、报纸、影像等则付诸阙如。
另一家与中国近代史密切相关的,以档案免费开放为目标的大型数据平台,则是中国台湾地区的“国史馆档案史料文物查询系统”(以下简称“史料系统”,https://ahonline.drnh.gov.tw)。该“史料系统”自2017年改版以来,正式向全世界免费开放在线浏览;2018年伊始又开放下载,尤为便利。“国史馆”主要贮藏所谓“中华民国总统”“副总统”史料、各“院部”档案等,囊括了大陆时期以及迁台后的各类公文档案。不过,该“史料系统”同样是单一档案类而非综合性的平台,且目前公开档案约在300万页,相较“资料中心”,在体量上仍略显单薄。
“抗日战争与近代中日关系文献数据平台”同样旨在将没有版权限制或纠纷的史料、档案无偿地开放给全世界的读者,但是“数据平台”的资源更具有多样性,并不限于档案,特别是在晚清民国书籍、期刊、报纸上颇具特色。
提及晚清民国期刊,上海图书馆推出的“晚清民国期刊全文数据库(1833—1949)”(以下简称“全文数据库”,http://www.cnbksy.com)是目前全世界范围内中国近现代期刊数据库中的领头羊。自2009年正式上线以来,基于上海图书馆馆藏文献,“晚清期刊全文数据库(1833—1911)”已收录期刊520余种,文章53万余篇,“民国时期期刊数据库(1911—1949)”则收录了期刊25,000余种,文章1,000余万篇,涵盖了晚清、民国时期出版的绝大部分期刊,堪称巨量。不过,该“全文数据库”首先是商业开发的收费数据库。目前仅部分经济条件许可的大型研究机构与高校图书馆购买了此库,而且绝大多数只是部分购买,这就大大限制了受众。“全文数据库”将期刊文献按上线先后顺序,分为若干辑。据笔者有限的观察,绝大部分用户机构可能仅从中挑选几辑购买使用,很难做到全部购买。其次,“全文数据库”隶属于上海图书馆“全国报刊索引”。除期刊外,上海图书馆确在致力于近代报刊的数据库开发,但目前规模似不如期刊类。晚清民国时期图书的数字化也较为滞后。与“抗日战争与近代中日关系文献数据平台”相较,文献多样性上存在劣势。
近期,国家图书馆出版社也推出了整合性较高的“中国历史文献总库”(以下简称“总库”http://mg.nlcpress.com/library/publish/default/Login.jsp),虽然目前可供阅览的文献仍以民国时期图书为主,但在数量上具有绝对优势。目前该“总库”中已有18万种民国图书,总计3,200万余页。其中,不少还是孤本与珍稀文献。遗憾的是,“总库”同样是收费数据库,且目前只供研究机构购买使用,绝大部分研究者短期内恐难以受惠。
综上言之,“数据平台”因刚刚推出试用两年的,在数据体量上与海内外大型数据库相较,目前可能仍不占绝对优势,但是作为一个多类型文献的整合型数据库,如果稳步发展,其前景必定优于单一类型的数据库,可称得上是大数据运用在文科研究型数据库中的先锋。此外,“数据平台”有别于商业收费数据库,始终秉持互联网时代“公益”“共享”的宗旨,向全世界读者承诺永久免费浏览与下载;不仅现在如此,即便将来数据量日益提升,网页不断改进,“数据平台”“公益”“共享”的追求是不变的。
图2 “抗日战争与近代中日关系文献数据平台”优势要素
截至2019年6月,“数据平台”已经上线的晚清民国时期报纸830种,期刊突破2,300种,图书23,000余册,此外还包括图片、音视频等资源,如以图像数据计算,总数已超过1,500万页。近期,“数据平台”建设团队的重心放在近代报纸的数字化与线上公开上,力求先在报纸上突出亮点。
“数据平台”目前公开的报纸文献,兼具著名大报与地方小报特色。从报纸内容与类别言,近代中国的四种“大报”——《申报》《大公报》《益世报》与《民国日报》均已上线。近代上海出版的各类小报、画报,包括《福尔摩斯》《金刚钻》等,也已经可以在线阅览、下载。此外,“数据平台”还推出了中国共产党发行的《红色中华》《解放日报》《晋绥日报》等20余种重要党史文献。而国民党及其他党派主办的报刊,如《中央日报》《民吁日报》《醒狮》《青年中国》等,也能在“数据平台”中找到。伪满洲国与华北、华中、华东沦陷区的各种日伪报刊,我们也努力收集、整合,上线了近30种。
从报纸地域分布而言,目前上线的近代报纸的出版地涵盖了北京市、上海市、天津市、重庆市、安徽省、福建省、广东省、河南省、黑龙江省、湖北省、湖南省、吉林省、江苏省、江西省、辽宁省、山东省、山西省、陕西省、四川省、云南省、香港特别行政区等20多个省级行政区。“数据平台”还收录了几份海外的华文报纸与国内出版的西文报刊,如《大汉公报》《诚报》《北华捷报》与《字林星期周刊》等。地方报纸的大量上线,是“数据平台”报纸库的一大特色。这些地方报纸分布在中国许多中小城市,而非省会城市,更能体现出地域性与市民生活的面貌,例如《徽州日报》(安徽省黄山市屯溪区)、《嘉陵江日报》(四川省巴县)、《新民日报》(河南省许昌市)、《新民日报》(安徽省池州市贵池区)等。这些地方报纸的上线,为深化中国近代地域史、社会史研究提供了极具价值的史料。另外,平台尚有诸多贴近社会、日常生活与专门技术的报纸,涵盖电影、戏曲、儿童、妇女、经济、军事、文教、宗教、科学、无线电、航空、医疗卫生等方面,类型繁多。
在开放使用的两年中,“数据平台”增加了多种期刊,至今已突破2,300种。期刊的数字化制作与上传,不仅在数量,而且在种类与地域分布上亦与平台上线的报纸相媲美,甚或在个别点有所超越。例如,“数据平台”将期刊篇目完整录入,以便于更细致的搜索。这一点看似与上海图书馆“晚清民国期刊全文数据库”相比无甚亮点。但是,上海图书馆的“全文数据库”篇目与刊物的关联被打破。用户在进行关键词搜索时,仅显示命中的篇目。如若进行二次筛选,进入某个特定刊物,其卷期顺序同样是散乱的。以命中率高低为唯一标准,其实无意中隐去了不少潜在的关联性与时间性,使“全文数据库”成为一个纯粹关键词检索导向(key word search oriented)的篇目数据库。“数据平台”则是将篇目与刊物关联,保留其中的历史感。例如,在期刊类下,我们以“持久战”为关键词进行搜索,“数据平台”首先呈现的并非命中关键词的篇目,而是所有包括相关篇目的期刊(包括《解放》《解放周刊》《全民抗战》《中国农村》等23种刊物)。然后,进入各期刊中找寻带有关键词的具体篇目,篇目仍是在其所在卷期中呈现,做到便于关键词检索的同时,尽量保持历史文献的原貌。
此外,“数据平台”近期上传的书籍、稿本中,最突出的是中国近代藏书家刘承干的《求恕斋日记》。《求恕斋日记》起于1900年,止于1962年,跨越半个多世纪,详细地记录了一位中国近代士绅对于辛亥革命、北伐战争、抗日战争与新中国成立的观察与思考,并为研究中国近代的学术、思想、文化、经济、政治与社会提供了许多鲜活的细节性资料。这里值得一提的是,所有晚清民国图书都录入了完整目录,并导入“数据平台”的关键词检索库中。
总之,“数据平台”的所有图书、期刊均支持文献基本信息与完整目录的关键词检索。因规模巨大,全文检索在短期内可能难以实现,但上述内容全字段检索已突破现有大多数历史学数据库的检索粗放的局限性。目前,中国社会科学院、北京大学、中共中央党校、南京大学、武汉大学、山东大学、复旦大学、东北师范大学、南加州大学、乔治·华盛顿大学等20余所海内外院校及地方公共图书馆网站陆续收录了“数据平台”,提供访问链接。并且,可以预见的是,未来偏远地方院校与公共图书馆将是使用平台的主力之一。“数据平台”的公益属性将大大促进学术资源的公平配置,消除地域性的障碍。
此外,“数据平台”有一个待未来进一步开发的特色——发展以研究专题为核心的用户导向的(researcher-oriented)“研究型”数据库。现在我们在这一思路指导下,正在开发并初具规模的是“红色文献”专题版块。该专题集中展示了从1919年到1949年有关中国共产党的各种文献资料。“红色文献”不是一个独立的史料类型版块,而是在一个主题下汇聚不同种类文献的总和,是我们向“研究型”数据库探索的初步尝试,给史料文献进行简单的标注。如果说“数据平台”汇集大量可视化文献,是从数据向规模化的数据集迈进,那么标注文献便是将数据集进一步开发为结构性的数据集。可以预计的是,将来能呈现更多诸如南京大屠杀、平型关战役、滇缅战场等不同的专题。并且,平台努力的方向是让每一个使用者都能定制自己感兴趣的专题库,成为真正互动性的个性化研究数据库。
“数据平台”建设至今,版权问题一直是困扰其进一步发展壮大的因素。虽然“数据平台”绝大部分文献是过了版权保护年限的公版文献,但是取得中国国家图书馆、中国社会科学院图书馆、各档案馆等单位授权的文献占比仍然不少,目前仍有大量未能公开上线,只在内部暂做著录整理工作。如中国社会科学院近代史研究所档案馆典藏的胡适档案、顾维钧档案等,史料价值极高,但由于版权与相关协议限制,目前暂不能公开发布。因而,“数据平台”公开档案类文献目前仍是空白。此外,随着项目的开展,今后需要大规模购买各类已出版的档案文献、资料汇编等。这部分文献基本都是由各级政府财政资金资助出版,出版社拥有出版权。所有这些文献史料的开放,只能有待来日。
舒健主编:《大数据时代的历史研究》
首先,令人惊喜的是,近几年涌现出的多个与历史学相关的研究型数据库,不仅数据体量颇大,而且个别还突破了单纯为学者提供储存与检索功能的模式,朝着提供问题主导的结构化数据的方向发展[4]。当然,会上介绍的绝大多数数据库都是单一类型史料库,或者是纯粹问题导向的个性化数据库,真正与大数据时代意义相吻合的整合性数据库仍有待来者。不过,数据的结构化处理,以及与研究问题意识相关联,这些做法本身便在史学领域具有跨时代的意义,也是大数据理念的部分反映。
其次,作为近年来国内讨论大数据对史学研究影响的大型会议,其基调实际上仍是一种平衡的中间路线。一方面,多数与会学者认可大数据对史学研究有一定促进作用,但仍有“警惕”的声音,对大数据的意义持“谨慎的乐观”(cautiously optimistic)态度。部分研究者提交论文的字里行间,流露出对大数据时代可能使史学研究者过度依赖数据,堕入数据的陷阱之中的担忧[5]。必须承认,从某种程度上说,人文学者谈论的大数据与技术领域中的大数据仍有较大的差距。大数据最初的定义是“传统数据处理应用软件无法有效处理的巨量而繁杂的数据集”,而现如今更意指“趋势分析”“用户行为分析”或是“其他高级数据分析方法”[6]。技术领域中的大数据强调的是先进的分析手段,而人文学科大多实质仍是聚焦在“资料的收集”方式上。乐观者倾心于便利的资料索取,谨慎者担忧各类“数据库”搜索结果的有效性与代表性,担心过度依赖数据检索使人文学者疏于文本分析。无论乐观者还是谨慎者,实际似乎都误判了大数据在人文研究领域的趋势前景与未来性的意义,未能着眼于数据本身的分析、结构化处理等具有的潜在研究范式转换的意义。
毋庸置疑,数字技术对人文学科的渗透已有相当之程度,不仅技术上改变了资料找寻与研究写作的模式,而且已经悄然改变人文学者的思考方式与思维模式[7]。单纯为人文学科的纯粹性与数据的有效性而拒斥数字技术与信息科学在史学领域的运用,似已无必要,而仅将数字技术视作便捷的储存方式与检索技巧也只是其中最为基础的一步。
事实上,史学领域,中国古代史学科在追赶大数据时代潮流中已领先一步。中国历代人物传记资料库(China Biographical Database Project,简称CBDB)即是代表。中国古代史学者借助GIS(Geographic Information System)、SQL(Structured Query Language)等基本技术,已经从史料单纯的电子化向结构性的数据化,即对数据的特殊性、研究性的分析迈进。中国近代史领域,由于史料的几何数量增加,基础性的电子化似仍“前途漫漫”。对大数据的隐忧不能让我们“因噎废食”,恰恰是数据(电子化的史料)积累的不够才使人文学者对数据产生不信任感。
中国近代史领域为迎接大数据时代的到来,首要的是史料的巨量收集与电子化,使之构成值得分析的数据集。也有学者认为,第一步是形成混杂的大规模数据集(messy big data),第二步便是努力由问题意识出发,向小而精的数据集(clean small data)推进[8]。由第一步向第二步推进,并不是某些论调认为的抛弃人文传统,弱化辨析思维。研究者通过必要的技术辅助与研究型数据库的支持,将数据形成某些内在的逻辑联系与结构,这一过程本身与传统的人文思维相得益彰。譬如,“中国历代人物传记资料库”在改进过程中,逐步增加了复杂检索的功能,包括亲属关系、群人之间社会关系、空间属性等。这种复杂关系网络的呈现,看似简单,但实际上是历史学、社会学等学科问题意识、思维路径,以及信息技术共同努力的成果。单纯依赖技术而没有人文学者提出问题导向的使用需求,研究型数据库是无法诞生的。但若只有问题而无信息技术的辅助,研究者便只能回到翻阅卡片的年代,穷尽一生都可能无法看出现如今鼠标点击数次即可呈现的史料间的隐秘关联。
“抗日战争与近代中日关系文献数据平台”便是朝着最初的一步努力前行。尽管史料的大量汇集与电子化仍是“数据平台”当前阶段的重点,但是大数据与大数据技术在史学领域的应用与融合,是本平台的最终关怀。目前阶段是数据检索细化到目录,加上时间与关键词等筛选。此后,“数据平台”借助日益先进的光学识别技术(Optical Character Recognition,简称OCR)与平台合作方百度公司的先进计算能力,在不远的将来真正实现电子化向数据化的跨越并非不可能。届时,“数据平台”也许能进一步为史学研究带来新视角与新生命。
编 辑 | 许可
向上滑动 查看注释:
[1]罗尔纲:《师门辱教记》,香港:图南出版社,出版时间不详,第52页。
[2]舒健主编:《大数据时代的历史研究》,上海:上海译文出版社,2018年。
[3]《史学月刊》编辑部主编:《大数据时代的史料与史学》,北京:人民出版社,2017年。
[4]赵思渊:《地方历史文献的数字化、数据化与文本挖掘——以中国地方历史文献数据库为例》,舒健主编:《大数据时代的历史研究》,第66—79页。
[5]从论文集总体把握,《大数据时代的历史研究》较《大数据时代的史料与史学》更为积极地看待数据在史学研究中的意义。
[6]引自维基百科:https://en.wikipedia.org/wiki/Bigdata。
[7]N. Katherine Hayles“, How We Think: Transformation Transforming Power and Digital Technologies,” in Daivd M. Berry ed., Understanding Digital Humanities, London: Palgrave Macmillan, 2012, pp. 42-66.
[8]Christof Schöch,“Big? Smart? Clean? Messy? Data in the Humanities,” Journal of Digital Humanities, vol. 2, no. 3, Summer 2013, pp. 1-13.
原刊《数字人文》2020年第2期。
《数字人文》“网络分析”专刊征稿数字人文图像资源语义化建设框架研究
什么是数字化?——一项考古学研究
现地研究与辛弃疾词的新读法
校对 | 肖爽
美编 | 徐璇
转载请联系授权
投稿邮箱:
dh2020@tsinghua.edu.cn