潘威、岳佳雲||关于数字人文进入清代河流研究的若干想法
潘威,历史学博士,云南大学历史与档案学院教授。
岳佳雲,云南大学历史地理研究所硕士研究生。
摘 要:
清代是中国河流环境发生重大变化的时代,也是管理河流方式向现代化转变的关键时期,这一历史过程的背后是环境、制度、社会与技术等诸多因素及其构成的复杂关系。“数字人文”在梳理、观察这一过程中具有很重要的作用,尤其在处理大规模、多来源史料和时空三维分析方面具有较大优势。若将以往研究经验和技术积累推广至全国其他河流问题研究,通过思考这一过程中可能面对的难题与解决方案,可以勾画“数字人文”在清代以来中国水环境研究中的面貌。
关键词:数字人文;清代;河流;信息化
历史地理学中的河流问题研究,并不应该是在第四纪地质学、河流地貌学、水文学等学科的框架内,简单上溯至历史时期,而是应该充分挖掘各类历史文献记录中的河流信息,在重建河流水文环境与地貌环境基础上,揭示人类与河流环境之间的互动关系面貌及其作用机制。尤其需阐明人文因素对河流环境的影响机制,这是中国历史文献的独特优势,学界自然不应放弃,反而应持续探索中国历史文献在河流问题研究中的独特价值。清代在中国生态环境变迁中具有重要的转折意义,其中,河流环境出现了诸多深刻且影响广泛、持续至今的变化。河流环境变化的过程、原因和效应既是清代历史的重要组成部分,也是理解现代中国自然环境和国家水战略所必须参考的历史背景。由于清代人口大量进入中西部山区,水土流失加剧,大型河川的泥沙含量激增,导致黄河、长江平原河段普遍出现河道淤高的情况。清代也是传统政府和民间管理河流力度空前强大的时期,对黄河、永定河、长江荆江段与西北内流河的管理或开发力度大大超越以往,国家制度的力量此前从未以如此程度深入“人-水”关系之中。同时,晚清时期,面对日益沉重的“河患”,清政府尝试“西法治河”,开启了中国水利的近代转型。那么,在这一持续两个半世纪的进程中,中国河流环境变化的程度和规模是什么样的?这一变化与社会经济发展之间存在何种关系?这一现象在不同流域之间存在何种差异?我们应怎样将这些历史变化、要素关系和空间差异有效呈现、深入分析?笔者团队近十余年来持续关注清代以来的“人-水”关系问题,目前已经在西北、东南、西南等区域都设置了研究点,希望在一系列点状个案支撑下,在全国范围内进行区域间的比较研究。在这一过程中,我们也探索了多种信息化手段在历史河流问题中的使用方案,特别是“数字人文”方法在清代河流问题研究中的一些经验、教训,描绘未来信息化手段支持下的清代河流研究图景。
1.基础数据支持
在地貌学中将河流定义为“降水或由地下涌出地表的水汇集在地面低洼处,在重力作用下经常地或周期地沿流水本身造成的洼地流动”,这是河流的地理基础。而河水与其他物质在河道中的运动规律,是水文学的研究对象。在其基础上,水资源开发和管理、水灾预防与治理、水生态、水利工程修建、水污染等诸多领域的研究方能展开。而在历史学研究中,针对河流本身地理状况的研究较少,且多以河流为背景展开灾害、管理、运输、社会等方面的研究。21世纪初期,历史河流地貌研究的信息化转向得以开启,满志敏以多源史料来源方法复原了北宋京东故道形态,以一系列“埽”的空间数据作为判断历史河流形态的重要依据,为历史地理学内采用信息化方法进行河流研究的范式。清代史料质量和数量优于前代,学界对“人-水”关系的细节与河流水系的精度要求自然更高,因此,清代水系变迁过程的重建以及时空格局分析需要以数据为基础,这是提高研究精度的最重要手段。
历史学对河流问题的研究以及涉及河流的研究需要三个层面的基础数据支持:第一,地理层面,包括河流位置、河道形态、水系等级、流域范围、水文记录点位置等。第二,水文层面,包括河流流量、洪峰高度、汛期开始/结束时间。第三,管理层面,包括河流水资源的管理机构体系、官职体系、水利设施、投入成本、管理规章等。研究者需要一定的信息化技术来管理、处理这些基础数据,方才能够发挥其应有作用。在这一过程中,我们需要构建关系型数据库,并采用格网体系实现多元数据的GIS管理,将处于离散状态的数据转换为具有相互链接关系的数据集成,以便在研究中发挥数据的价值。
2.史料类型多样、规模庞大,必须“人-机”协同阅读史料
河流问题自古至今的重要性以及多层次性导致记录类型非常多样,且规模庞大。以海峡两岸清宫档案中的河务档案为例,包括工程、官吏、灾害、财务、河工技术等多项内容,文字和图像类史料的总量难以统计,仅笔者团队整理的河务用银档案摘录就已达200万字以上。如此规模的史料如果仅依靠传统方法阅读,需要耗费大量的时间和人力,“人-机”协同阅读史料则可以在最短时间内掌握大规模史料文本的主题,对于具体研究者而言,这一方法可协助其制订具体的研究计划,有效提高工作效率。近年来,自然语言处理(Natural Language Processing, NLP)中的“中文实体识别”(Named Entity Recognition, NER)在“深度学习”赋能下进展迅速,LSTM-CRF模型和Lattice LSTM 模型都成功实现了汉语命名实体识别,其上下文含义的识别功能也得到较大提升。为大规模处理清代史料提供了技术上的有力支撑。这里需特别说明,我们提倡的是“人-机”协同阅读史料,而不是完全依靠机器,机器处理后的结果仍需要研究者进行最终判断。当然,随着研究者个人掌握的电子化资料迅速增多,适应于个人的管理手段也日渐重要,尤其是RDF编目方案和描述词表的建立,这一点可参见关于古旧地图信息化管理的相关研究,此处不赘述。
3.可视化日益重要,“观察”成为一种重要的研究手段
“可视化”以往多被作为一种成果展现手段,几乎不被作为一种研究手段,这主要是因为以往历史地理学中的“可视化”集中于一般性的图表和专题地图,其表现力确实有限。“数字人文”则提供了更加丰富、更具表现力的“可视化”方案。目前,GIS已经在历史学界较为普及,对河流的空间要素提供了强大的呈现、管理和编辑支撑。除此之外,社会网络分析、虚拟场景等技术也为我们观察历史河流提供了有力的辅助。满志敏提出,历史河流问题的研究必须从单一河流走向水系。而水系结构的呈现与分析就不能仅仅用GIS手段呈现历史河流体系的面貌,更需要对水系形成的网络结构进行概括,将地理状况抽象为几何模型,以便研究者能直接观察到水系变化的核心内容。同时,根据历史记录也能够制作出某一河段(或湖泊)的三维模型。
4.拓展可用史料范围
“数字人文”的引入还拓展了可用史料范围。对清代河流研究而言,晚清至民国时期(也包括部分解放初期)的水利工程图或水利规划图也是非常重要且独特的史料,这类史料既翔实记录了局部河段的工程形制,也反映了关键性河段的地貌特征。但这类史料以往并未真正进入历史河流地貌的研究范畴,而现在随着GIS、工程建模和水文模拟技术日渐成熟,操作也趋向简单,使得我们可以将这类工程图转换为融合工程与历史地貌的虚拟水利场景,以此深入挖掘这类史料的价值。
要之,随着清代河流问题研究日益深入,仅仅依靠传统的文献考证和一般性的实地调查已经越来越难以应对日渐扩大的史料规模和种类,更难以解决学界试图揭示的“人-水”关系需求,“数字人文”思维与技术手段的引入则可以通过以上四条路径,将研究推进到新的层次。
“数字人文”本质上是“高效的计算”与“人文研究”的有机融合,高效的计算就是要将一些“体力型”的工作交给机器,将人文研究者从机械性的工作中解放出来,而在分析、思考方面投入更大精力。前文已经指出,清代史料文献异常丰富,在清代河流问题研究中,首先要确定河流水系本身的空间形态和格局,而清代民国时期的大量古旧地图是进行这一工作所必备的材料,对其上的河流信息进行数字化则是必需手段。但数字化本身是一项非常繁琐、耗时、耗力的基础性工作,笔者团队曾经数字化处理过江汉平原、珠江三角洲和长江三角洲的民国初年地图,以提取其地表水系,用人工方法处理累积耗时长达20个月(配准、矢量化、矫正等)。而采用自动化操作,同样工作量耗时能缩短约70%,使得研究者能够将时间和精力投入到对河流体系的分析中,客观上推动清代河流问题向深入发展。
目前,学界对古旧地图信息的自动化提取包括两项比较成熟的技术,一是对各类舆图上的文字信息进行自动化识别,采用OCR技术将图像上的文字转换为txt格式的文本数据;另一则是笔者团队正在完善的“人工干预下的单色旧地图河流自动提取方案”。
古旧中文本的精确定位和识别长期困扰学界,近年来以深度学习(深度神经网络)为代表的人工智能快速发展,与计算机图形相关的很多任务取得了突破,也让古旧地图的文字识别和提取具备了可行性。主流的OCR系统都使用了深度神经网络,因此能够实现手写文本的内容识别。借助机器学习等手段的历史地图矢量化的研究逐渐成为主流。利用机器学习方法从古旧地图中识别文字需要大量的训练数据,因此数据标注工作也很关键。笔者团队采用的是逐步迭代的数据标注方法,使用通用OCR检测和识别古旧地图中的文字,之后人工对检测出的文本区域以及识别的文本内容进行校对,在新数据集上训练新的文本检测和识别模型,这样每迭代一次,模型的性能增强一次,经过若干次迭代,使得本方法具备了较高的文字识别准确率。2020年9月,笔者团队开始将“人工干预下的单色旧地图河流自动提取方案”列为“数字历史黄河”平台中重要的河流空间数据采集方法。2021年复旦大学柴宝惠也提出了采用自动化方法提取旧地图中的上海水系方案,但两套方案并无关联,为各自研发,柴宝惠方案更加偏向于彩色地图的处理,本方案专以单色地图的处理为主。在这一方案中,首先在Matlab环境下对单色旧地图的电子图像进行多轮滤波、去噪(算法略),其次利用栅格计算器进行归一化水体指数(NDWI)计算,最后经过GIS软件环境下的“缓冲区”裁剪和“平滑”处理,便可得到河流数据。当然,这一套数据必须经过严格的人工核查和修订方能发布或用于科研。
除了以上两方案之外,还有一种方法也可以部分发挥自动化提取的功能。苏绕绕等在进行清代新疆地表水系-渠系的重建中,对于一些历史文献中有记录但缺乏地表遗迹和图像记录的河流位置采用了“最优路径算法”,当然,这一方法目前只能起到弥补部分数据不足的作用。
清代古旧地图作为河流水系研究的重要材料,针对其河流信息的自动化操作将极大提升数据建设的速度,推动学科向深入发展。当然,由于古旧地图缺乏绘制标准,图像之间具有较大差异,保存情况也有较大不同,这都使得自动化操作尚不能形成统一的、标准化的操作流程。人工操作也不可能被全部代替,研究者必须对数字化结果进行核查与修订,这一环节对数据质量高低具有决定性影响。
“数字人文”的普及将丰富学界的研究技术,而研究技术的改变将导致清代河流问题研究范式的更新。这一范式改变的最主要表现包括提高河流变迁过程的重建精度、丰富河流变迁过程重建的内容、揭示“人-水”关系的多维面相等。本文主要从以下两个方面对此进行详细讨论。
1.从平面到立体
2015年,笔者将历史河流地貌研究的发展分为“文字”“图形”和“信息化”三个时代。“文字”和“图形”对应了传统的“流路”研究,而“信息化”对应的则是河流或水系的形态体系研究。
历史地理学中的传统河流地貌研究基本是在平面环境下进行的,河流的摆动、改道等变化,非常缺乏三维立体视角,河道在平面上的变化实质上只是一个水沙动力过程的结果,这一结果形成的直接原因必须在三维形态的河床形态模型中才能反映。这一过程在清代文献中是有所记录的,如道光二十三年(1843年)黄河在河南中牟决口,南夺颍河、涡河入淮,成为铜瓦厢改道之前一次非常重要的黄河摆动事件,此次改道的成因有黄土高原暴雨、单次洪峰规模巨大等因素,但这些因素只能解释黄河下游为何发生了决口,不能解释为何在黄河中牟段的南岸发生了决口。负责堵口工程的慧成在一份奏折中记录,在决口发生前两年,中牟段黄河北岸有沙洲出露,在决口发生当日,黄河水流被此沙洲逼向南岸,最终酿成了溃堤。这一沙洲的存在成为中牟南岸决口的重要因素,而这一沙洲的出水、扩大过程需要三维河床模型的支持才能得到深入研究。此外,三维水体模型还可以支持水生态的研究。在西北干旱区存在着大量内陆湖泊,湖泊水体涨缩决定了湖水是淡水还是咸水,直接影响了当地的生态格局,通过三维模型的构建可以协助研究者判断当地湖泊的“盐化率”,如王芳等利用新疆博斯腾湖湖盆高程数据,结合20世纪30年代地形图,构建了博湖的三维模型,对其20世纪的“盐化率”进行估算。随着这一技术的成熟,可以在西北内流河系统中展开更具体系性的研究,以观察清代以来西北干旱区的湖泊生态变化。同时,这一技术方法也可以应用于人工水系的研究,如清代新疆坎儿井体系和河西走廊井渠的研究,这类人工河渠是吐鲁番与河西走廊地区大量农耕区和城市存在的基础,蓝图等已经构建了清代河西走廊永泰城的井渠三维模型,但这一模型未能与永泰城地形进行融合,仅是一个工程模型,今后将实现工程模型与地形模型融合,对此类“明暗渠”与地方社会经济发展的关系必将得到更为深刻的认识。要之,历史三维河(湖)床模型、虚拟历史水利场景模型支撑下的水体三维模型具有广泛的应用前景,目前这一技术方案还缺乏成熟的工作流程、质量评价标准与术语体系等,仍需要大量的试验性工作来推进这一方案的完善。
2.从描述到分析
邹逸麟提出历史学对生态环境的研究需特别注意人文社会因素的作用,这一认识在解释清代河流环境的变化中具有指导性作用。在实现“平面到三维”“静态到动态”的基础上,清代河流变化的研究可以实现从形态分析到动力机制解释,尤其揭示人文因素的作用机制。实际上,在历史文献记录所具备的诸多特征中,除了时间和位置精确之外,就是对人文影响因素的丰富记录,这一点是自然证据(树轮、沉积物等)所严重缺乏的,使历史文献记录在环境变迁研究中具有不可替代性。在“数字人文”支持下,三维—动态式的历史河流过程相较于传统研究呈现了更为全面、细致的变化过程,由此,也可以推动学界从单纯的描述河流演变过程进入动力机制的分析。在这一环节中,文本结构分析、文本主题分析等技术手段可以发挥较大作用,尤其是TOM、Voyant等软件所提供的文本结构分析环境,在解析巨量史料文本内容时具有很大作用,能够协助研究者迅速抓住史料中的特定内容。
如笔者团队在进行清代以来甘肃石羊河变迁时,就针对民勤、武威、金昌所遗留的清代水案碑刻与文献记录进行了主题模型算法支持下的文本聚类分析,以词群(bag of words)来描述文本的属性,通过LDA算法确定主题数目(topic K),确定文献主题数量的策略依据“词为中心的稳定性分析”(term-centric stability analysis)。这一方法极大提高了史料的阅读速度,快速捕捉到了石羊河流路变化与当地湖区、坝区之间存在的紧密联系。这一案例说明,“数字人文”方法有助于快速、准确提取河流变迁的人文驱动因素。总之,“数字人文”正在改变清代河流问题的研究范式,这一改变并不是要颠覆清史的既有学术关怀,更不是要将清代河流问题研究变为第四纪地质或水文学的历史回溯,“数字人文”所带来的研究范式转变首先还是立足于最大限度上挖掘历史文献中的相关信息,其最终目的则是揭示人文因素在河流环境变化中的影响机制。
“数字人文”正在改变清代河流问题研究,这一改变的最终图景当然是建立独具历史学特色的河流变迁研究体系,在问题、资料和方法上都具有自身特点。“数字人文”赋能下的清代河流问题研究,不仅能够有效整合历史学中既有的历史地理学、环境史、水利社会史等方向,也应该去弥补水文学、河流地貌学、第四纪地质学在人文影响因素方面的“盲区”与不足,与这些学科共同建设新时期的“水科学”。只有如此,“数字人文”对清代河流研究所带来的变革才有意义。但这一目标的实现不可能那么顺利,在“数字人文”发展的路上,仍有许多困难需要克服,有诸多难题需要破解,这需要研究者投入极大努力。目前,基础设施建设成为清史学界“数字人文”发展的主要瓶颈,因此,实现清代河流研究的“数字人文”赋能,必须先进行相关设施建设和完善。
第一,建设清代河流问题所需的语料库和地名库。
语料库(corpus)指经科学取样和加工的大规模电子文本库,借助计算机分析工具,研究者可开展相关的语言理论及应用研究。20世纪90年代以来,第三代语料库在设计、采集、编码和管理上都有了长足进步,可以满足多语种、历时性、海量规模(万亿级)、高流通性等研究或应用需求。语料库成为语言学、文学、信息学、传播学等学科实践“人工智能”方法的重要基础。历史学中已经开始注意语料库的一些衍生技术,但国内尚未真正着手建设历史学方面的语料库,清史的研究材料正符合多语种、海量规模和历时性特征,而其中的河流问题研究又具有相对较好的信息化前期工作,可以考虑是否能有专门团队进行清代河流问题的语料库建设,这样对今后的历史文本信息化处理与分析都具有重大意义,也可以探索清代语料库的建设路径。
地名库,是关于地名信息文件的集合。目前学界中最好的清代地名库无疑是复旦大学与哈佛大学合作的CHGIS,但具体到个人研究领域时,这一数据与实际需求仍存在距离。清代河流研究需要大量村庄、河防设施、管理机构(特指黄河下游、永定河、淮河)地名,一方面是确定河流位置,同时也可以标定有关河流事件(工程改造、灾害事件等)的空间坐标,CHGIS无法满足这一需求,有必要进行专项建设。目前,笔者团队正在进行“数字历史黄河”平台的“地名库”开发,在T-GIS理论指导下采用“地名时空体积矩阵”模型管理清代黄河下游的河段名称、水体名称以及与黄河变迁有关的聚落名称。这一工作为清代河流的信息化提供了重要的地名基础,但完善这一地名库仍需要大量的文献挖掘、技术探索、元数据与库结构优化。实际上,要实现“数字人文”与清代河流问题研究的深度融合,必须进行大量的基础设施建设,语料库与地名库只是众多基础设施建设中目前可以着手的两个方面。
第二,提出适应清代文献的河流数据标准。
数据标准问题是历史地理信息化领域长期讨论、但难以形成共识的问题。清代历史文献种类丰富,规模庞大,且目前学界研究分支已经较为细致,很难形成某一方向的数据标准,但研究中又需要综合各方数据,而不同数据如果缺乏必要的标准则无法实现融合,笔者曾提出,目前历史地理学界存在严重的“数据孤岛”现象,成为历史学信息化进一步发展的重要障碍之一。美国学者马瑞诗(Ruth Mostern)提倡结合历史文献、GIS和关系数据库进行历史时期黄河流域生态环境变迁研究,但其系统中的数据来源杂乱,缺乏数据标准,导致该系统所选用的数据无法建立有效联系,使得系统功能受到很大限制。因此,在进行包括清代在内的河流问题研究中,信息化手段的充分发挥,必须建立在河流数据标准的基础上。目前,要实现清代河流数据的标准化确实存在诸多问题,短期之内无法全部解决。当前,学界可以考虑首先实现元数据的标准化,即对数据描述方案达成一致,以此为起点,开始构建适应于清代文献的河流数据标准。
第三,探索适应清代历史文献的分析手段。
“数字人文”与清史研究的结合,不仅是清史及相关问题的研究要善于使用既有技术手段,更需要积极探索适应于清代历史文献的技术手段,以丰富“数字人文”研究方法,也可以借此讨论新的清史方法论。目前,学界在进行清代河流水系的结构分析中普遍使用的是地理学或水文学中的既有技术手段,这类技术手段对于数据精度、数据维度和数据完整性、连续性都有较高的要求,是历史文献难以达到的。那么是否能够开发出一些适应于历史数据的分析手段?既可以与现代河流体系数据的融合、比较,也可以与其他专题的清代数据进行综合分析。笔者认为,随着Python编程语言的不断普及,这一方面的工作在未来五年中很可能取得实质性突破。
在国家建设“新文科”背景下,如何将“数字人文”与历史学进行有机结合,成为历史学界必须认真思考、积极探索的领域。相较而言,清代历史文献丰富,且有一定的信息化基础,以清史研究探索“数字人文”的史学应用是一条相对可行的路径。其中,河流问题涉及生态环境、地方经济、国家政策等诸多方面,既是清史研究的重要组成部分,更是“数字人文”进入清史领域的基础。在清代河流问题研究中,“数字人文”能够拓宽史料边界,提升文献阅读效率和准确性,丰富研究者的观察视角,将河流研究从平面专题地图引入立体水环境场景,多样化的数据分析手段更可以将此领域的研究推向深入。
原文载《史学月刊》2023年第1期,注释从略。
往期回顾
往期回顾||《史学月刊》2023年第12期往期回顾||《史学月刊》2023年第9期
郑彬彬||晚清琼州开埠研究(1858—1876)——基于英国档案的考察
郭元博||1949年前后英国对中国共产党政策变化与国民党当局应对