数字人文在古代文学研究中的初步实践及学术意义
The following article is from 中国学派 Author 王兆鹏 邵大为
摘要:古代文学研究的资料离散和时空分离这两大难题,人工较难解决。运用数字人文技术开发的文学编年地图平台,可实现浏览检索、关联生成、数据统计、时空定位和可视化呈现五大功能,为解决资料离散和时空分离两大难题提供了可能。数字人文研究将改变古代文学资料查询检索方式,实现从电子文献的分词定位检索到结构化数据库的分类提取,从点状检索到网状关联,从逐条拷贝到分类打包;能把传统的静态文本变为可随意组合的动态文本;能改变文学史的认知角度和方法,时间上细化文学史的时间粒度,空间上深化文学的空间层次。由数字人文激发的编年系地并重的理念,将改变作家年谱和文学编年史的书写范式。数字人文技术,还可以自动对比识别作品间的互文关系,重建古代文学的历史现场,提供古代文学阅读欣赏的崭新体验。
关键词:数字人文 唐宋文学 编年地图 结构化数据库
作者王兆鹏,中南民族大学文学与新闻传播学院教授;邵大为,中南民族大学数字人文资源研究中心讲师。(武汉 430074)
责任编辑:李琳
来源:《中国社会科学》2020年第8期P108—P129
数字人文(digital humanities)以多学科交叉的学术团队为研究主体,以数据为基础、平台为支撑,运用数字技术方法来研究人文科学。近年来,数字人文在理论探讨、应用研究、技术支持三个层面,取得了长足进步。而中国古代文学研究,以问题为导向,以内需为动力,积极运用数字人文技术方法来探索新途径、拓展新空间,在平台建设、文本分析、可视化研究方面,也取得可观的实绩。但中国古代文学的数字人文研究,目前还处在起步阶段,倡导性呼吁、可行性论证和案例性分析较多,数字人文对古代文学研究究竟有什么作用?能解决哪些传统方法较难解决的问题?能在研究观念上有什么更新?尚未见系统思考和具体答案。我们数字人文资源研究团队,在十多年的探索过程中,有一些甘苦和体会。兹以唐宋文学编年地图平台的实践为中心,侧重谈谈数字人文的地理信息系统和可视化技术在古代文学研究中的学术意义。
一
一、实践的目的:探讨解决资料离散、时空分离的可能性
古代文学研究,目前至少存在着资料离散和时空分离两大难题,不借助数字人文技术就较难突破和解决。
文献资料的离散,有“同类异处”和“异类分隔”两种状态。“同类异处”是指,同一专题、同一领域、同一学科的材料,往往分散在不同的文献里。纸本文献如此,电子文献亦然。加之载体和藏所的分散,同类同领域的文献常常处在离散状态。“异类分隔”,是知识分类造成的资料分离。由于人类知识的广泛性、丰富性和复杂性,不同性质、不同领域的文献资料总是分门别类收藏和存储。比如,书写梅花的文学作品,收藏在文学领域的总集、别集里,而介绍梅花生物特性、栽培技术的知识,则在植物学著作里。同一事物的相关文献,因知识的分类不同,而隔绝在不同的知识领域。无论是“同类异处”还是“异类分隔”的文献资料,人力都难以改变其离散状态。
古代文学研究的时空分离,体现在两个层面。在观念意识层面,是时间意识强烈,而空间意识淡薄。文学史研究,注重时间的变化进程,而忽视空间的离合分布;时间进程的描述多,作家活动、作品创作的地理空间分布的考察相对少。作家年谱、别集编年笺注和文学编年史之类的著作,注重时间编年而不注重空间系地,时间信息具体而空间信息模糊,时间感强而空间感弱。
在实践操作层面,受思维方式和纸本载体功能的限制,文学史和文学编年史的呈现,只能是单向呈现,而不能多向呈现。按照时间序列呈现文学史的发展历程,就难以兼顾空间序列的分布和变化。如果按照空间序列来呈现各地文学图景,又难以从时间序列上观察和呈现一代文学的发展进程。简言之,以时间为轴心,空间秩序就被割裂;以空间为轴心,时间的序列就被打断。传统的年谱著作和文学编年史,还有一个难以突破的障碍,就是无法超越时空的局限,只能呈现同一时空里的作家活动和创作,而无法呈现不同时空中作家的活动和创作。在一本作家年谱里,我们通常只能了解一个作家的活动,而难以了解同一时间里多个作家在不同空间里的活动。比如,我们从《杜甫年谱》知道,安史之乱前夕的天宝十三载(754),杜甫在长安,过着“朝扣富儿门,暮随肥马尘”的窘迫生活,但我们无法从《杜甫年谱》里知道,这一年,李白在哪里,岑参在哪里,高适在哪里,王维在哪里。有时,我们知道一个作家在一个地方的活动状况,而难以知晓更难以呈现不同时间里不同作家在同一地方的活动情况。比如,我们知道,苏轼曾谪居黄州五年,写有《念奴娇·赤壁怀古》和前后《赤壁赋》等名作,可在苏轼之前和之后,哪些作家在黄州寓居过、写有哪些作品,我们并不熟悉。苏轼年谱,只包含苏轼一生的活动情况,而不可能囊括苏轼同代作家的活动详情。《苏轼年谱》可以告诉我们,苏轼一生到过凤翔、开封、杭州、密州、徐州、湖州、黄州、惠州、儋州等地,但不能告诉我们,在苏轼生前和身后,还有哪些作家到过这些地方、写有什么作品。
数字人文技术,怎样解决资料离散和时空分离这两大难题呢?运用数字人文技术开发的唐宋文学编年地图平台,就试图实现文献资料的集成化和文学编年史的时空一体化。
唐宋文学编年地图平台,旨在集成性地囊括历年来有关唐宋作家作品编年的成果信息,包括年谱、别集笺注、考订论文等。要让计算机能够识别处理这些编年文献资料,并在地图中可视化呈现,需要经过数据建模、数据转化、数据关联和呈现三个阶段。
数据建模,是为数据挖掘、信息提取建立模板。而建立什么样的模板,取决于平台的要素和功能。文学编年地图平台,包含时间、地点、人物(作家)、事件(活动和创作)、作品这五大要素,需要实现浏览检索、关联生成、数据统计、时空定位和可视化呈现这五大功能。不同要素只有形成一定的结构之后才能产生功能。因而,数据模板,需要围绕时、地、人、事、文这五大要素来设计,使之成为关系型结构化数据库。
数据转化,是根据数据模板,挖掘提取文献资料中时间、地点、人物、事件和作品等有效信息,转化为计算机系统可以识别、关联和统计的数据。数据转化,不是简单机械地将来源文献转换为数据信息,而是从大量芜杂的信息中进行挖掘提取。为保障底层数据的可靠性,首先要确保数据来源的可靠性,尽可能选择那些获得学界普遍认可的学术含量高的优质成果作为数据录入的依据;其次要确保数据来源的真实性,要充分考虑文献来源信息的规范性和完整性。由于来源文献著述的目的不同,体例各异,难以满足数据模板所需的各类信息,因而,数据录入转化时,需要补阙、正误和标引,以提升数据的可靠性和完整性。
补阙,主要补时和补地。补时,是补充来源文献缺失的编年信息;补地,是增补来源文献缺失或不详的系地信息。正误,主要订正来源文献的编年系地错误。
古今年谱,考订作家的生平行事和作品的编年系地,讹误在所难免。比如,《黄庭坚年谱新编》载述,徽宗建中靖国元年(1101)春天,黄庭坚离蜀出川,沿长江东下。正月初离江安,过泸州,三十日抵合江;二月三日,到达汉东(今湖北随州);二月二十六日,到万州;三月,至峡州。此行程不合常理。然年谱是依据黄庭坚《题校书图后》所言:“建中靖国元年二月甲午,江西黄庭坚自戎州来,将下荆州,泊舟汉东市。”原来问题出在“汉东市”的理解和空间定位上。随州,又名汉东郡,故宋人多用汉东指随州,于是年谱作者很自然地想到这个汉东就是随州,而没有考虑到行程距离的可能性和空间的合理性。我们怀疑这个“汉东市”应是四川境内长江边上的一个市镇。经向年谱作者请教,作者在《大清一统志》里查到江津县西南一百五十里的江边有“汉东市”。重新确定“汉东市”在江津县,黄庭坚的行程就豁然贯通。类似问题,在作家年谱和别集笺注中所在多有,因此数据录入和复核时,要时刻关注数据来源中有关作家作品所考时间的正确性和空间定位的合理性,否则容易出现编年系地数据的次生性错误,从而影响地图定位的准确性。
遇有异说,需取正弃误。作家活动和作品编年,往往有不同的意见。或两种年谱的编年结论相左,或年谱与别集笺注的看法不同。遇到这种情况,数据录入或复核时需要查找第三方文献予以认定。比如,陆游《送梁谏议》诗,《陆游年谱》系于绍兴三十二年(1162)五月,《剑南诗稿校注》系于是年冬。梁谏议,即梁仲敏,其请宫祠返里的时间,李心传《建炎以来系年要录》有明确记载:“(绍兴三十二年五月)丁未,右谏议大夫梁仲敏充敷文阁待制、提举江州太平兴国宫,从所请也。”因而《陆游年谱》的系年更合理,数据复核时依年谱订正。
标引,是对数据的性质、类型进行标注,以便计算机自动识别。客观数据的标引,可以由计算机来操作,但主观数据的标引,则需人力完成,至少需要人工干预。由于大量的基础数据还不完备,比如中国古代的人名库、地名库、官名库、物名库、篇名库等还没有完全建立,计算机无法自动比对识别原始文献资料中哪些是人名、地名、官名、物名和篇名,也就难以全面系统地挖掘提取相关数据。而年谱、别集笺注、论文、编年史等来源文献中有关作家活动和作品编年系地信息,不仅仅体现在专有名词里,也隐含在不同语境的语句里,必须由人工来提取和标引。因此,数据的标引者、提取者和复核者,必须是有中国古代文学专业背景的、熟悉中国历史地理的专业人员,这样才能保证所标引、提取数据的准确性和可靠性。
数据关联及呈现,是将各类数据进行融合,开发成关系型结构化数据库。作家作品的数据通过编年和系地两个属性,可形成关联数据。结合GIS(Geographic Information System,地理信息系统)地图技术及软件编程技术,将数据融合成一体,在地图上按时间、地点、作家、作品等维度可视化呈现作家的活动行迹,既可按需展示某个时空局部的细节,又可纵横概览数百年的文学图景。
数据关联融合后,文学编年地图平台就能可视化呈现作家行迹。既可以呈现一时一地一个作家一生的行迹,也可以展现不同时间多个地方多位作家的活动行迹。时空一体,在这里得到初步实现。
文学编年地图平台,按时间、地点、人物、事件、作品五个要素,将历来分散的作家作品研究资料有机集成为数据库,在一定程度上解决了文献资料分散的难题,也在一定范围内解决了时空分离的难题。时间和空间合而为一,时间被空间化,空间被地图化。
二
二、实践的基础:“系地”理念的发掘与确立
数字人文技术在古代文学研究中的实践,不单纯是技术操作问题,而是需要古代文学研究观念上的主动对接和双向融合。二者的融合,是互补性的而不是替代性的。文学研究原本就有对接融合数字人文技术的学理基础。就像一种植物能“嫁接”到另一种植物上,是由于二者具有相似或共同的机体机能。古代文学研究与数字人文技术能够对接融合,是因为二者学理上具有共通性。只是这种共通性,长期没有得到足够的重视。
以GIS技术为核心的数字人文,注重地理空间和人地关系。古代文学与数字人文结合的地图平台,想要在地图上可视化呈现作家活动和文坛图景,必须对作家活动和作品创作地点进行地理空间定位。这就需要古代文学研究,特别关注和落实人地关系,改变重时轻地的思维定式,确立时地并重、时空一体的观念,以便文学研究与数字人文技术有效对接和深度融合。
其实,时地并重、时空一体的观念,早就存在于中国古代文学的创作和研究实践中,只是没有受到应有的重视。中唐时期,就已产生文学作品既编年又系地的意识。白居易赠元稹诗《十年三月三十日,别微之于沣上。十四年三月十一日夜,遇微之于峡中。停舟夷陵,三宿而别。言不尽者以诗终之。因赋七言十七韵以赠,且欲记所遇之地与相见之时,为他年会话张本也》,所言“记所遇之地与相见之时”,就体现出一种比较自觉的系地编年意识。记所遇之地,即系地;记相见之时,即编年,目的是作为人生历程的记忆,“他年会话”时有所依凭。虽然他是就创作而言,但对后来作家年谱的编撰和诗文别集的编纂有着直接启发和实质性影响。
到了北宋,人们也意识到编辑诗文集应该编年又系地。苏轼就有这样的编年系地意识。元丰四年(1081),陈传道为苏轼编次《超然》《黄楼》二集,苏轼回信时特地叮嘱他,编诗集,不必分古体律诗,而应以时间为先后,“以日月次之,异日观之,便是行记”。行记,即旅行日记。诗集按年月先后编次,多年之后,就可以当作行记来看。苏轼虽然只是说按时间月日编次,但其中也隐含空间定位之意。因为诗人行迹所至,自然包含所至的地点区域,只是没有特别强调系地而已。从诗集题作《超然集》《黄楼集》来看,实已隐含系地的意思。《超然集》当是辑录苏轼在密州时所作诗,而《黄楼集》是收录在徐州所作诗。后来南宋杨万里自编诗集,分别题为《江湖集》《荆溪集》《西归集》《南海集》《江西道院集》《朝天续集》等,一地一集,就是继承苏轼的依地分集法。在苏轼的观念里,诗歌可以当作“行记”来阅读,编年系地之后,能反映诗人特定阶段的活动轨迹和心路历程。这与白居易“欲记所遇之地与相见之时,为他年会话张本”的编年系地意识是一脉相承的。
苏轼早年自编《南行集》,其实已体现出这种意识。嘉祐四年己亥(1059),苏轼将乃父和他兄弟俩在出蜀赴京途中写的诗文编为《南行集》,其《南行前集叙》中既交代创作的时间和地点(己亥岁自蜀适楚的舟中),也具体记录了结集的时间和地点(己亥岁十二月八日江陵驿),目的是“识一时之事”,以便“他日”能够据此“寻绎”人生行迹。这与其后元丰四年所说诗集可当作“行记”的意识是一以贯之的。
如果说苏轼还只是隐隐然有编年系地的意识,那么,贺铸在整理编次自己的诗集时,就表现出明确而自觉的编年与系地并重的观念。绍圣三年(1096),四十五岁的贺铸“裒拾”平生所为诗歌自编成《庆湖遗老诗集》,特地为每首诗加上题注,标明创作时地,以记录人生轨迹、留下生命印记。他在自序中强调:
随篇叙其岁月与所赋之地者,异时开卷,回想陈迹,喟然而叹,莞尔而笑,犹足以起予狂也。
“随篇叙其岁月与所赋之地”,就是在每篇诗歌题下标注创作时间和地点,如《黄楼歌》题注:
熙宁丁巳,河决白马,东注齐宋之野。彭城南控吕梁,水汇城下,深二丈七尺。太守眉山苏公轼先诏调禁旅,发公廪,完城堞,具舟楫,拯溺疗饥,民不告病。增筑子城之东门,楼冠其上,名之曰黄,取土胜水之义。楼成水退,因合宴以落。坐客三十人,皆文武知名士。明年春,苏公移守吴兴。是冬,谪居黄冈。后五年,转徙汝海。余因赋此以道徐人之思。甲子仲冬彭城作。
诗作的时间、地点、缘由、背景,叙述得清清楚楚。贺铸编诗集时“随篇叙其岁月与所赋之地”与白居易“记所遇之地与相见之时”的观念,也是一脉相承、前后呼应。
到了南宋初,正式出现了为空间定位的“系地”概念。郑樵就著有《集古系时录》十卷、《系地录》十一卷,首次将“系时”(编年)与“系地”并举。陈振孙《直斋书录解题》说此二书“大抵因《集古》之旧,详考其时与地而系之,二书相为表里”。郑樵将欧阳修《集古录》里的金石目录,分别按时间先后和地区分布编成《系时录》《系地录》二书,相互参证,体现出明确的编年与系地并重观念。虽然郑氏是编次金石目录,但与诗文别集的编次是相通的。《系地录》详载前代石碑所存地点方位,便于读者寻访。这与苏轼编诗文集时所说“将以识一时之事,为他日之所寻绎”的目的相近。
中国古代文学文献中蕴藏着比较丰富的编年系地并重的学理资源。然而,自北宋以来形成的作家年谱撰述观念,却忽略了系地。现存最早的中国古代作家年谱,是北宋神宗元丰七年吕大防所撰《杜工部年谱》和《韩吏部文公集年谱》。吕大防开宗明义地说:“予苦韩文杜诗之多误,既雠正之,又各为年谱,以次第其出处之岁月,而略见其为文之时。则其歌时伤世幽忧切叹之意,粲然可观。”所谓“次第其出处之岁月”,是为作家事迹编年;“为文之时”,是为作品编年,并没有考虑系地。南宋绍兴五年,文安礼撰《柳文年谱》,也是说:“予以先生文集与唐史参考,为时年谱,庶可知其出处与夫作文之岁月,得以究其辞力之如何也。”关注的也是谱主的行事编年。虽然这些年谱并非完全忽视谱主活动的地点,但编年意识自觉强烈,系地意识比较淡薄。加之年谱作者大多不熟悉历史地理,连翁方纲这样的大学者,“于史学地理,实非所长”,以至所著《元遗山年谱》对元好问活动和创作的地理缺乏应有的系地考订,并时有疏误。一般学者对历史地理就更加生疏。清代地理学家顾祖禹曾感慨:《大明一统志》一向称为善本,然“于山川条列,又复割裂失伦,源流不备。夫以一代之全力,聚诸名臣为之讨论,而所存仅仅若此。何怪今人学者语以封疆形势,则惘惘莫知”。编撰一代地理志的学者对山川地理、封疆形势尚且莫知其详,那一般学者对地理的陌生就更不用说了。受知识结构的局限,多数年谱作者不免重编年而轻系地。
在古代文学与数字人文初步结合,受地理信息系统的人地关系观念冲击和碰撞之后,我们更加强烈意识到时空并重、编年与系地并重在古代文学研究中的必要性和可能性,更加注意从中国古代文学传统中发掘梳理出“系地”概念,确立编年系地并重的理念。
有了编年系地并重的理念,我们在数据建模时,才能在实践上将时间信息和空间地理信息放在同等重要的位置考量,注重挖掘提取来源文献中的编年信息和系地信息。由于受重编年轻系地观念的影响,年谱、别集笺注和相关考订论文等来源文献时常缺失系地信息,我们在数据挖掘时,就尽可能补充完善作家活动和作品系地信息,特别是作家的任职地、经行地、出生地和创作地信息。
作家的任职地信息,过去的年谱,时常缺乏应有的交代和考订。古人做官,如果是朝官,任职地自然是在京城;如果是在地方州县做官,任职地当然就在本州本县。久而久之,形成习惯,任职地可以默认职官所在地。但是,有些路级官司,如宋代的安抚司、常平司、提刑司、转运司等治所,并不在同一地方。如南宋江南西路安抚司在隆兴府(今江西南昌),而提刑司在赣州(今属江西);南宋荆湖北路安抚司在江陵府(今湖北荆州),转运司则在鄂州(今湖北武汉),而常平司在鼎州(今湖南常德)。后人所撰古代作家年谱,有时没有注明这些官司所在地,挖掘提取这些信息数据时,就需要查询有关文献予以补充。
作家的经行地信息,诸如途经的山村驿馆、湖泊桥梁等非行政区划地名,因查考不易,有些年谱时或阙如。如孝宗乾道八年(1172)五月,周必大在返乡途中过邬子湖,作有《过邬子湖》诗。然邬子湖在何州何县地界,《周必大年谱》未予考证。而据周必大《文忠集》卷171《乾道壬辰南归录》的记载,知周必大同时经过邬子寨,再检《舆地纪胜》卷26:“邬子寨,在进贤县东北一百二十里。徐师川尝有《邬子值风雨》诗云:‘重湖浪四起,支川舟不行。急雨夜卧听,颠风昼眠惊。’”据知邬子湖在隆兴府进贤县(今属江西),进而将《过邬子湖》诗系地于进贤。
作家的出生地信息,一般年谱都不太在意。有些作家的出生地,确实不可考,有些则是可考而未考。这需要利用相关文献予以考明。比如北宋葛胜仲的出生地,《葛胜仲年谱》就阙而未考。因史无明载,原书作者没有特别留意葛胜仲的出生地。现重新检阅有关文献,发现葛胜仲的出生地其实可考。葛胜仲之父葛书思进士及第前,居家乡江阴(今属江苏),熙宁六年(1073)进士及第后,为侍养父母,也未曾出仕,居乡养亲。而葛胜仲是在乃父进士及第前一年出生,自当生于家乡江阴。数据录入时,便将葛胜仲出生地定位在江阴。
作家的创作地信息,时或不详。古人撰作家年谱,往往重作家活动编年,而轻作品编年系地。今人所撰年谱,也有这种情形。比如,赵效宣《李纲年谱长编》,注重谱主的活动编年,李纲的活动行止细化到每月每日,但对李纲作品的编年系地则不太在意。李纲《梁溪先生文集》中的诗文,基本上是按年编次,而《李纲年谱长编》就把李纲同一年所作诗文篇目编列在一起,至于每篇作品写于何地、作于何月,不再细考。比如建炎二年(1128),李纲贬鄂州(今湖北武汉)居住。他从无锡梁溪出发,经江苏宜兴,过溧阳,历安徽宁国,越歙县,寓休宁,宿黟县,至江西九江,登琵琶亭,访陶渊明故居,过南康军,越星子县,上庐山,下德安,由武宁,出分宁,入湖北通城,寓崇阳。未到鄂州,就命移澧阳,于是经湖北蒲圻,趋湖南岳阳,渡洞庭湖,过华容,至澧州。沿途所作诗文,有一百多篇,《李纲年谱长编》原来只是列目一处,不分先后,不分地域。现广泛查阅方志,可一一考证每篇诗文所涉地名的具体方位,结合谱主的交游唱和,确定每篇诗文的写作时日与地点,从而完整地呈现出李纲建炎二年的行程路线和创作历程。
只有全面细致地为作家活动和创作进行空间定位的系地,文学编年地图才能完整呈现作家的行迹和作品创作地的空间分布。地图突显的是空间,文学史注重的是时间,文学史与地图融合,也就使时间与空间在文学编年地图中实现立体的融合,使时间空间化,空间地图化。借用清人顾祖禹的说法是:“以古今之方舆,衷之于史,即以古今之史,质之于方舆。史其方舆之向导乎,方舆其史之图籍乎?”历史与地理交相为用,时间与空间互为表里。古代文学研究,既编年又系地,编年与系地并举,作家活动创作的时间和空间地理信息双重融合,中国文学的发展图景得到完整立体的呈现,既可纵向观察历时性的文学发展进程,又可横向了解共时性的文学地域分布。
三
三、实践的意义:更新古代文学研究的观念和方法
数字人文技术不仅可以解决以往文学研究中的具体问题,也可以促进古代文学研究更新观念,改变方法,转换范式。仅就文学编年地图平台的学术实践而言,数字人文技术对于古代文学研究至少有五个方面的意义。
其一,改变文献资料的查询方式 :从分词检索到分类获取。
数字人文技术的发展,将大大改变文献检索的理念和方法,目前通用的关键词定位检索将迈向智能化的主题检索和语义检索。文献资料的分散状态,可望逐步得到改善。同类异处的资料,将由同类聚合的方式解决;异类分隔的资料,用异类关联的方式来解决。
所谓“同类聚合”,是将相同或相近学科、领域的文献资料进行集成式分类整理,开发成关系型结构化数据库。不仅分散的资料能集成一处,而且能进行智能化检索和统计分析。比如,正在建设的汉魏六朝文学编年地图平台,就力图将汉魏六朝时期所有经史子集文献、出土文献及后世评论、研究文献进行分门别类的集成式聚合,开发成关系型结构化文学数据库。数据库所收诗、赋、散文、小说等各体文学作品,都标引有写作时间、地点、文体、分类等信息,可以检索浏览、关联生成、统计分析和可视化呈现。文学编年地图平台所含古代文学数据库,旨在“同类聚合”,逐步解决“同类异处”的难题,也试图通过“异类关联”的方式,解决“异类分隔”的难题。
所谓“异类关联”,是指不同学科、不同领域的文献资料,通过技术手段进行关联。比如,要了解梅花的属性和栽培技术,就可以通过文学编年地图平台的API接口,链接到其他平台的生物学、植物学数据库,搜罗并关联到有关梅花的栽培技术、生物特性等文字信息和图片音像文献。如此,异类文献也就变为同类文献,可以随时调用。
数字人文技术,不仅能够逐步解决文献资料分散存储的问题,还能根本改变资料检索浏览方式:从分词检索到分类提取,从点状检索到网状问题,从逐条拷贝到分类打包、一键下载。
先说分类提取。以往的电子文献检索,都是按关键字词定位检索,检索到的结果是零散的,需要逐条辨识后再下载拷贝。相较纸本文献的查询而言,这无疑是大大提高了效率,但一条条下载,还是相当费时费力。例如,我们在《文渊阁四库全书》电子版中,以“(陶)渊明”为关键词检索 ,一次可以检索到4404条结果。每条检索结果,从打开查看原文到拷贝粘贴至自己的文档里,再添注每条文献的来源版本信息,平均每条结果拷贝1分钟,至少要耗费73个小时才能把4400多条结果全部拷贝下来。拷贝的这些资料,是零乱的,需要重新进行归类整理。而关系型结构化文学数据库,不仅可以按关键词检索浏览所需资料,更能分题分类检索下载。比如,在文学数据库里查询陶渊明的资料和数据,输入名字后,可以一键下载全部与陶渊明有关的传记史料、评论资料、接受资料、研究资料。因为数据库已按人名将经史子集四部文献和后世评论文献、研究文献资料分类提取并打包。以前需要数十小时才能获得的电子文献资料,今后数秒钟就可以解决。
再说网状关联。目前我们从电子文献里查阅到的资料,是各自孤立的一句话或一段话,是分散的知识点,彼此之间无法形成有机联系,也无法自动建立联系。而在关系型结构化文学数据库里,知识点可以相互关联,建立1+N的关系,形成网状结构。比如,输入一个地名,可以查询并关联到与这个地名有关的人物、作品、事件,历史上曾经在这个地方活动过的作家,在这个地方创作的作品和描写这个地方的作品,都可以一次性呈现,无须一条条地下载拷贝。输入一个作家名字,可以关联他所有的生平传记资料,他到过哪些地方,写过哪些作品,哪些作家的作品提到他,当时和后世对他有哪些评论,有哪些研究成果,都可以分门别类、一目了然地呈现出来。输入一篇作品名称,不仅可以了解它的编年系地信息,还可以看到历代有关它的评论,知悉后世有哪些和作、拟作或引用、化用。输入一个官名,不仅可以知晓它的职掌、品级,还可以关联出一个时代有哪些人做过这官职,再由人名关联到相关事件、作品、地点。数据库里时间、地点、人名、篇名、官名、物名、事件可以任意组合,形成网状知识结构。当下流行的检索型文献资源库,随着数字人文技术的发展,今后会逐渐转型开发成关系型结构化的智能数据库。
其二,改变作品文本形态:从静态固定到动态可变。
纸质作品文本和通过纸质文本转换的电子文献,如《文渊阁四库全书》电子版、《四部丛刊》电子版、《中国基本古籍库》、中华书局《经典古籍库》内的文献,都是静态固定、不可变动的。用数字人文技术,将作品文本开发成关系型结构化数据库后,作品文本就转换成能随意组合的动态可变的文本。由于作品文本被有机分解成一个个的碎片化组件,诸如一个词、一句话、一个段落或一篇完整的作品,用户可以按照自己的需求进行个性化的重新编配,以便对作品进行分类比较研究。
比如,关系型结构化的《全宋词》数据库,就可以按研究的需要进行不同角度的重编,可以分人、分时、分地、分调、分体、分题、分类来重编,而且是一键生成,同类作品瞬间就被编排一处。
分人,是按词人来分类重编。《全宋词》原本是以词人为中心,但词人是按时间先后顺序编排,而结构化的《全宋词》数据库,可以将同一群体、同一流派的词人词作编排在一起,比如将苏辛派的词人词作编排一处,以便比较同一词派内词作词艺词心词境的异同;还可以按词人身份来编,如将宰相的词作合编一处,状元词人的词作汇为一类,以比较分析同类词人词作的异同。
分时,是按时间来编排。可以将同一年或同一时段或同一季节所作词编排一处,以便比较同一时段、季节内的词作与词人生活境遇、时代背景、地理环境的关联性,看一年之内,哪个季节产出的作品最多,哪个季节写的作品较少;不同季节的作品,季节感受和生命体验有何不同。
分地,是按地域来重编。如宋代词人的籍贯,依照宋代的行政区划,分路州县三级,将各路州县的作品编排在一起,便于了解各路州县有哪些词人词作;也可以按今天的行政区划,分省市县三级地名编排,以了解各省市县曾有哪些词人词作;还可以按词作的创作地来分,将写于同一地点的词作编排在一起,看哪些地方产出的词作较多,进而分析词作内容与创作地的地理环境有何关系,是跟人文地理关系紧密还是跟自然地理关系更密切,同一地区的作品,是否有相近的地域特色,是否具有比较统一的情感基调或地理标志。
分调,是按词调重编。将同一词调的作品编排在一起,如将《浣溪沙》《水调歌头》调的词作汇编一处,以比较分析词调的声情,考察词调的演变。
分体,是按风格体式来编排。宋词有福唐独木桥体、花间体、白乐天体、南唐体、柳体、易安体、樵歌体、稼轩体、白石体等,将那些效仿某一体式的作品编列一起,便于比较其风格体式的特征和形成衍变的过程。
分题,是分主题、题材来重编。如将唱和词、祝寿词、怀古词、咏物词、情爱相思词、田园乡村词、日常生活词等编排在一起,以寻绎归纳同一主题词作的艺术范式。
总集型作品文本可以动态变化,研究型文本也可以动态变化。比如,纸本文学编年史,是单向一维的,只能按时间序列来呈现一个时代的文学活动和文坛面貌;作家个体的活动,被分散在不同的年度之中,看不到作家活动的连续性;每个地域的文学活动,也同样被割裂和分散,不便了解一个地区文学场景的完整性。而数据库形态的文学编年系地史,则是动态可变的,并且能在地图上进行时空定位和可视化呈现。它的编排和呈现方式,既能以时间为轴心组合,也能以空间为轴心组合,还能以作者为轴心组合,至于分文体组合、分专题组合也比较方便。
比如,以空间为轴心,可按行政区划来排列,借此了解全国各地有多少作家活动,哪个地方作家活动频次较高。根据唐宋文学编年地图平台已录入校定的数据统计,宋代开封府和临安府两地作家活动频次最高,分别为13120人次和9170人次。这两地原为北宋和南宋的都城,作家活动频次最高,自在情理之中。而开封、临安之外,作家活动人次较高的州府,依次是吉州(今江西吉安 ,3452人次)、建宁府(今福建建瓯,1731人次)、潭州(今湖南长沙,1393人次)、建康(今江苏南京,1078人次)、黄州(今湖北黄冈,1068人次)等地,就不免让人感到意外。吉州、建宁、潭州、黄州等地,居然一度是文学重镇,这跟哪些因素有关,是社会政治气候造成,还是特定的地理环境、交通位置使然,值得深入探讨。还可以按作品的空间类型来排列,如按作家的籍贯地、作家的活动地、作品的写作地和作品的表现地点来排列,以比较分析哪些地方出产的作家较多,哪些地方来此活动的作家较多,静态的文学版图(占籍地分布)和动态的文学版图(活动地分布)有何异同,形成的原因何在。
以时间为轴心的排列,是纵向历时性的呈现;以空间为轴心的排列,是横向共时性的呈现,二者构成纵横交织、时空一体的文学图景。陈寅恪曾提出:“苟今世之编著文学史者, 能尽取当时诸文人之作品, 考定时间先后、空间离合, 而总汇于一书, 如史家长编之所为, 则其间必有启发, 而得以知当时诸文士之各竭其才智, 竞造胜境,为不可及也。”陈先生所说的愿景,如今初步变为现实。数据库形态的《唐宋文学编年系地史》,既能呈现作家活动和创作的时间先后,也能显示作家活动和创作的空间离合,多维立体地展现一代文学的发展图景。传统文学编年史的时空分离难题,在这里得到破解。
其三,改变文学史观:从选择性分析到整体性还原。
数字人文,将从三个层面改变文学史观念。
一是从选择性关注转向整体性考察。传统文学史和文学编年史,受纸本容量和价值观念的双重制约,总是选择部分大作家、著名作家进入文学史场域,大量中小作家及其作品被忽略,只见少数作家的活动创作,看不到每个时期文坛的整体面貌。丰富繁茂的文学生态丛林,只剩下一些大树和名贵树种,文学原生态的多样性、层次性、连续性、整体性被遮蔽割裂。
而文学编年地图平台,力图整体性呈现一个时代的文学场景。无论大作家小作家、不管是著名作家还是普通作家,只要有文学活动和创作,都一视同仁地呈现。每个作家进场、退场和在场的时间和空间,都完整无间断地表述。每个时段每个地方的文学生态丛林,不仅挺拔着参天大树,也点缀着各具生命情调的山花小草。大作家有大作家的意义,小作家有小作家的作用。究竟是大作家引领着小作家进步,还是小作家推动着大作家前行,只有对文坛的整体态势进行深度分析后,才可能得出切近历史真实的结论。
文学生态图景的整体性复原,目的是更细致地观察文学的发展进程。既可以从微观角度,探讨一个个经典作家是怎样在高手如林的文学竞技场中脱颖而出,也可以从宏观角度探索一个时期的文学是怎样逐步走向高峰状态、又是怎样从高峰状态逐渐跌落低谷的,是什么原因导致了高峰状态的回落。比如,学界常以“诗国高潮”来描述盛唐诗坛,但盛唐诗坛是沿着怎样的路线图一步步走向诗国高潮的?什么时候达到高潮,什么时候退潮?当时公认的高峰状态的标杆性诗人究竟是谁、标杆性作品又是哪些?至今没有答案。
这促使我们改变文学史观念,从整体上考察盛唐诗坛发展的时间进程和空间格局的变化,而不仅仅是探讨李白、杜甫、王维等少数几位经典作家的经典化过程。把李白、杜甫作为盛唐诗坛的经典诗人、标杆诗人,这是后人的看法。盛唐人心目中的标杆性诗人究竟是哪几位、标杆性诗歌作品究竟是哪几篇?需要我们回到历史现场进行动态的考察与还原。而这需要盛唐诗歌充分的编年系地数据作支撑。但目前文学编年地图平台的数据,受文献来源的制约,还不足以全面反映盛唐诗坛的演进轨迹。这就需要我们做更多的基础性文献考订工作,从而使文学编年系地数据更充分完备。充分完备的数据才能从时间维度全程展示文学的发展进程,从空间维度全景呈现文学的空间变化。文学史观的变化,既能带来理论视野的转换,也会促进基础研究的深入。
二是从单向交往考察转向复杂网络建构。文学活动,不是孤立个体的行为,而是群体的互动。传统的文学研究关注作家的交往活动,往往是个体作家之间单向的交往,如盛唐诗坛李白与杜甫、杜甫与王维、王维与孟浩然、高适与岑参的点对点的线性交往关系。但李白与杜甫、王维、孟浩然、高适、岑参之间有着怎样的双向互动、复杂交往,就不太为人注意。而据唐宋文学编年地图平台数据显示,诗人的交往关系,比我们想象的更复杂,往往是重叠交叉、复杂多向的。比如,李白跟贾至、李邕、杜甫、王昌龄、孟浩然、贺知章、颜真卿、张旭、张说等143人有诗歌交往,杜甫和高适、岑参、李白、贾至、裴迪、李邕、元结、郑虔、储光羲、王维等167人有诗文往还,王维跟裴迪、祖咏、张九龄、钱起、杜甫、孟浩然、綦毋潜、高适、王昌龄、李颀等91人有活动交集,孟浩然与李白、张九龄、王昌龄、王维、包融、储光羲、张说、刘慎虚、綦毋潜等46人来往密切,高适跟李白、李邕、杜甫、王昌龄、王之涣、储光羲、颜真卿、崔颢等76人有交谊,岑参与杜甫、颜真卿、王维、贾至、储光羲、高适、王昌龄等234人有交游。李、杜、王、孟、高、岑这六大诗人的交往圈,互有重叠交叉。他们之间复杂的网状关系,在传统的文学史观念里,很少有人留意过它的存在及其文学史意义,也很少有人做过系统梳理。其实用传统的方法也无法理顺这么复杂的关系网络。
现在运用数字人文技术,很容易理清这些诗人复杂的交往关系。只要将他们的交往活动数据导入Gephi软件,诗人复杂多元的社会交往关系网络图就可以清晰地可视化呈现。徐永明曾以汤显祖为例,展示过汤显祖、屠隆和汪道昆三人的社会关系网络图。一位诗人跟哪些诗人有直接交往或间接交往,交往的频次、交往的时空节点都一目了然。哪些诗人是单向交往,哪些是双向互动且频繁交往,谁是交往关系网络中活跃的中心人物,谁是几大交往圈中的连接点,都能清晰呈现。
仅仅是这些诗人作家的社网图(social network graph)呈现的文学史图景,就比我们在文学史、文学编年史著作里看到的少数经典作家孤零零的身影要丰富、有意味得多。依据作家社网图,可以动态地考察不同年份、不同时期诗坛文苑诗人作家的互动过程和空间地域分布,观察这些交往活动是点状分布(集中在某几个地区)、还是线性分布(流动分布在某条驿路要道沿线)、抑或是扇面分布(相对集中在一个或几个区域、流域)。这些交往活动给文学版图的移动变化带来什么样的影响。利用作家社网图,可以考察一个作家在动态交往过程中不断走向成熟的创作历程,接受过哪些名家的指教,得到过哪些前辈的鼓励认可,受到过哪些同道的激发。这将改变我们的文学史观念,使我们更加注重从文学交往关系中动态探讨个体作家的成长史、每个时期的文坛发展史、文学空间版图的变迁史。
三是从宏观社会分析转向具体现场还原。传统的文学研究,重视宏观层面的社会文化环境分析,而常常忽略对作家生活地、创作地具体现场环境的关注。特定的作家生活地、创作地的现场环境,包括地形地貌等自然环境和风俗习尚社会事件等人文环境,会更直接地影响作家创作时的心态,与作品的创作空间、表现空间有着更直接的关联。而数字人文则为文学历史现场的还原与建构提供了理念引导和技术支持。比如,要研究范仲淹仁宗庆历年间在西北边塞所作《渔家傲》(塞外秋来风景异)词,传统的文学史观念是引导我们去关注当时宋夏战争局势和范仲淹的战争决策,而不会去关注范仲淹是在什么样的生活环境、地理环境中写这首词的,也不会关注此词创作地的地理环境与词的表现空间有什么深层关系。而基于数字人文的文学编年地图平台,首先要追问和解决的是作品创作具体地点的空间定位。根据相关研究成果确定此词的创作地点是在庆州之后,将当下地图和历史地图图层进行交叉对比,就可以发现庆州当时是与西夏接壤的位于宋夏战争前线的边塞“孤城”。正因为是边塞孤城,“四面边声”才让将士们闻之凄然伤感。再切换卫星地图,观察庆州的地形地貌,结合当地的地景图片,又可以真切地感受到范仲淹词中所写“千嶂里”“孤城”的荒凉、逼仄和压抑。还原范仲淹词的历史现场,才能透彻理解词中表达的深层意蕴是述边塞之劳苦,而非建功立业之豪情。
回归和还原作家的生活现场、作品的创作现场,是文学研究的必然需求。王夫之曾说创作必须有亲身经历和现场感受:“身之所历,目之所见,是铁门限。即极写大景,如‘阴晴众壑殊’‘乾坤日夜浮’,亦必不逾此限。非按舆地图便可云‘平野入青徐’也,抑登楼所得见者耳。隔垣听演杂剧,可闻其歌,不见其舞,更远则但闻鼓声,而可云所演何出乎?”研究文学作品,同样需要回到作家的创作现场、表现现场去切身感受作家“身之所历,目之所见”,才能深得作者之用心、作品之奥妙。与王夫之同时的贺裳也说过相同的感受:“余以柳诗自佳,亦于东坡有同病之怜,亲历其境,故益觉其立言之妙。”亲历其境后,更能体悟柳宗元、苏轼诗之精妙。回归和还原作家的生活现场和作品的创作现场,应该成为文学研究的“铁门限”,而数字人文技术为还原文学现场提供了极大的便利。
其四,改变文学时空的认知角度和方法:从一维转向多维。
基于文学编年地图平台的文学研究,将从时间和空间两个维度改变我们的文学史认知。
时间上,能细化文学史的时间粒度。传统的文学史研究,多为长时段的观察,很难进行短时段的探究,因为没有系统翔实的作家作品编年为依据。长时段的研究,可以将具体的时间进程模糊处理。而短时段的研究,比如一年、三年、五年、十年的文学史研究,当无法确定这些年度产出过哪些作品时,就无法进行具体分析。而地图平台的编年系地数据,能翔实呈现每年文坛上有哪些作家在哪里活动,每年产生了哪些文学作品。比如,据目前上线的唐宋文学编年地图平台数据统计,北宋元祐元年至元祐六年(1086—1091),每年在各地活动的作家,分别有1178、1332、871、718、725、856人次,每年产生的作品都在150篇以上,其中元祐元年有206篇,元祐六年有226篇。有了这些数据,观察文学史的发展变化,就可以细化到一年、二年或几年之间。今后研究或撰写文学史,不再只有断代文学史,还会有年度文学史,可以书写一年、三年、五年、十年的文学史。“年度文学史”“时段文学史”研究,将会成为新的有待探索的学术领域。
时段文学研究,可以不再依据社会政治史的分期来分段,而是按年度作品量的涨落变化进行分期观察,重新审视和思考文学史的阶段性变化。比如,唐诗有分三期、四期的,有分五期、六期的。我们可以利用唐诗编年数据来观察唐诗作品量的年度变化曲线,对已有的各种分期进行检验,看哪一种分期更切合历史发展的实际。以往研究只是感性认知,有了诗歌编年数据的支撑,就能更客观地看出各个时期的变化曲线。哪个年份是文学变化的关键节点,哪个地方是文学变化的核心场域,今后都会有新的发现,从而有可能改写诗歌史、文学史的发展进程。
空间上,能深化文学的空间层次。编年地图平台,不仅强化了文学史的空间意识,更能深化对文学空间的认识:从静态空间拓展到动态空间,从平面空间拓展到立体空间。
静态空间,是按作家籍贯划分的空间。动态空间,是指作家的活动空间,包括作家的游历地和寓居地。以往的文学地理空间,多依据作家籍贯来划分,是单一的、不变的、有限的。而动态空间是丰富的、多变的、广阔的。比如,苏轼青少年时期在家乡眉山生活了20多年,只留下38首作品;进士及第后,离开故乡到外地生活40多年,在92个州府创作了8058篇(首)作品。其中在黄州、惠州、儋州三个贬谪地分别创作了868篇、648篇、345篇作品,占其一生作品总量的23%。贬谪地的生活环境较之出生地和寓居地对苏轼创作的影响更深更大。不同谪居地的地域文化环境对苏轼的心态和创作有何影响,作家的出生地、寓居地、贬谪地与其创作量的阶段性变化有何关系,作家在各地逗留时间的长短与其创作量的涨落变化有何规律性关联,唐宋时期作家的文学创作与其活动地理环境的关系有何变化,依据比较翔实的编年系地数据,就可以追问和探索这些问题。
以往研究多从作家籍贯一个维度平面观察文学空间,现在,我们可以从点、面、线三个维度立体探讨文学空间。点,是对一州一县或一省一市的文学状况、文学活动进行考察;面,是探究一个较大的区域或流域,如长江流域、汉水流域、黄河流域、淮河流域、环太湖流域的文学图景和发展进程;线,是通过一条条交通要道(驿路)来观察不同时代、不同时期的文学风会及其变化。比如,唐代从长安经蓝田、商洛过襄阳再到岭南的这条南北走向的驿路上,王维、杜甫、皇甫冉、钱起、李嘉佑、张籍、韩愈、柳宗元、元稹、白居易、吴融等人都创作有诗篇,表现了各自不同的经历和命运。考察这条驿路上往来的诗人诗作,既可以借此考察唐代的交通路线、交通状况,也可以深入探讨交通条件、交通状况对诗人生活和心态的影响。以前我们不知道有哪些诗人走过这条路,什么时候、什么环境下走过这条路,依据文学编年地图平台的大数据,就可以通盘掌握唐代诗人在这条艰难崎岖驿路上留下的生命印记和人生体验。又如杜甫《闻官军收河南河北》所说的“即从巴峡穿巫峡,便下襄阳向洛阳”,是从蜀中到洛阳、长安的交通路线:先沿长江出峡,走水路到湖北江陵上岸后,再走陆路过襄阳,然后到洛阳、长安。杜甫所说的这条路线,宋代苏轼就曾经走过。唐宋两代交通条件和交通状况有哪些变化,诗人在这条路上各留下哪些作品,途中的生活体验、沿途所见自然风光和社会风气有何异同,都值得我们去关注和探讨。点、线、面的结合,可以开拓出文学研究的多重空间。
可以预期,过去以时间为轴心的研究范式,将会逐渐转向时空结合为轴心的研究范式。时间序列的文学史书写范式和空间序列的文学史书写范式将会携手并进,从而建构文学史研究的新格局。
其五,改变作家年谱和文学编年史的书写范式。
自北宋以来,作家年谱形成了重时轻地的基本理念和以时间为中心的“时间+人物+事件(活动)+作品”的四要素范式。受数字人文空间观念的影响,重新确立编年系地并重的理念之后,年谱的撰述也应该改变传统的观念和范式,将四要素扩展为时地并重的“时间+地点+人物+事件(活动)+作品”五要素范式。作家活动和作品写作的时间、地点信息要一并考实。而且,地点信息,不能满足于落实到州县级行政区,还要细化到具体的地点场所,以便重返历史现场,深入勘查创作地点、场所的自然地理环境和人文环境,考察不同地理环境对作者创作心态的影响,分析地理环境与作品表现空间的关系,从而拓展文学研究的广度和深度。
确立编年系地并重的理念和年谱的书写新范式,将为古代文学提供新的研究课题。我们用“时间+地点+人物+事件(活动)+作品”五要素来评量宋代以来的作家年谱,就可以发现,历年来的年谱,都或多或少缺失系地信息。套用前些年“重写文学史”的说法,有必要“重修年谱”,或借用清人李光廷《广元遗山年谱》的说法,需要全面“增广”年谱、增订年谱的系地信息。
跟重修年谱相关的,是增广别集的编年笺注。一般的别集编年笺注,也是编年意识明确而系地意识模糊,主要致力于作品创作时间的推考,有些作品创作地点可考而未考,写作场所能细化而未细化。比如,欧阳修《朝中措·送刘仲原甫出守维扬》词,《欧阳修词校注》考定它作于至和三年(1056) ,却没有考实其写作地点。其实,此词“辑评”中已引录傅干《注坡词》的记载:“公在翰林,金华刘原父出守维扬,公出家乐饮饯,亲作《朝中措》词。”这段记载,明确说明《朝中措》是欧阳修至和三年任翰林学士时在汴京的家宴上所作。弄清此词是在家中私宴所作,对理解词人的创作心态和词作主旨大有助益。欧阳修此词本可系地而未系地,与史料文献不足无关,史料原本就在眼前,更与笺注者的学识无关,而与笺注时重编年轻系地的传统观念有关,与编年校注的固有范式有关。这不是《欧阳修词校注》一书的遗憾,而是历来别集笺注的普遍情况。如果一一梳理并增广订补宋代以来别集笺注的系地信息,来一次“重订别集”或“广别集校注”,该有多少工作要做。今后的别集注释体例,除了传统的“编年”“校勘”“笺注”等项之外,还应加上“系地”一项,以完善注释体系,增加注释容量,拓展文献视野。
文学编年史著作,跟年谱和别集编年笺注一样,需要更新传统的重编年而轻系地的观念,需要改变唯有编年、罕有系地信息的固有范式。文学编年史,需要增订系地信息,以满足和适应新时代古代文学研究的需求。重写文学编年史,不只是增补已知的文学活动和作品创作的系地信息,还要考订未知的文学活动和作品创作的系地信息,以完整呈现一个时代文学发展历程的时间先后与空间离合。技术的进步促进学术观念的更新,学术观念的变革又带来研究范式的转换和研究领域的拓展。技术进步推动着学术变革与发展。
四
四、展望和反思:自动识别作品的互文关系与重建文学历史现场
自动比对识别作品之间的互文关系,也就是寻找原作和后续作品之间的渊源性、传承性和相似性。这可以从一个侧面考察前代作家对后世作家的影响、后世作家对前代作家的接受。近年来的中国古代文学接受史研究,主要是依据已有的理论文献,诸如诗话、词话、文话、赋话等,来考察后代作家对前代作家的接受,而很难从创作实践、具体作品中寻绎出完整的资料数据,来定量分析和定性描述前辈作家对后世作家的影响、后辈作家对前辈作家的接受。比如,黄庭坚和江西诗派诗人学杜甫是文学史常识,可要全面找出黄庭坚有哪些诗句是学杜甫的却难以措手。欧阳修熟读韩愈文章,文章作法也多学韩文。他的友人刘敞曾经开玩笑说:“永叔于韩文,有公取,有窃取,窃取者无数,公取者粗可数。”但欧阳修究竟哪些文章、哪些语句是学韩愈,找一两个例证不难,难的是找出明学(“公取”)特别是暗学(“窃取”)的“无数”例证。杜诗、韩文,是宋代作家的入门读物,但宋代作家究竟怎样学杜学韩,哪些诗句文句是出自杜诗韩文,人力难以一一找出。创作层面的接受史研究无法推进,整个古代文学接受史的研究也就难以深入。
而数字人文技术,可以在一定程度上逐步解决这个问题。那就是用模糊检索技术和编辑距离算法,把两个以上的文本放在一起比对,寻找出彼此相似的诗句或文句。比如,在搜韵网站的历代诗词数据库里,就可以自动分析、呈现并统计每首诗词被后代诗人词家引用、化用、仿作的语句及次韵的诗篇。以杜甫《登高》为例,在数据库检索到此诗后,点开“相似句子”和“同韵作品”两个按钮,就可发现14位明清诗人有次韵之作,多位后代诗人词家仿作和化用诗中语句。其中“无边落木萧萧下”一句,就有17人引用、化用。化用的诗句有“无边落木响萧萧”“人间落木萧萧下”“天空落木萧萧下”“萧萧落木下寒溪”“萧萧落木下河干”“天空落木下江滨”“天空落木下孤洲”“天空落木下秋畇”“天空落木下亭皋”“荒亭落木下亭皋”“风高落木无边下”“无边落木气萧骚”等。如果再加上题材的相似性、句法的趋同性和意境的近似性等条件,所得数据会更多更全。如黄庭坚《登快阁》诗中的“落木千山天远大”就与“无边落木萧萧下”意境相近,可以补入。当然,目前的技术还只能寻绎比对出显性的语词相似关系,隐性的语义关系、句法关系(字面不同而句法相同)识别率还比较低。随着数字人文技术的日益进步,对不同作品之间的语义关系和句法关系的识别率将逐步提升。
如果对这些引用、化用、追和、次韵的数据进行全面统计分析,就可以深入了解杜诗乃至唐诗的影响力及其在后世的接受度与变异性,从而突破接受史难以全面采集创作层面接受数据的瓶颈,为接受史研究提供系列性的新资料、新数据。有了新资料、新数据,当然就会有新发现、新观点,突破接受史研究的困境。
重建古代文学的历史现场,是用虚拟现实技术(Virtual Reality),还原建构古代文学作品的创作现场或表现现场。VR技术飞速发展,早已走进考古、博物、档案、建筑、医疗、机械制造、刑侦、军事等领域,而古代文学研究至今还没有出现让人满意的VR产品和真正实景的AR产品。VR技术中,沉浸式VR系统、桌面式VR系统和体感式VR系统,在重建文学历史现场、深度解读古典诗词意境方面,具有独特的身临其境的优势。尤其是沉浸式VR技术,能够让读者逼真感受和体验到千百年前诗人所处的生活环境、创作环境及其情感心态。在当今读屏、读图时代,我们尤其应该让VR技术、AR技术与古代文学特别是古典诗词结合起来,给读者带来全新的阅读体验。
试举一例,韩愈《左迁至蓝关示侄孙湘》的“云横秦岭家何在,雪拥蓝关马不前”两句诗,字面上似乎不难理解,但为什么马到雪拥的蓝关就不肯前行、不能前行了,仅凭阅读经验、日常生活经验是很难想象的。我们用数据库同类聚合的材料,看看韩愈另一首《南山诗》的回忆:“初从蓝田入,顾眄劳颈脰。时天晦大雪,泪目苦矇瞀。峻途拖长冰,直上若悬溜。褰衣步推马,颠蹶退且复。”再看白居易《初出蓝田路作》的描写:“停骖问前路,路在秋云里。苍苍县南道,去途从此始。绝顶忽盘上,众山皆下视。下视千万峰,峰头如浪起。”白居易是秋天经过蓝田驿路,韩愈两次都是深冬下大雪时走过。综合韩、白诗可知,这段蓝田驿路,是蜿蜒起伏在重峦叠嶂之间。大雪后,陡峭的山路都结冰了,如冻住的垂直瀑布(“悬溜”)。人下来推马,好不容易推进一步,旋即就下滑倒退几步。简锦松教授曾经三次实地勘查蓝田驿路,证实白居易和韩愈的诗完全是写实。登上白居易所说“绝顶”七盘岭,要攀爬三重绝顶棱线,山路极其陡峭险峻。如果运用VR技术,根据多幅实景照片,结合卫星地图,参照唐人相关诗作,重建、再现韩愈“云横秦岭家何在,雪拥蓝关马不前”的历史现场,读者更能真切体会韩愈受政治迫害后在冰天雪地里翻越崇山峻岭时极度悲伤、极端无助的心情。那种现场感、亲历感,会带给读者与文字阅读不同的浸入式阅读体验。
把真实世界的场景和电脑图形逼真地重合,利用大量的现场实景照片和全景照片以及考古成果、博物图片、历史地图等,重建古代诗词乃至散文、小说、戏曲作品中的历史现场,可以让读者沉浸其中,获得身历其境的感受。在仿真场景中,读者可以化身古代的作者或作品的主人公,以强烈的代入感体验历史情境。随着VR技术的日益成熟和门槛降低,古代文学历史现场的重建,不久将成为现实。
我们也必须清醒地认识到,数字人文技术不可能解决古代文学研究的所有问题。仅就数据挖掘而言,有些问题,再好的技术也难以解决。比如,数据需求的海量化、完整性与数据来源的有限性之间的矛盾,就是技术无法解决的。文学编年地图平台,要求编年系地的数据越多越好、越完备越好。但是,编年系地的数据依赖于已有作家作品编年系地的研究成果,而作家作品的编年系地研究成果却是有限的。唐宋两代作家作品编年系地的研究成果,虽然相较其他时代而言还算丰富,但成果总量还是难以满足数据完整性的实际需求。唐代作家有编年系地研究成果的仅一百余家,宋代作家有编年系地研究成果的也不超过四百家。要解决这个供需矛盾,有待古代文学研究者的共同努力,推出更多编年系地研究的新成果。技术可以帮助我们古代文学研究者提高研究的效率,突破研究的局限,但不能替代我们应该做的基础性工作。
技术可以部分解决大数据的体量,但难以保障数据的质量。文学大数据,要求量大而质精。数据的精度,更需要人力来把关掌控。数据开发者,学术追求指数越高,对数据的精度要求也就越高。我们开发的文学编年地图平台,为保障数据的精确性和可靠性,虽然采取了精选优质文献来源、由专业人员提取数据、数据提取时订补来源文献的缺失和错误、数据提取后实行复核制等举措,但数据精度,还有待提升。技术的不断进步和突破,可以提升数据挖掘的精度,但最终还是要依靠人力来保障和把关。
技术是被动的,需要我们研究者发挥主观能动性,创造性地使用它。再好的VR技术,没有古代文学研究者的参与设计,没有对文学创作现场的深入勘查,没有对作家创作心态的深刻理解,是无法准确完美地建构文学的历史现场、复原作家的创作心境的。数字人文技术,需要人文学者的创造性运用,才能推动学术的进步。
还有必要指出,数字人文不会影响或替代我们文学研究主体的文本解读、审美感知。技术可以帮助我们“发现”潜藏在海量资料和数据底下的文学史事实,帮助我们做出事实判断,但不能代替我们做审美判断和价值判断。技术可以节省、“解放”我们在学术研究过程中所需要的“体力”,但不能代替我们的“脑力”“智力”,不能代替我们思想和感悟。技术永远是工具,是按照人的主观意愿而发挥作用。
陈寅恪曾说:“一时代之学术,必有其新材料与新问题。取用此材料,以研求问题,则为此时代学术之新潮流。”数字人文为文学研究提供了新方法和新机遇,发掘新材料,研究新问题,开拓新范式,将成为我们这个时代学术的新潮流。
转 载 请 联 系 授 权