王兆鹏 郑永晓 刘京臣︱借器之势,出道之新——“数字人文”浪潮下的古典文学研究三人谈
唐宋时代全景
本文原刊于《文艺研究》2019年第9期,责任编辑陈斐,如需转载,须经本刊编辑部授权。
摘 要 “数字人文”已成为一种强大的浪潮,成为人文社会科学研究的一大趋势。数据、平台、团队是数字人文的三大核心要素。古典文学的数字人文研究,既要注重作家、作品和历史地理等系列数据和结构化数据库的基础建设,使数据库可以实现语义检索、时空定位、关联生成,又可以统计分析、可视化呈现,还可以运用大数据和信息挖掘技术,开展空间分析、时段考察、意象流变、作家作品的接受史和影响史等理论研究。数字人文会给文学研究的范式、方法、视角带来重大影响和变化,提高研究的科学性。今后的数字人文研究,应该以问题为导向、人文为本位、技术为辅助、数据为基础、平台为契机、团队为依托,守正出新。
■ 王兆鹏 永晓、京臣,二位好!“数字人文”(digital humanities)研究已成为一种强大的浪潮,成为人文社会科学研究的一大趋势。《文艺研究》杂志约咱们三人谈谈数字人文研究的最新进展以及古典文学研究应用数字人文的前景。这次两位来武汉开会,正好可以好好地交流一下。
一、 数字人文的特点与发展历程
■ 王兆鹏 先请永晓介绍一下数字人文。
■ 郑永晓 关于“数字人文”,维基百科中文版的定义是,电脑运算或信息科技与人文学的交叉学科,是以合作、跨学科与电脑运算等新方法来进行人文学的研究、教学、出版等学术工作。这只是众多定义中的一种。事实上,学界还没有统一的定义。由于数字人文的持续发展及其开放特性,旧的定义往往很快会被新的定义所取代。
■ 刘京臣 确实,有学者在系统梳理西方数字人文的发展历程后指出,“什么是数字人文”这一题目本身,已经成为一种写作题材,以至于每年都会有专著面世,可见这一概念很难定义。
■ 王兆鹏 虽然难以定义,但合作、跨学科和电脑运算这三点,应是数字人文的基本特征。
■ 郑永晓 是的。数字人文是从“人文计算”(humanities computing)发展而来的。它使用数字化的资料或数字原生资料,结合传统人文学科如历史学、哲学、文学、艺术、考古学、文化研究与社会科学的方法论,以计算机运算所提供的工具,如超文本、超媒体、图像、文献检索、数据挖掘、统计等,进行综合性研究。
■ 王兆鹏 跟人文计算相比较,数字人文有哪些特点?
■ 刘京臣 可以从数据、平台、团队三个方面来审视数字人文的特点。数据,是数字人文的核心要素。人文计算阶段的数据大多是文本,数字人文阶段的数据更复杂多样。除文本外,图像、地图、建筑等都可成为数据来源,成为被数字化、数据化的对象。平台,是数字人文的基础设施。平台将复杂多样的、非结构性的“大数据”(big data)开发成关系型结构化数据库,供用户使用。团队,是数字人文的人力保障。数字人文的建设者、参与者,很少是单打独斗的,需要团队合作。就现阶段来看,比较成熟的数字人文项目,基本上都有比较成熟稳定的团队。例如斯坦福大学、哈佛大学及我国的台湾大学、武汉大学、中南民族大学、浙江大学等高校,都各有一批数字人文学者组成的不同形式的团队,并建有相关实验室或研究中心。当然,不同的数字人文项目,各有侧重,有的侧重数据挖掘,有的侧重平台架构,还有的侧重方法论与工具推广。凡是以信息技术为依托来推动人文社会科学发展的项目,都需要团队协作,需要信息技术人员和人文学者的合作攻关。
■ 王兆鹏 “数字化”与“数据化”有什么区别?很多人不明白,数字化文献库与结构化数据库究竟有什么不同?我们现在常用的全文检索数据库,如《国学宝典》《中国基本古籍库》《汉籍全文检索系统》《文渊阁〈四库全书〉电子版》和《中华经典古籍库》等,是不是结构化数据库?
■ 刘京臣 您说的这些数字化文献资源库,是通过信息技术对文献进行处理,使其转化为电子数据格式,能够通过光盘、硬盘、磁盘阵列等保存和传播。我们存储在电脑硬盘里的各种文献资料、网上流传的各类电子书、图片文献、文本文件以及超文本标记语言(HTML)文件、可扩展超文本标记语言(XHTML)文件等,都属于数字化文献。
■ 王兆鹏 通俗地说,非结构化数据库,是一种固化数据。《中国基本古籍库》之类的文献资源库,只是用数字化方式储存,并没有改变原书的文本形态,它只能进行字词检索,而不能提取数据,检索到的资料不能重组关联。而结构化数据,是一种活化数据,是将原始文本按一定规则转化成碎片化数据,数据之间可以任意重组关联,形成新知识,发现新问题;可以自动生成数据,进行统计分析;可以进行语义检索和时空定位;并能可视化呈现。哈佛大学的《中国历代人物传记资料库》和我主持的《唐宋文学编年地图平台》,都是这样的结构化数据库。
■ 郑永晓 从某种意义上说,结构化数据库是数字化文本型文献资源库的升级版。数字化文本型文献资源库,是结构化数据库的基础资源,通过技术创新,可以升级转化为关系型结构化数据库。
■ 王兆鹏 讨论了数字人文的特点,我们再追溯一下数字人文经历了怎样的发展历程。
■ 郑永晓 数字人文的前身人文计算,可以追溯至20世纪40年代末,当时耶稣会士罗伯托·布萨(Roberto Busa)和他的助手跟IBM公司合作,利用大型计算机制作了托马斯·阿奎那著作的索引,称为“Index Thornisticus”。60年代,《计算机与人文科学》杂志诞生,标志着人文计算的正式兴起。
■ 刘京臣 从人文计算到数字人文的用词转变,始于2004年约翰·恩斯沃思(John Unsworth)等人所编的文选《数字人文指南》(A Companion to Digital Humanities, John Wiley and Sons Ltd, 2004)。2006年,美国人文学科国家基金发起成立数字人文组织,2008年改名为数字人文科学办公室。自此,“数字人文”一词在美国被广泛接受。
《数字人文指南》书影
■ 郑永晓 近十多年来,数字人文学发展迅猛,渐成热潮。研究机构如雨后春笋般涌现,各种数字人文研究学会和专门的研究中心遍布全球。截至2019年4月20日,数字人文合作组织“数字人文中心网络”(Center Net)收录的数字人文中心已达201个。专门的数字人文期刊也纷纷创办,如国际数字人文组织联盟赞助出版的《数字人文季刊》(Digital Humanities Quarterly)、欧洲数字人文协会主办的《数字人文学刊》(Digital Scholarship in the Humanities)等。
《数字人文季刊》官网
《数字人文学刊》官网
■ 王兆鹏 我们中国的数字人文,是什么时候开始起步的?
■ 郑永晓 2009年,武汉大学信息管理学院王晓光教授,在其博客上发表《“数字人文”的产生、发展与前沿》,此文后收录于武汉大学出版社2010年11月出版的《中国高校哲学社会科学发展论坛:2010方法创新与哲学社会科学发展》。这是较早全面介绍国内外数字人文发展状况的文章。学界将此文视为国内数字人文研究的正式起步。2011年之后,相关论文逐渐增多,数字人文的专题研讨会也不断举行,涉及地理信息系统、图书馆学、档案学、文学、文献学、历史学、学术出版等。
■ 刘京臣 台湾地区的数字人文,起步比我们大陆略早。2008年,台湾大学成立数位人文研究中心,并发行第1期《数位人文研究中心电子报》。此后,“中研院”和政治大学都成立了数位人文中心,每年12月定期召开数位人文国际学术研讨会,至今已举办了九届。
■ 郑永晓 值得注意的是,在“数字人文”这一名词被介绍到中国之前,无论是大陆还是台湾,都已有这方面的研究和实践。如2005年,北京大学中文系李铎教授主持开发了《全唐诗分析系统》《全宋诗分析系统》。2009年,南京师范大学虚拟地理环境教育部重点实验室开发上线《华夏民族家谱地理信息系统》。2010年,李铎又与国家图书馆联合开发了《中国历代典籍总目分析系统》,旨在挖掘海量书目数据背后隐藏的知识。
■ 刘京臣 台湾“中研院”史语所范毅军研究员主持开发了基于GIS的《中华文明之时空基础架构》,提供上古至清代二千多年的中国历代基本底图和各类历史地图、遥测影像等基础信息。利用这个平台,可以开发出适合不同学科的专题地理信息系统,如考古地理信息系统、文学地理信息系统等。
■ 郑永晓 已故台湾元智大学罗凤珠教授,也做了卓有成效的探索。她在20世纪80年代就开始关注电脑介入人文学科的研究,这对中国韵文的语意标记及语意概念分类研究、文学地理信息研究尤具启发意义。她主持开发了《宋人与宋诗地理信息系统》。可惜她英年早逝,令人叹惋!
■ 王兆鹏 人文学者普遍关心,数字人文究竟有哪些功能,或者说它能解决什么问题?
■ 刘京臣 这确实是一个非常重要的问题。早在人文计算时代,人们就追问:人文计算的功能是什么?它能解决什么样的问题?无论是早期的人文计算,还是现阶段的数字人文,它要解决的,就是不借助信息技术手段学者难以发现的问题与难以进行研究的课题。简单地讲,数字人文所要解决的,取决于学者的需求;所能解决的,取决于技术的发展。比如,早期文史类数据库的数据,很大一部分是靠人工录入的;随着技术的发展,出现了以多特定人规范手写识别引擎为代表的OCR识别。正是基于这种技术,解决了《文渊阁〈四库全书〉电子版》90%以上的录入问题。近些年OCR技术不断发展,应用领域也越来越广泛,但是能准确识别稿抄本的OCR技术尚未问世。即使有了这种技术,也还没有大规模应用到稿抄本的识别领域。这便是“要解决的”与“能解决的”二者之间的矛盾。
■ 郑永晓 基于大数据的数字人文研究,在宏观研究方面具有优势。比如,我国历代以“愁”为主题的作品不计其数,传统方法几乎不可能对历代所有以“愁”为主题的作品进行分析。而“主题模型算法”(latent dirichlet allocation)作为一种机器学习技术,可以用来识别大规模文档库或语料库中潜藏的主题信息。其原理在于可以将文本库中每篇文档的主题以概率分布的形式抽取出来,通过分析这些抽取出的主题,进行主题聚类或文本分类。
■ 王兆鹏 每个时代作家群的社会流动、不同时代作品之间的互文关系,人工很难全面了解其详情,而用数字人文技术的文本挖掘功能就可以发现和解决。
■ 刘京臣 在近现代文学研究领域,报纸、期刊的流行,使得文献数量数倍于古代。随着西学东渐和中西文化碰撞,各类文学观念、思想观念往往经过一段时期的潜藏突然流行开来。对这些观念、思想流变的研究,传统作法是选取代表人物的代表作品、代表言论进行分析。这既缺乏大规模的实证依据,而所谓代表人物、代表作品也往往是后知后觉的产物,并不一定符合当时的实际。结合传统词源学、语义学和大数据技术,完全可以清晰地显示某个观念的诞生、潜隐、突变、流行、淡出的过程。
■ 王兆鹏 我曾经统计过《梁启超全集》中的相关语词,发现他早期使用的人称代词都是“吾”,后期多用“我”。如果对梁启超用语进行全面的历时性分析,那么就可以看出20世纪初期有关观念和用语的变化轨迹。
■ 郑永晓 目前的数字人文研究,虽长于宏观研究,但也能解决微观问题。例如,人物关系挖掘就是目前数字人文研究领域一个颇具特色的分支,可以利用信息抽取方法对人物进行社会网络关系挖掘,可以对多个关联作品的人物关系进行分析,这在小说研究中颇为实用。
二、 国内外数字人文研究的实绩与进展
■ 王兆鹏 近年来,国外数字人文研究取得了哪些实绩?做了哪些项目?建了哪些平台呢?
■ 刘京臣 国外跟我们中国文化有关的数字人文研究项目,比较引人注目的有三个:《中国历代人物传记资料库》(CBDB)、《中国历史地理信息系统》(CHGIS)和《古籍半自动标记平台》(MARKUS)。
中国历代人物传记资料库
中国历史地理信息系统
古籍半自动标记平台
■ 郑永晓 《中国历代人物传记资料库》由哈佛大学费正清中国研究中心、台湾“中研院”历史语言研究所与北京大学中国古代史研究中心共同建设,旨在系统收录中国历史上所有重要的传记资料,并免费供学界使用。从方法论的角度看,它主要涉及三个方面:一是群体传记学,力图通过一群历史人物生平的集体性研究探讨其共同的背景特征;二是社会网络分析(SNA),近三十年来已逐渐成为人文社科研究的一种新范式;三是地理信息系统(GIS),借助ArcGIS、MapInfo、Google Earth等软件将《中国历代人物传记资料库》与《中国历史地理信息系统》的数据整合在一起,可以帮助研究者在大量传记数据中归纳出一定的模式。《中国历代人物传记资料库》实现了数据、平台、方法论与工具的有机整合,颇具引领和示范意义。
■ 刘京臣 《中国历史地理信息系统》由哈佛大学、复旦大学共同研发,试图建立一套可靠、开放的基础地理信息数据库。《古籍半自动标记平台》由荷兰莱顿大学魏希德(Hilde de Weerdt)教授与何浩洋博士设计开发,是一个纯线上文本标记工具。通过自动或人工标记,使用者可以为文本标记出人名、地名、年号、职官等关键词。这些经过特征标记的文本,会成为其他数字人文研究的数据来源。与《中国历代人物传记资料库》相比,《古籍半自动标记平台》是一个文本标记平台,自身没有数据,需要使用者提供数据。
■ 王兆鹏 这些年,我国的数字人文研究也取得了很大进展。
■ 郑永晓 从研究机构来看,国内成立了一些数字人文研究中心。2011年,武汉大学成立了大陆首家高校数字人文研究中心。2017年,南京大学历史学院成立了数字人文研究中心。
■ 王兆鹏 2018年3月,我们中南民族大学也成立了数字人文资源研究中心,致力于数字人文资源的开发与应用,近期主要开发唐宋文学知识图谱,拟将唐宋时期的全部文学作品和历史文献转化成关系型结构化数据库。
■ 刘京臣 从平台建设来看,台湾大学的DocuSky数位人文学术研究平台,以人文学者研究需要为指归,进行个人化材料整理与分析。注册后,用户可以利用平台所提供的各种工具,实现个人文本的格式转换、标记与建库、探勘与分析以及可视化、GIS整合等。
■ 郑永晓 首都师范大学张萍教授主持开发的《丝绸之路历史地理信息开放平台》,2017年6月已上线运行。该平台是国家社会科学基金重大项目成果,针对两千年陆上丝绸之路地理信息进行采集、储存、分析、管理,提供丝绸之路沿线综合的历史地理数据,便于进行丝绸之路历史地理长时段、综合性问题的研究,也便于学者进行个性化的专题研究内容。
丝绸之路历史地理信息开放平台
■ 王兆鹏 下面我们谈谈中国古典文学研究领域的数字人文研究成果吧。
■ 刘京臣 古典文学研究领域较早利用地理信息系统(GIS)从事数字人文研究的,应该首推您啊。
■ 王兆鹏 不敢当,我只是较早尝试而已。2012年,我主持的国家社会科学基金重大招标项目“唐宋文学编年系地信息平台建设”获准立项,整合了古典文学研究领域的一百多位中青年学者,历时五年,开发出《唐宋文学编年地图平台》,2017年3月上线。目前上传的唐宋诗人行迹数据只有156家,还有300位诗人的数据不久将上传。地图融时间、地点、人物、事件、作品为一体,将唐宋两代诗人的编年事迹和编年作品转化为关系型结构化数据,以历史地图为平台,可视化呈现诗人一生的活动轨迹。每个诗人何时经过或寓居某地,创作有哪些作品,一点即得。
点击一位诗人,如骆宾王,地图上便能呈现他一生的活动轨迹,经行之处凡有作品也都能呈现;点击一个地点,如洛阳,便可知自655—1123年,共有57位诗人曾在此停留,留下了603首诗歌;点击一个年份,可以呈现这一年在全国各地活动的作家。过去,一个时间点或一个时间段,我们只知道一个个作家各自独立的活动,有了编年地图平台,我们就可以了解这个时间点或时间段内所有作家的活动轨迹。一个地点,以前我们只知道一个或几个作家曾经在此活动过,利用地图平台,就可以知道不同时间里所有作家在此活动的情况。历史上在同一时间、同一地点活动的众多作家,过去被一张无形的墙幕隔离,我们只能知晓每一个个体的活动,而无法同时知晓一群人、一代人的活动。文学编年地图如同拆除了这张墙幕,让历史上一群人、一代人的活动轨迹同时呈现,一个时期的文学生态、文坛活动图景由此得以还原性建构。
苏轼平生行迹图
宜昌
地图平台还支持多元素呈现模式,选择两个时间点,比如“1068—1077年”,便可知张方平、文彦博、富弼、张先、苏轼、苏辙等35位诗人在熙宁年间的活动轨迹。选择任意两个地点,就可以知道哪些作家曾经从此地到彼地。比如,选择“西安—潮州”,地图上立即呈现出唐代韩愈和李德裕从西安到潮州的时间、经行路线以及沿途创作的作品。看了地图,我们可以更生动地感知韩愈“一封朝奏九重天,夕贬潮州路八千”的痛苦。综合两人的经行路线,我们就可以大致勾勒、还原出唐代从西安到潮州的交通路线图,也可以据此检验严耕望先生《唐代交通图考》的正误。打开卫星地图,我们还能了解韩愈南贬途中经行之地的地形地貌。
苏轼入京图
■ 郑永晓 我觉得,编年地图平台的亮点之一,是首次提出了“系地”这一理论支撑点并付诸实施。传统文史研究,无论是编年文学史,还是年谱、作品系年,都是注重时间维度。而近年来受到重视的文学地理学,又仅关注文学创作的空间维度,忽略或淡化了时间维度。“系地”这一概念的提出,具有重大理论意义和应用价值,是了不起的创新。同时,平台背后还有时间、人物、活动和作品数据的支撑,是一个庞大的知识体系。与全文检索数据库仅能提供字词检索的思路完全不同,它可以提供更多维度的考量,提供更多的知识点,既能宏观考察,也能微观透视,从而将历代作家活动和创作立体地呈现出来,并且可以彰显出一个时期内作家迁移的总趋势。这种建立在大数据基础上的作家迁徙趋势,是比较精准的,是传统研究手段所无法实现的。
■ 王兆鹏 《唐宋文学编年地图平台》不仅强化了文学史的空间维度,更改变了文学地理空间的认知方式。以前文学的地理空间,人们主要关注的是作家的籍贯地理,即据作家的籍贯而确定的地理空间。籍贯地理对了解作家作品的地域文化基因自有其意义,但籍贯地理是静态的、固定的,而作家的生活创作是流动的、变化的。大量的文学史实表明,作家一生的创作绝大多数是在故乡之外的他乡、远方,仅根据籍贯地理考察文学的地理空间,无法真正了解文学创作真实的地理空间。而过去根本无法突破这种认识的局限。如今有了作家活动编年系地数据库,就可以确定文学的活动地理,具体了解每个作家一生不同时期的活动地理和创作地理。今后将会由此产生一种新型的动态的地域文学、流域文学研究范式。
时间维度上,《唐宋文学编年地图平台》也可以为文学史研究提供新的视角和范式。传统的文学史研究,只能进行长时段的观察和研究,很难进行短时段的研究,因为没有详细的作家作品系年为依据。长时段的研究,可以将具体的时间进程模糊处理。而短时段的研究,比如五年、十年的文学史研究,当无法确定哪些作品是产生在这五年、十年之内时,就无法进行。而地图平台的编年系地数据,每年产生的文学作品都很明确、具体,每年活跃在文坛上的作家都一清二楚。因此,观察文学史的发展变化,可以细致到一年、几年之间。今后研究或撰写文学史,不再只有断代文学史,可能还有年度文学史,可以书写一年、五年、十年的文学史。哪个年份是文学变化的关键节点,哪个地方是文学变化的核心场域,今后都有可能被发现。“年度文学史”“时段文学史”研究将成为可能,从而开创出文学研究的新格局。
■ 刘京臣 除了王老师主持的这个地图平台之外,浙江大学徐永明教授与哈佛大学合作,联合开发了《学术地图发布平台》,自2018年3月19日上线以来,已发布三百余幅数据地图、六百多个图层、四十万条数据,力求从空间维度展示中国人文与历史。
学术地图发布平台
■ 郑永晓 首都师范大学周文业先生开发的《中国古代小说数字化软件》,可以逐字比勘同一小说的不同版本的文字,自动生成校记。北京大学李铎教授开发的《全唐诗分析系统》《全宋诗分析系统》,可以自动查询重出互见情况,自动标注每首诗歌的平仄、用韵情况,便于进行大规模的格律分析研究。北京大学杜晓勤教授研发的《中国古典诗文声律分析系统》,实现了对中国古典诗歌及有关韵文进行四声自动标注和八病标识,既有助于研究永明体诗歌的声病情况,还可考察永明诗律向近体诗律演变的过程。这些都是有价值的数字人文研究的分析软件与分析工具。
■ 刘京臣 从论文成果来看,已有不少学者用数字人文的研究方法来分析研究古代文学中的问题和现象。比如严程《顾太清交游网络分析视野下“秋红吟社”变迁考》(载《山东社会科学》2018年第7期),借助社会网络分析来考察顾太清与沈善宝等十余位诗友的往来诗作,将文献中涉及的人物、时间和事件信息转换成变动的人际网络,并借助Gephi软件呈现出来;徐永明《中国古典文学研究的几种可视化途径》(载《浙江大学学报》2018年第2期),利用相关数据库,可视化呈现汤显祖的行迹、活动地点和社会关系的地理分布,也很新颖。
■ 王兆鹏 其实,你们俩在这方面的成果也很突出。永晓的《以GIS为例看信息技术在古典文学研究中的应用》(载《重庆教育学院学报》2006年第5期)、《情感计算应用于古典诗词研究刍议》(载《科研信息化技术与应用》2012年第4期)、《〈佩文韵府〉与康熙后期唐宋诗之争》(载《文学遗产》2017年第3期)等论文,都是有益的尝试。特别是利用大数据的思维方式和方法研究《佩文韵府》,颇具方法论的启示意义。京臣的《振笔欲增西域记——GIS视阈中〈万里荷戈集〉研究》(载《重庆师范大学学报》2015年第6期)、《大数据视阈中的文学地理学研究——以〈入蜀记〉〈北行日录〉等行录笔记为中心》(载《文学评论》2017年第1期)、《他者视阈中的数字方志建设——以燕行录中的蓟州为中心》(载《中国地方志》2017年第5期)等论文,都是围绕GIS进行数字人文研究的成功之作,为古典文学研究具体运用数字人文的理念和方法开示了门径,提供了范例。
三、 古典文学研究应用数字人文的前景
■ 王兆鹏 咱们前面回顾了海内外数字人文研究的进展,下面来展望一下古典文学研究领域进一步深入开展的愿景吧。我们可以从两个方面来谈,一是基础建设,二是理论研究。数字人文的基础工程是数据和平台,我们从事古代文学研究需要哪些数据,应该建设哪些平台呢?
■ 刘京臣 请王老师先说说这方面的思考。
■ 王兆鹏 好的。从数据来说,古代文学的数字人文研究至少需要三大系列数据。一是作家系列数据,包含作家本人的生平行迹、人物关系和后世的传播接受数据等。生平行迹,包括作家活动、创作的编年系地数据;人物关系,包括家庭世系、姻亲关系、师承关系、仕宦关系、地缘关系等数据;传播接受,包括本人的别集版本、后世的选本入选,当世和后世作家追和、仿效、化用、引用的数据以及评论评点数据,20世纪以来海内外有关作家研究的论著目录数据。二是作品系列数据,包括作品原文、作品分类、作品的传播接受等数据。作品分类数据,至少应该按体裁、时间、地点、主题、题材、语义等分类。先人工标引,机器学习后再自动识别分类;作品的传播接受,包括版本、入选、评点和20世纪以来海内外有关研究论著目录数据。三是历史地理数据,包括每一年各种历史人物的活动数据,全国各地发生的社会事件和自然灾害数据,全国各地的地理沿革、景观物产和驿路交通等数据。
■ 郑永晓 平台建设方面,您有什么构想?
■ 王兆鹏 我希望国内各大型数字化文献资源库能升级换代为关系型结构化数据库,并且有一个平台,能把各自独立分散的数据资源用搜索引擎将其汇聚串联起来,成为一个超大型的文献资源数据集成平台。我们中南民族大学数字人文资源研究中心正在努力把《唐宋文学编年地图平台》扩建成《唐宋文学知识图谱平台》。第一步是将唐宋时期的全部文学作品、野史笔记、历史典籍、地理方志和文学批评史料、选本资料、20世纪海内外唐宋文史研究论著目录,进行集成和标引,开发成关系型结构化数据库。数据库可以提供上面所说的作家、作品和历史地理三大系列数据。我们的目标是,以目前的文学编年地图为基础,建构唐宋文学的知识图谱,还原唐宋文学的历史场景。第二步,是将平台的知识图谱向前后延伸,形成贯穿古今的中国文学知识图谱。
■ 刘京臣 平台数据的功能有哪些改进呢?
■ 王兆鹏 平台数据是一键生成、个性定制,使用更加便捷,可以满足不同用户的个性需求。用户查询到的数据或相关资料,一键就可以生成下载。目前众多的文献资源库,检索到的资料需要我们一条条地拷贝下载,很费时间。比如,我们在《文渊阁〈四库全书〉电子版》里检索到有关苏轼的资料两千条,需要点击拷贝两千次。而我们开发的结构化数据库,今后只要一键就可以下载全部资料数据,下载的数据包含原始文献,都是分类打包的。下载的这些资料,可以保存到平台为用户提供的个人云盘中,不必重新拷贝到个人电脑硬盘里。
平台还可以满足个性化的定制服务。用户需要什么样的数据,平台可以针对性地提供其所需的数据。我们希望用户及时地将需求和建议反馈给我们,我们会不断完善数据库,以满足用户的不同需求。我们的平台,将来不再是中国文学研究的辅助性平台,而是刚需性平台。它既可以语义检索、时空定位、关联生成,又可以统计分析、可视化呈现。无论是做数据统计还是文本分析,是文献考据还是理论阐释,都离不开这个平台。
■ 郑永晓 从文学地图到文学图谱,确实是很宏大而切实的跨越。期待文学图谱平台早日建成。
■ 王兆鹏 知识图谱的部分功能已经实现,用户可以随时上网去试用体验,我们是免费开放的,目前的网址是https://sou-yun.cn/research.aspx。进入网页后,在主题搜索框里输入要查询的诗人名、地名(目前主要有县级以上行政区名的相关信息),就可以获得相关分类数据。如输入杜甫,界面就弹出“杜甫作品详情”“杜甫朋友圈”“他人诗中提及杜甫的作品”“杜甫的行迹地图”等七个知识卡片。再点击“杜甫作品详情”,界面就出现分体、年份、创作地点、时节、人物、植物等栏目。点击分体,页面自动呈现杜诗分体统计结果:律诗748首、绝句91首、排律126首、古风485首;再点击其中数据,页面就自动呈现相关作品原文。点击年份,页面就会自动呈现杜甫各年创作的诗歌数量;点击创作地点,可以了解杜甫一生在各地创作的诗歌数量和详情;点击人物,页面立即呈现杜甫与当朝各类人物交往的诗篇数量,如他写给李白的诗最多,有11首;点击植物,可见杜甫写了哪些花卉树木(此项信息目前不全)。现在是通过知识卡片的方式,分类呈现与人物、地点相关的数据。用户可以综合运用这些数据,从不同的角度进行统计分析。今后,可以查询和统计唐宋文学作品和历史典籍中所有人名、地名、官名、物名、书名、篇名、典故、语词及其关系数据。
■ 刘京臣 听了王老师对唐宋文学知识图谱的建构,很令人振奋。我对于古籍文献资源库,除了期待其升级换代为结构化数据库之外,还期待能够进行图像检索,由“图像检索”直接实现“版本比对”。2015年,我曾在《大数据时代的古典文学研究——以数据分析、数据挖掘与图像检索为中心》(载《文学遗产》2015年第5期)一文中提到:“随着多媒体检索技术的发展,对图像、声音、视频等进行检索成为IT界的热点。图像检索随之被广泛应用于医疗、遥感、测绘等领域,并取得了相当成就。”但在古典文学研究领域,图像检索仍未得到广泛应用。图像检索的核心是对以图像形式存在的文献进行定位、检索与匹配。对研究者而言,可实现由“文本”到“文本”跨越到由“文本”到“图像”、“图像”到“图像”。这样,一是能将研究者从研判疑难文字中解放出来,二是不必再将图像文献识别转换为文本,三是图像检索能以最真实、直观的方式体现出不同文献之间的细微差异。从图像检索入手,还可以完美实现版本比对。时至今日,最初的设想“机器一边进行着图像检索匹配,一一标注不同版本之间的差异,一边将识别出来的文本与已经在文本数据库中的海量数据相匹配”,仍然处于设想阶段。虽然“中文在线”等推出了在线识别图像文献的功能,但使用的效果还不是很理想。
■ 郑永晓 学者应该参与数据库的开发。现有文献资源库,基本上都是商业公司的产品。在开发过程中,学者的参与度很低。虽然文献资源库可以帮助学者查询资料,但不能统计分析。要完成从数字化资源库到结构化数据库的转换,需要利用数据挖掘对文本进行加工,这种加工必须按照预设的规则进行,需要学者的深度参与,甚至需要学者对相关数据进行人工标记。数据挖掘可以通过技术来实现,但挖掘什么样的数据,什么样的数据有用,必须有古代文学研究的专家参与设计。专业领域的需求只有相关专家最为了解。钱钟书先生在20世纪80年代支持中国社会科学院建立计算机室时曾说:“实践证明,能帮助人的电脑需要人的更多帮助。”这句话即使在今天仍不过时。
■ 王兆鹏 下面我们再讨论一下,怎样运用数据和结构化数据库对古代文学进行分析和阐释。
■ 郑永晓 可以利用编年系地数据对作家群进行空间分析。如果文学编年地图平台囊括了自先秦至近现代以来的数万个作家的综合信息数据,包括其族群、行迹、交游、创作、作品传播等信息,当我们设定某个时间点启动系统进行分析时,就可以观察到所有活跃作家的迁徙移动信息。例如元军攻陷临安后的二三十年间,以关汉卿、白朴、马致远为代表的北方作家向杭州迁移,同时杭州本土作家,或作为遗民追怀宋室,或降元谋求新的出路。族群迁徙、文化碰撞、南北交流在这几十年间跌宕起伏、异彩纷呈。如果有这一时段的人口和作家历史地理信息数据库,我们一定可以发现传统研究方法易于忽略的细节和作家流动的趋势。
■ 王兆鹏 中国文化中心的三次大南移——永嘉之乱、安史之乱、靖康之乱后,北方士人向南方迁徙的时间、经行地、目的地、过程、路线等真实图景,也可以通过大数据来完整呈现。
■ 刘京臣 还可从时间和空间两个维度研究某个地方本土作家、流寓作家的唱和、交游情况,探讨文学史中重要时间、地点、事件、人物关系,揭示文学思潮、文学观念变化的关键节点和演进规律。
■ 王兆鹏 可找一两个具体时段为突破口,比如北宋神宗元丰年间乌台诗案后,包括苏轼在内的许多文士受到牵连贬谪,这些文士的贬谪地分布在哪些地方,各自走什么路线到达贬所,沿途和在贬所各有哪些创作,都可以通过文学编年地图予以可视化呈现。他们贬谪后的命运、生活、心态和创作各有哪些变化,也可以用数据来呈现和分析,由此再现当时的文学图景。哲宗亲政后的绍圣、元符年间,元祐党人纷纷遭贬,到了徽宗崇宁年间,更立元祐党人碑,三百多位元祐党人及其子孙遭受更严酷的迫害。这段时期政坛大变局、文坛大动荡的具体场景,如今可以用大数据来考察分析和可视化呈现。
■ 郑永晓 还可以用数据挖掘技术来分析意象的形成与流变。人工智能的一个分支“自然语言处理”(NLP)近年来发展迅速,其中的“文本蕴含识别”(textual entailment)研究两个文本之间的语义推理关系,基于逻辑推演、相似度或文本转换,或基于深度学习等算法方面的研究,已取得长足进步。举例来说,古代诗词中经常出现“月亮”这一意象。但月亮在古典诗词中有很多代称,诸如“婵娟”“玉兔”“桂魄”“玉盘”“玉钩”“玉镜”“蟾魄”“冰轮”等。人工不可能对大批量的涉及月亮意象的作品进行比较、分析。但利用计算机就可以轻松提取历代诗词中全部与月亮意象相关的作品,然后从历时性的角度分析其意义的流变,从共时的角度分析其情感内涵。
■ 王兆鹏 我补充一句,“搜韵网”搜罗的古典诗词已达八十多万首,可以利用这个网站进行数据提取和分析。
■ 刘京臣 还可以跟计算机专家合作,利用语义分析技术,通过修辞手法的统计和分析,深度解析作家的艺术风格。
■ 郑永晓 也可以利用文本数据挖掘技术,开展文学影响史、接受史的研究。京臣所著《盛唐中唐诗对宋词影响研究》(中国社会科学出版社2014年版)就是一个很好的尝试。把唐诗和宋词通过计算机进行形式和语义方面的匹配,可以发现二者之间的内在联系。通过作品研究前后文学史之间的联系,较之单纯梳理相关记载、言辞要可靠得多。这种方式既可以研究不同文体之间的影响,也可以考察不同时代作家之间的影响与接受情况。
刘京臣:《盛唐中唐诗对宋词影响研究》,中国社会科学出版社2014年版
■ 王兆鹏 是的,可以研究唐诗对宋词的影响,也可以研究宋诗对宋词的影响、唐宋词对金元明清词的影响等等。一个作家的接受,不是单向的,而是多向的。比如,辛弃疾的一首词,既融化有唐宋诗词中的语句,也融化有前代经史子集中的语句。可以一个诗人或词人为视点,用大数据来分析、呈现其接受前人和影响后人的具体情形。
■ 郑永晓 数字人文研究,会给文学研究范式、方法、视角带来重大影响和变化。
■ 王兆鹏 请具体说说会带来哪些变化呢?
■ 郑永晓 首先是研究科学性的提高。我们习惯于归纳研究,归纳需要证据,但是,过去我们的证据往往是不充分的。文学史研究和写作,即使卷帙再庞大,其所涉及的作家作品也是有限的。一部文学史,90%以上的作家都没有涉及,如何能够证明其科学性?在数字人文研究的视野中,基于大数据的统计和分析可以对此有所补充、修正,涉及的作家作品可能是有文献记载的全部。这样看似宏观的研究其实是建立在十分精确的微观研究基础之上的,因此得出的结论、观点必将更为科学、严谨。
■ 王兆鹏 确实,我们现在的文学史,秉持的是选择性文学史观,受观念方法和纸质载体的制约,我们只能有选择性地叙述文学史。选择意味着遮蔽,意味着遗落,大量生动的文学史现象和文学生态以及文学作品被遮蔽和遗落在文学史视野之外。在大数据时代,则可以用全景性的文学史观来重新认识文学史、书写文学史。
■ 郑永晓 其次是视野的扩大。大数据能协助我们从更为宽广的视角、不同的层面去理解、研究文学史现象。比如,诗韵研究是诗歌研究中的重要课题,但谁能回答古人使用哪个韵部哪个韵字最多?这个问题依靠传统方法无法解决,可是在大数据时代轻而易举。
■ 王兆鹏 我补充一个近似的实例。近体诗写作中究竟忌不忌三平尾、三仄尾?历来各执一词。我曾请搜韵网的陈逸云对历代近体诗进行抽样统计,统计结果是,在由1224位作者(数据库中律诗数量超过30首者)写的240095首五七言律诗中,仅有220人写的385首律诗中出现过三平尾;而有三仄尾的律诗多达16037首,涉及作者1108人。有三平尾的诗作占抽样律诗总数的0.16%,而有三仄尾者则占6.7%。出现过三平尾现象的诗人仅占抽样诗人总数的17.9%,而出现过三仄尾的则占90.5%。数据统计结果显示,九成多的诗人写过三仄尾的诗,而不到两成的诗人出现过三平尾现象。律诗的创作实践表明,诗人并不刻意回避三仄尾,但会尽量避免三平尾。
■ 刘京臣 在研究某个微观问题,比如研究某一篇文学作品时,能够真正把它放在整个文学史中去进行定位、阐述,至少可以放在那个时代所有文献提供的庞大信息中去比较研究。大到某个作家流派的形成和风格,小到某个字词用法的演变,都将有精确的量的统计和分析。研究单个作家,也不再是对其进行孤立的分析,而是对其进行全方位的比较研究。比如,钱钟书先生在《宋诗选注》中选录了王安石的名作《泊船瓜洲》,在分析“春风又绿江南岸”之“绿”字时,列举数例唐人使用“绿”字的先例,并作了富有启发性的分析。现在有计算机的辅助,当能找出更多前人使用“绿”字的例子,并对其前后演变进行阐释。我们也可以对所有唐诗中使用色彩的字词进行统计分析,看看“赤”“橙”“黄”“绿”“青”“蓝”“紫”这些词唐人运用得如何,它们对于创作缤纷灿烂的唐诗究竟起到了什么作用。这些都是过去的研究方法所不能实现的。
■ 王兆鹏 未来的数字人文研究应该注意哪些问题?或者说要坚持什么原则呢?
■ 刘京臣 首先,要坚持以问题为导向,人文为本位,技术为辅助。无论是传统人文研究还是数字人文研究,都要以问题为导向。如果不能发现、分析和解决问题,那么数字人文或沦为旧成果的展示台,或沦为新技术的炫耀场。数字人文只能以人文为本位,以技术为手段来发现、分析和解决人文社科领域的问题,而不能仅用人文社科领域的数据来验证算法。
■ 王兆鹏 说得好。我当时进入数字人文研究,就是由问题引导的。2012年立项的“唐宋文学编年系地信息平台建设”,现在大家都认为是数字人文研究的项目。其实,当时我并不知道“数字人文”概念。只是为了解决文学研究中的时、空分离问题,才去寻找能解决该问题的方法和技术。2017年,《唐宋文学编年地图平台》上线引起广泛反响之后,我才特别关注数字人文。
■ 刘京臣 其次,要以数据为基础、平台为契机、团队为依托。毋庸置疑,数据是数字人文研究的基础。未来的数字人文研究,数据要公开,过程要可推演,结论要可检验。平台是数字人文建设的重要环节:一要从数据着手,研发特色平台,不跟风、不趋从、不贪大。平台有特色,才有可能做出有特色的成果。二要秉持开放理念,积极推广与其他平台的数据对接。《唐宋文学编年地图平台》实现了与典故、注释等次级平台的对接,极大方便了使用者。三要坚持学术性与普及性的统一,适时推出一些与平台相关的说明文档、工具软件等。
■ 王兆鹏 确实,平台过于专业,会影响普通用户的使用和推广。《中国历代人物传记资料库》很专业,功能也很强大,但过于专业、复杂,普通用户使用不便。我们《唐宋文学编年地图平台》,正在开发一系列小工具,比如古代纪年自动识别转换工具、古今地名自动识别转换工具、古代职官自动识别注释小工具、诗词典故自动注释小工具等等。这些小工具不久会上线给用户使用。不好意思,打断了你的话,请继续讲团队。
■ 刘京臣 团队建设,至少要有两个方面的力量:一是跨学科、多背景的建设团队,主要负责项目建设。在与技术人员的共同建设中,人文学者应当尝试学习编程语言、数据库技术、统计学等知识,试着用程序员思维来思考问题、提出问题。二是多形式、跨媒介的推广团队,可借助学术会议、工作坊、培训课程等方式推介平台,注重在青年学者、在校硕、博士中的推介,注重向海内外数字人文领域的期刊介绍以平台为依托的研究成果。
■ 王兆鹏 当前,人文社科研究的范式正在发生深刻变革。从研究内容到研究方法再到研究范畴,都发生了极大的变化。如何应对这种变化呢?
■ 郑永晓 守正出新。首先,要坚持住传统的学术路径,夯实传统的学术基础,练好内功,这是“出新”的前提。其实,很多借助于GIS、SNA等手段呈现出来的成果,都是以既有研究成果为依据的,例如CHGIS推出的Ming Dynasty Courier Routes and Stations,源数据就来自于杨正泰的《明代驿站考》(上海古籍出版社1994年版)。其次,要注重学科交叉,大胆利用其他学科成熟的经验与技术,推动单一学科、传统学科的新突破、新发展。
杨正泰:《明代驿站考》,上海古籍出版社1994年版
■ 刘京臣 时代在发展,技术在进步,面对强大的技术,人文学者既不能无视,也不必盲从。守正出新,守住学术传统,出以技术之新,相信能将传统人文研究与数字人文研究一起推向前进。
■ 王兆鹏 数字人文研究有丰富的议题。我们今天只是做了初步的梳理和展望。数字人文与传统人文研究在学理上有许多内在的契合点,又能激发传统学科焕发出新的光彩。我们期待有更多的学者参与、推进这一进程。感谢《文艺研究》提供这样一个机会与大家交流,也感谢两位的深入讨论。
本文为国家社会科学基金重大项目“唐宋文学编年系地信息平台建设”(批准号:12&ZD154)成果。
*文中配图均由作者提供
|作者单位:中南民族大学数字人文资源研究中心;中国社会科学院文学研究所
|新媒体编辑:逾白
猜你喜欢
本刊用稿范围包括中外
文学艺术史论、批评。
欢迎相关学科研究者,
特别是青年学者投稿。
文艺研究
长按二维码关注我们。