交换机|项洁:数位人文视野下的类书研究
2017年5月25日晚上7点,北京大学人文社会科学研究院(以下简称“文研院”)主办的“数位人文视野下的类书研究”讲座在北京大学静园二院二楼会议室举行。主讲人是来自台湾大学资讯工程学系暨研究所、数位人文研究中心的项洁教授,主持人是哈佛大学博士后研究员徐力恒,与谈人则是北京大学《儒藏》编纂与研究中心助理教授杨浩。讲座一开始,项洁教授就罗列出讲座大纲,分为“台大数位人文中心简介”、“人文研究与数位人文”、“类书研究:数位人文的一个例子”、“类书的文本处理和系统建置”几个板块。
(主持人徐力恒博士)
首先,项洁教授为听众介绍2007年成立的台大数位人文中心。其实,早在1996年,台大就着手进行数位化工作。元数据已处理超过六百万笔,建立了很多适于研究者使用的大型分析系统,并发展相关方法论。初期处理的资料以台湾史料为主,尤其强调资料之间的脉络。在资讯技术方面,发展出许多相关IT技术,如超过90,000人名和地名的术语提取(term extraction)、资料库之检索后呈现的方法论及技术、文本挖掘(text mining)技术等。现在中心的主要力量放在个人化数位人文平台Docusky,建制完备后会开放使用。
项洁教授常在思考的问题是——大量的数据资料,加上现代科学技术,人文研究到底会发生什么变化?他给出的答案是“思维改变”,这并不意味人文研究思维被取代,而是说人文学者能更好地做研究,跳脱原来受限的范围看到一些不一样的情况。就像先坐着直升机去鸟瞰一片区域,先做整体性观察,方能助益日后深入研究。数位人文往往可以让学者发掘问题,这是比解决问题更重要的目的。
紧接着,项洁教授谈到类书的数位人文研究。他在展开论述前,提到自己曾受一位历史学者的挑战。对方认为,传统方法只不过在搜集资料时慢一些罢了,并非已经被数位人文号称的资料挖掘所取代。所以,他在讲座中分享的类书研究就是一个很好的反驳例子,可以充分说明数位方法论的重要性。像类书这样大型文本的研究,在某些角度,“不用数位人文的方法是不能做的”。
(项洁教授)
项洁教授先说明类书的性质和功用,他指出古人喜欢用典,有时利用类书记载炫耀学问。他们饱览群书时抄录有用内容以便日后引用,将这些抄录内容汇集一处就构成类书。在理解类书的时候,不能把它同西方的百科全书画上等号,两者存在性质上的区别。百科全书会对知识做诠释,而类书只是书籍的浓缩,背后还有隐藏的作者。类书可算作古代搜索引擎,在科举考场上甚至还曾被用作作弊工具。到了明代,出现日用类书,同样的书名在不同地区便会根据日用需要汇集不同内容。因而,类书有出于个人需要的实用性知识,但它不太具备创造性。类书在古代中国常遭到文人强烈批判,可是鉴于它的实用性,学者往往都无法回避使用。此外,它的重要功能还在于辑佚和版本考据等方面。
再者,项洁教授特别强调类书的知识体系。类书的“部”、“类目”、“条目”形成的知识架构反映当时的世界观。需要注意的是,它突显的不是传统的经史子集的分类法,也不是原书的世界观,而是当下的“我”怎样使用类书。项洁教授被类书表现出的这种知识架构吸引,他设想,通过比较两部性质类似,年代相差较远的类书,说不定可以看出时代之间观念的改变。书中部分内容的出现和消失,很可能可以代表世界观的变化。同样的类目运用到的条目的变化、主题的变化、引用的差别等等问题,或许也可以看出使用方法的改变。
项洁教授决定取用,进行数位开发的两部类书是《艺文类聚》和《太平御览》。他首先对这两部类书的成书年代、书籍情况和内容分别作一简介。两书都是在新王朝(唐、宋)建立之初编成,规模庞大且体制完整。两书之间还有一定的继承关系。因此,它们不仅是当时时代的知识汇总,而且也是我们观察唐宋两朝知识架构演变的最佳文本。
进一步,项洁教授说明了研究中运用的比较方法——共引度。所谓共引,是指同一段文字在两部类书中均出现,或在同一部书中不同的类目中出现。但需注意,因为不同传抄的关系,一段文字即使在同一本类书中出现数次,文字也不尽相同。若两句的结构、语意以及提到的主词、动作等皆大致相同,且出于同一本书的同一位置,或文字相同但出处不同,则这两个条目被视为共引。在具体的实践过程中,还需要花大量的人工力量,来找出引用文献的原作者的身份及年代。最后可以得出两部书的大致条目数量,以及比对后判定为相似的条目配对数量。《太平御览》用到书籍的种类比《艺文类聚》多很多,其中不只是涉及诗赋,还有不少碑文。
为了有效比较两部类书,项洁教授带领团队建置两个不同的系统,分别是“艺文类聚/太平御览”全文资料库和“类书对应查询系统”。他以“孔子”一词为例,说明了全文检索系统的用法,特别强调系统会将学者可能有兴趣的资讯进行后分类,还附带“辑佚”功能,可以将一本书在类书中出现的所有条目列出,并分析它们出现的部别和类目。随后,项洁教授以“符命”为例,说明类书对应查询系统的用法,可从知识结构的对应角度比较两部书在知识结构和引文上的差异。
接下来,项洁教授通过两部书“部”、“目”和“条目”的比较来对知识架构的演变作进一步阐释。他谈到“部”在结构、内容和比重三方面的变化,《艺文类聚》虽号称《太平御览》的三大参考书之一,但它并未被《太平御览》全盘继承。消失的“符命”部和新增的11个部,是当时的观念、政权和群体变化的某种程度的折射。而在两部书“目”和“条目”的比较中,“目”设置的多寡,虽牵涉编者的主观因素,却也反映出当时人对某一部类知识认识的程度。相比《艺文类聚》,《太平御览》扩充了5.6倍。在“条目”的比较上,两书条目共引度颇高,可是内容完全一致的几率极低。再综合其他因素,项洁教授大胆推测,《太平御览》对《艺文类聚》很可能只是部类结构上的参考,在具体内容摘抄上,实际是根据当时所搜集到的书籍原本,重新辑录编排而成,而非从《艺文类聚》翻抄。最后,项洁教授分享自己以类书为研究对象的兴趣源起,并期待唐宋思想史家、文献学者能够共同参与,作出更加深入的观察和探讨。
(与谈人杨浩老师)
讲座结束后,杨浩老师进行评价并提出自己的问题。他认为,项洁教授的研究充分说明了类书的重要性。不少海外汉学家在汉语能力有限的情况下,也会对类书进行引用,或者按图索骥,查找资料。若只是进行全文检索的工作,可谓“只见树木,不见森林”,但项洁教授提供了对两部类书宏观把握的方法,是值得继续探索下去的。
杨浩老师还指出,透过数字人文的类书研究这一课题,我们能更好发掘过去用其他手段发掘不出的东西,利用更多检索手段开展研究。不过,他对“引用书目”浏览功能和字符串的匹配算法两方面尚且存在疑问。项洁教授回应到,目前的检索系统可以把条目列出做“后分类”。在图书馆学界也存有主题编目的概念,的确可以付诸实践。针对字符串子串在相似度方面的算法问题,系统除了运用“最长相同子序比较法”(longest common subsequence)的算法外,还配有另一套长短句的算法。
随后,徐力恒博士针对分析规模问题,指出数位人文学者在大数据时代被误解成“不好好读书”的情况。项洁教授认为,一部分原因在于“数位人文”与“数位典藏”是两个不同概念,“数位人文”提供了一些分析的方法,但分析后还要做呈现和观察。他本人对现在很多可视化方法持有严厉的批判态度,尤其是社会网络图,认为操作原理不够直观和透明。项洁教授强调,人文学者需要的并不为已经画出的数据图给出解释,他们要能够自己去做观察,深入图中去做自己的分析和调整。制作可视化时,不能够强迫人文学者盲目相信既有的数据。另一部分原因和有的资深人文学者不鼓励学生利用数据库有关。但实际上,数据库只会越来越多,越来越好用,要年轻学子完全避免使用,根本是不现实的。关键是要在人文教育中引导学生正确看待和熟练驾驭数据库的方法,让数据库的应用变成人文的一部分。
在场听众也针对项洁教授的演讲提出不少问题,项洁教授在两书比较、通过类书研究古代社会生活、知识结构等方面一一给出回应。在谈到笔记与类书二者的处理方法上,项洁教授认为更具个人创造性特质的笔记文本也有数位化价值,对思想史的研究具备深远意义,但由于笔记的结构化程度低得多,目前尚未开发相关系统。由此也衍生出关于结构化与非结构化文本的探讨,项洁教授介绍到,在平衡这两者的关系时,第一种方法是把结构全部忽略,如Franco Moretti在研究文学时用的“远读”(distant reading)方法;另一种则像CBDB(中国历代人物传记数据库),处理大批可以结构化的文本,变成人物数据。台大数位人文中心的清代台湾文官官职表数据库中的相关资料,就是经过结构化的产物。
项洁,台湾大学资讯工程学系特聘教授暨中央研究院资讯科学研究所合聘研究员,同时也是台湾大学数位人文研究中心主任和台湾大学出版中心主任。他曾出任台湾大学图书馆馆长,投入台大的数字典藏工作及相关研究应用已十余年,不仅领导《淡新档案》、台湾古契书、日治时期统计资料等重要历史文献的数位化与资料库开发建置工作,完成“台湾历史数位图书馆”(THDL),并协助台湾省谘议会档案资料库、国民党党史馆、慈林教育基金会典藏台湾社运史料资料库和文建会国家文化资料库的建置。
*本期文章转载自北京大学人文社会科学研究院公众号。
相关链接
台湾大学数位人文研究中心:
http://www.digital.ntu.edu.tw/
DocuSky: http://docusky.digital.ntu.edu.tw/DocuSky/publicTools.html
艺文类聚、太平御览资料库:
http://leishukis.digital.ntu.edu.tw/L303_YiWen_YuLang/CustomizedHome.php
类书对应查询系统:
http://leishucis.digital.ntu.edu.tw/
清代台湾文官官职表查询系统:
http://140.112.30.230/Career_tb/
中国历代人物传记数据库(CBDB):
https://projects.iq.harvard.edu/chinesecbdb
END
主编 / 徐力恒
责编 / 陈静 顾佳蕙
美编 / 傅春妍
零壹Lab
记录数字媒介之日常
反思科技与人文精神
长按关注