查看原文
其他

一文回顾数字人文在中国之发展与现状

图情招聘
2024-09-10

The following article is from 探索与争鸣杂志 Author 赵薇

数字人文在中国(1980-2020)

——一个人文视角的回顾与观察

赵薇|中国社会科学院文学研究所助理研究员

20世纪末以来,飞速发展的数据科学和信息网络技术,越来越普遍地影响了人文知识的获取、管理、分析、阐释、共享和再生产等基本环节,深刻重塑了人文社会科学的方法基础和研究形态。由人文计算(Humanities Computing)转化而来的数字人文(Digital Humanities,DH)成为全球范围内兴起的知识生产范型。尽管数字人文的基本界定尚处于广泛争议和多元发展中,在中国,这一领域仍以其鲜明的实践性特色,吸引不同学科的学者投身其中,形成了跨学科、跨地域,甚至跨文化和语言共生的协作型研究社群。数字人文项目从无到有,相继孵育成熟,纷纷进入颇为可观的成果产出期。


(一)引子:准备与形成阶段

(一)数字化和文献计量的准备阶段

数字人文的前提是人文资料和文献档案的数字化。一般认为,中国数字人文经历了长达三十年的“史前时期”,积累了较扎实的数字文献基础。数字人文发展的分期,参考了CNKI对相关论文发表情况的文献计量分析结果,也参考了王晓光、林施望等人的文章。Wang, Xiaoguang, XuTan,and Huinan Li. "The Evolution of Digital Humanities in China." Library Trends 69, no. 1 (2020): 7-29. Lin, Shiwang. "The Studyof Premodern Chinese Literature in the Digital Era: New Methods of QuantitativeStatistics, Databases, and VisualizationAnalyses." Library Trends 69, no. 1 (2020)中国大陆数字化和文献计量的历史,可追溯至1980—1990年代古籍数字化的先驱工作。这些工作,充分借助纸本索引为数字化查询积累的经验,尤其处理了汉语文本在早期数字化过程中必须面对的文字编码和字符集受限等问题,已经开始采用机编索引的形式。钱锺书先生自1984年开始在中国社会科学院文学研究所倡导把计算机技术引入中国古典文献的搜集、整理和疏证中。助手栾贵明带领团队,在“仓颉码”基础上自建大型字库,录入古文献。1987年前后建设了“《论语》逐字索引”“诸子集成数据库”“《全唐诗》速检系统”“全汉字系统”等古籍数字化系统,具有多种索引形式,将卡片式索引编制方式的工作效率提升了十倍。他们还较早提出了用世界各地的微机组成共享数据库,铺设“网络基础设施”的设想。(栾贵明、李秦,1984;田奕,1994;郑永晓,2019)与此同时,深圳大学和武汉大学、哈尔滨师范大学也开始了关于《红楼梦》、地方志和《史记》检索系统的创制工作。这些筚路蓝缕的开山工作,体现了第一代数字化学者自发自觉的努力。


1990年代中期后,随着GBK字符集扩展到两万多汉字并可支持繁体, OCR技术的成熟,互联网兴起,逐字索引成为海内外古籍全文检索的主流,有关各种通用的电子文献整理、检索平台的构想纷纷提出。图书馆界和电脑网络技术公司大力参与,共同推进了“数字图书馆”的建设。史睿曾指出中文文献数字化是数字化图书馆事业的一部分,构成了国家知识基础设施(National Knowledge Infrastructure简称NKI)的一部分,具有广阔的应用前景(史睿,1999)。上海图书馆于1996年率先建成“中国古籍善本查阅系统”,开始面向公众提供全文查阅服务。国家图书馆1998年正式启动“中国数字图书馆工程”,包含馆藏文献、甲骨文资源、拓片数字化资源库、敦煌遗珍数字化资源库、《永乐大典》等数字资源和管理系统,以及商务印书馆百衲本“二十四史”,地方志宋代人物资料系统和全唐诗电子检索系统等。《四库全书》和《古今图书集成》两种全文检索库,爱如生公司精选中国古代一万种基本典籍,实现全文检索的“中国基本古籍库”,还有2005年完成的开放全文检索库“国学宝典”,都成为普惠学界的研究工具(耿元骊,2009)。其中,由香港迪志公司、上海人民出版社合作出版,迪威多媒体公司和书同文电脑技术公司主持开发的“文渊阁《四库全书》”电子版,和此前中国台湾“中研院”完成的“二十五史全文资料库”,规模均达七、八亿字,被并称为中国的“谷歌图书”计划(徐力恒,2020;张轴材,1999),此类电子工程本身也促成了中文信息处理技术的突破。此外,2006年国家图书馆还开发了“中国古籍善本书目导航”系统,将线装书局排印本《中国古籍善本书目》全部数字化,带有与用户互动式纠错功能,极大的方便了古籍书目的查询、利用和建设,一时间很受欢迎。


与数据库兴建热潮相生的,是学界对建立相对统一的电子文献注录标准、分类法以及主题词标引等发出行业呼声。国家层面对制定元数据的标准规范框架也相当重视。中国国家图书馆、中国科技信息研究所和中国科学院文献情报中心联合于2002年启动了《国家数字图书馆标准规范》项目。这套系统参考了科技部和“中国高校文献保障系统(CALIS)”的标准,后来得到推广并实施,至今仍是全国图书馆体系文献载体物理属性元数据所遵循的准则(此处依据的是北京大学图书馆朱本军副研究馆员的解释,特此感谢)。这些都与后来数字人文的数字基础设施建设一脉相承,为其提供了最基本的颗粒度。


2009年之前,与中文数字人文兴起高度相关的另一个重要基础,由计算语言学、中文信息处理和语料库语言学等学科交叉领域铺就。这个领域的技术与传统的文史研究旨趣结合,已在语料库文体学和文体测量等方面有所应用,不过其价值还限于学科内部,外界认识尚不充分。1979年国家开始推进机读语料库建设,到1983年,先后建立了四个重要的近现代汉语语料库;1991年,国家语言文字委员会启动国家语料库项目,推动现代汉语语法、语义和语用语言学的研究。北京大学计算语言学研究所开发的“综合型语言知识库”、董振东等开发的“知网” (How Net)是语言资源建设方面两项有代表性的成果,后者是以英汉词语所代表的概念为描述对象,以揭示概念之间和概念属性之间的关系为内容的语义知识库,为后续几十年的应用研究提供了基础资源。中文语言资源联盟(Chinese Language Data Consortium)则是为推动我国语言资源共享而建立的第一个联盟性学术组织,于2003年建立。


1990年中期后,中文自然语言处理利用语料统计来建立算法模型,完成在音素、字、词汇、实体、短语、句子、段落、篇章和文集等不同单位上的词频统计、标注、组织挖掘和分析等任务。这些方面本应和语言学各分支理论紧密相关,却由于发展过于火速,尚缺乏和语言理论的实际接口,而渐渐成为一个依靠计算机技术来单向突进的领域。2003年以后,机器学习在一些任务上的测评已显示出优于人工规则的效果。清华大学计算机系孙茂松、黄昌宁团队,哈工大计算机系张宇、刘挺团队,南京师范大学陈小荷团队,复旦大学计算机系吴立德团队,中科院计算所和自动化所等机构,在汉语自动分词、语义计算、文本分类、情感分类、意见挖掘、实体识别、关系抽取等典型任务上有了重要突破,形成了一个个可持续发展的技术热区,为后来数字人文中文文本挖掘的研究面向积累了关键经验。


依靠技术突破来驱动的科学研究,在这一时期,却很少也很难和现实中的人文研究需求真正对接。文史领域中为数不多的实例仍然倾向于采取简单易行的计量方法,可以说更属于历史较久的“人文计算”。这方面最显豁的例子来自于文体测量学中作者归属(authorship attribution)问题的研究。早在1980年代中期,为了检验《红楼梦》作者的统一性问题,华东师范大学中文系的陈大康就使用人工统计步骤,检验了书中27对惯用语、100多个虚词以及98758个句子在前八十回和后四十回的分布状况,以此反驳威斯康星大学汉学家陈炳藻利用计算机得出的结论(陈大康,1987),1990年代末北京大学中文系语言学实验室的李铎主持开发了“全唐诗电子检索系统”,该系统已经具有一些“智能化”特色,如通过文本比对算法,可以在一两分钟内标记出近5000首“重出诗”,为大规模重出诗现象研究提供工具(李铎,2009)。同类平台还有南京师范大学的“《全宋词》检索系统”。这些都是人文学界较早出现的、研究目的明确的文献计量专题平台。


尽管一些有识之士已看到计算机处理文献的巨大优势和潜力,提倡与IT人士、商业公司合作,研发文本分析工具,对数字化成果进行深入挖掘和再加工(史睿,1999;郑永晓,2005),但是真正能够很好地利用数据库,深入各学科内部,提出并回答学科问题的研究却少之又少。尚永亮对唐代诗人地域和代群交往的定量分析,王兆鹏、刘遵明关于宋词作品量、词作者地位以及宋词学的定量研究,都是起步很早的文学计量研究实践。他们的成果大多来源于对自建数据集的描述性统计,大胆构造测量指标,涉及文学影响和经典化过程,文学社会学等方面,以数字手段检验一些前数字时代人们已习焉不察的定见,一定程度上更新了人们的观念。这些做法中有代表性的成果如王兆鹏、邵大为、张静等著《唐诗排行榜》(2011)的出版,迎来一定范围的学术争鸣,可以说是开风气之先的创举。


“中国历代人物传记资料库”

(China Biographical Database Project,CBDB)


1990年代中期后,中国的量化史学悄然复兴,出现了自建大型数据库直接产出成果的典范。蜚声海内外的李中清-康文林团队,以中国历史史料中大规模存在的“户籍大账”、土地分配、科考记录和海量文字材料为对象,从1979年起,逐步建立基于八旗户口册和清代皇室族谱资料的“中国多代人口系列数据库”,实现了对长期个人记录和跨越多世代家庭变化的追踪,其中大部分数据已对全世界免费公开(ChinaMulti-Generational Panel Data Series,简称 CMGPD,该系列数据库包含辽宁、双城和皇族三个子数据库,其中前两个已经在ICPSR网站上对全球学界免费公开)。这些真正意义上“大人口”、长时段的“微观数据”,本身较为系统,便于展开进一步的统计分析,在与西方国家的人口和社会结构变迁的长时段比较方面,已贡献颇多有价值的成果。此外,梁晨、李中清等借助15万大学生学籍卡资料,建立量化数据库,对半个世纪以来北京大学、苏州大学学生社会来源所做的研究(梁晨,张浩,李中清等,2013);康文林对清代官员人际网络和职位波动的研究,建立在《缙绅录》资料的量化分析上,都呼应了中国社会历史研究的关注点。值得注意的是,此类研究路向,倾向于使用统计描述指标和弱人为假设,强调维护史料的客观性和自然科学的可重复性,让大数据“自己说话”,注重从集成化数据中挖掘新事实、产生新认识。与此同时,陈志武、彭凯翔、袁为鹏、林展、何石军等则致力于建立民间借贷利率史数据库、婚姻与妻妾交易数据库、历代皇帝与反腐数据库、清代命案数据库、契约文书数据库等,开展了饶有趣味的研究(陈志武等,2016)。如借助经济学分析范式和统计检验的基本框架,使用工具变量,回归分析等多变量分析手段,考察高利贷利率和致死率的关系,或以千年来中西君主非正常死亡概率和平均统治时间、民间暴力命案率等指标参数,建立起国家治理和基层治理模型。这些研究都从大数据的全新角度触及了关于“多元文明论”和中西治理模式等问题的深层反思。


清华大学与中华书局联合创办的《数字人文》


不难理解,史学观念的转变使得历史学者对大样本、长时段的数据需要更迫切,也更顺理成章,这一时期启动的大型专题数据库平台,还包括兴起于1990年代初期,由哈佛大学、中国台湾“中研院”、北京大学合建,于2007年正式对外开放的“中国历代人物传记资料库”(China Biographical Database Project,简称CBDB)。还有此前哈佛大学与复旦大学历史地理研究中心共建,于2001年正式启动的“中国历史地理信息系统”(China Historical GIS,简称CHGIS,以谭其骧先生《中国历史地图集》为基础)。这些基础设施让历史学者更容易借助信息科学手段,成为数字人文的先行军。


中国台湾地区自20世纪七、八十年代即已迈出数字化的第一步。(台湾“数位人文”的发展分期,兴许与大陆地区并不一致,台湾学者也多有自己的看法。如林富士先生在《“数位人文学”白皮书》中,将台湾的数位人文截断为“自动化与资料库(1980-2000)”“数位典藏与数位学习(2001-2012)”“数位人文学(2013-)”三个时期)1984年台湾“中研院”开启“史籍自动化项目”,历史语言研究所负责此项目的具体实施。此后数字化了“二十五史”,香港迪志公司《四库全书》的全文数字化经验即来源于此(郝幸仔,2020)。该项目重要的延伸成果“汉籍全文资料库”,将二十五史之外的经、史、子、集也全面吸收进来,“是目前最具规模、资料统整最为严谨的中文全文资料库”,也是台湾DH的奠基性工程之一。1984年后,“汉代墓葬综合研究资料库”“台湾日据时期户籍资料库”“善本书影响资料库”等可以用于具体字词检索的数据库相继推出。1995年罗凤珠开发了“唐诗多媒体网络系统”。台湾地区还编纂、设计了大量古文书目数据库和书目索引库,有代表性的如“家谱联合目录”。1998—2012年间,由台湾地区科技管理部门开启连续三期“数位典藏与数位学习计划”,为文献数字化工作提供了有效的机制保证。值得一提的是,台湾法鼓佛学院最早将国际通用的TEI文本编码倡议(Text Encoding Initiative)标准应用于大型中文资料库,如中华电子佛典协会(Chinese Buddhist Electronic Text Association,CBETA)的作业,并逐渐形成了一套成熟的数字化工作流程。这一肇始于1997年的行动,使台湾地区的汉籍全文标记系统更臻完善,对外交流更加顺畅。21世纪以来,黄一农基于资料检索而提出的“e-考据”,在海峡两岸引起广泛关注,《两头蛇》为代表的几部史学作品以其丰赡的材料、别出蹊径的笔法,为后世宕出颇可追摹的一径学脉,也预示了一个穷搜网络资源做学问的时代的来临。


香港地区在采用电脑编制古籍索引方面起步较早。1988年香港中文大学中国文化研究所获资助,与该校电算机服务中心合作,建立“先秦两汉全部传世文献电脑化资料库”,于1992年完成。该机构出版的“汉达古籍索引资料库”的电子版,具有文献阅读、归类、分系统计和对勘等功能。金观涛和刘青峰两位学者自1997年起开始推动“中国近代思想史专业数据库(1830—1930)”的建设。他们曾与复旦师生一起构想以关键词为核心的群体思想研究方法,将十二种能够代表1914—1930年间重要思潮,且立场不同的民国刊物作为全文录入和电子化的对象。2001—2008年间,又进一步吸收了重要的思想政治文献。数据库2008年后转到台湾政治大学,其核心功能的设计也得到更多计算机专家的帮助。至今已累积1.2亿字,内置的语义检索功能为文史研究者所常用(邱伟云,郑文惠,即出)。金、刘两位教授运用此数据库,进行中国近代观念史相关研究十余年,成果集中在《观念史研究》一书中,2008年由香港中文大学出版社出版。


2021年7月复旦大学历史地理研究中心上线“中国历史地理信息平台


(二)摸索和形成阶段(2009-2015)

2009年,数字人文作为一个特定领域获得北美人文学界的承认(陈静,2013)。同年,“数字人文”一词第一次以今天的含义出现在大陆学界。武汉大学信息管理学院王晓光在2009年“教育部人文社会科学研究方法创新论坛”上做了《“数字人文”的产生、发展与前沿》的发言,呼唤作为创新需要的数字人文,为我国人文社会科学研究范式带来革命性的转换和升级。2011年,大陆首个数字人文研究中心落户武汉大学。该中心也是centerNet亚太联盟五大创始成员之一。


自2009年起,大陆学者开始有意识地发表数字人文相关论文,从作者数量和范围来看,仍保持在一个相当小众的水平上,至2015年底,七年间只有百余篇,以图情学科为主。图书档案情报和信息管理、计算语言学界率先拥抱这一前沿领域,开始思考自身应担当的职责,所面临的角色转换,对图情学者而言,“数字人文”将成为超越数字图书馆的下一个“大趋势”。人文数据库的功用已不仅仅是资料的永久保存和信息检索,而开始向知识深加工和知识发现的数字人文转型,相应的专门工具和技术范型也相继浮现。王晓光团队对敦煌壁画图像语义的描述层次模型的实证研究(王晓光、江彦彧、张璐,2015),包平团队对于农业物产类方志古籍地名识别系统的研究和建构(朱锁玲,包平2011),郭金龙、许鑫等人对文本挖掘的初步探索(郭金龙、许鑫、陆宇杰,2012),黄水清、王东波、陈小荷等关于先秦文献的分词、命名实体识别(黄水清,王东波,何琳,2015),以及多位学者使用聚类方法来研究作者归属等问题都取得了令人瞩目的进展。


在传统文史哲等学科,只有零星学者关注数字人文。2013年南京大学艺术研究院陈静翻译了Susan Hockey,Kathleen Fitzpatrick和Stanley Fish的文章,陈静的《历史与争论》(2013)一文则对数字人文在英美的发展和引发的争论做了检讨性综述。金雯、李绳的《“大数据”分析与文学研究》(2014)聚焦时下美国最新的数字人文成果,如Mathew Jockers的Macroanalysis(《大分析》),描述了这种研究的前景及其在海外人文学界的真实处境。实践方面,已经有对数字人文与各学科关系的自觉探讨,如陈刚《“数字人文”与历史地理信息化》(2014),王涛《挑战与机遇:数字史学与历史研究》(2013),王兆鹏《建设中国文学数字化地图平台的构想》(2012),郑永晓《情感计算应用于古典诗词研究刍议》(2012),刘京臣《大数据时代的古典文学研究——以数据分析、数据挖掘与图像检索为中心》(2015)等。GIS、数据挖掘、情感计算、文体测量学、命名实体识别、网络分析等方法应用于文学研究,产生了一些有创见的应用案例,如年洪东等《现当代文学作品的作者身份识别研究》(2015),许超《左传的语言网络与社会网络研究》(2014),赵思渊《19世纪徽州乡村的土地市场、信用机制与关系网络》(2015),赵薇《“社会网络分析”在现代汉语历史小说研究中的应用初探》(2015)等。从受国家社科基金资助的数据库建设和量化研究来看,仅中国古典文学研究一个门类,2009年之前还寥寥无几,2009—2013年间通过审批的达9项,其中王兆鹏的“唐宋文学编年系地信息平台建设”(2012)为较早获得国家资助的数字人文重大课题。


作为早期的先锋,一部分人文学者意识到了专题平台和专门开发的工具包在组织、标引和利用资料时,为研究带来的一致性、持续性、高效性等不可估量的优势。他们在不同程度上创建或参与了一些历史较久的数字人文项目,开始涉足跨地区、跨领域,跨语言和文化的协作。随之一个知识工程导向的、更广泛的“汉学数字基础设施建设”的模式开始显现。被视为标杆性的CBDB项目由哈佛大学包弼德(Peter K. Bol)教授牵头,经过十多年辛苦的元数据标注工作,已累积约491,000个历史人物的传记资料,是目前世界上最大的中国历史人物传记资料分析数据库。在技术层面,则主要由群体传记学、社会网络分析与GIS三种DH体系支撑。另一个与之相关的重要工具是由莱顿大学魏希德(Hilde De Weerdt)主持,与中国台湾学者何浩洋共同开发,2014年开始开放的“文本半自动标注平台MARKUS”。此外,像麦吉尔大学的“明清妇女著作资料库”等,都属于多地华人学者和机构参与共建的老项目。相较而言,大多数大陆项目“离真正意义上的协作性和开放性还有距离”(例如缺乏开放性的研讨环境和有用户参与的批评和反馈机制、版权问题未解决等)(陈静,2013)。


中国台湾在这一时期也经历了由“数位典藏”向“数位人文”的转型(邱伟云,2020)。在前期积累的高质量的数字化文献系统平台和资料库的基础上,由单纯的资料检索向更深入、多元的文本和挖掘思维进步。其标志之一,是自2009年起,由台湾大学主办、各高校和研究机构协办的每年一度的“数位典藏和数位人文国际研讨会”,将数字人文与数位典藏(即数字文献,数字档案)并举,所涉议题从对“数位典藏”的单一聚焦,逐步被“文本处理与分析”“地理资讯系统”“视觉化呈现”“资料库与知识”“史料的开放性与运用”“数位技术”“东亚数位人文”等多元专题所代替。该会议至今仍然是东亚地区水平最高的数字人文会议之一。2012年“台湾大学数位人文研究中心”的成立(由2007年的“数位典藏研究发展中心”更名而来),标志着中国台湾数位人文学主体性的形成(邱伟云)。


 “数位典藏与数位人文国际研讨会”(DADH)由2009年延续至今,已办至第十二届


二、现状:契合发展阶段(2016—)

2016年开始,数字人文在中国进入加速发展的建制化阶段,数字人文学术表现出自己的体系特色。大陆数字人文论文的发表量呈逐年直线递增趋势,据不完全统计,2020年发文量达425篇,是2016年的八倍,受国家社科基金资助的文章占五分之一。数字人文的基本概念内涵,应用实践以及未来走向获得了图情档等学科和信息科学的高度关注,迅速成为当下最受欢迎的科际整合新方向。人文学者的参与度和热情大幅度提高,由人文学者主导的数字人文平台、工具和研究成果渐趋成熟,数字人文的技术共同体初步显形。网络基础设施建设和由研究性问题驱动的数字人文研究二者间的分野渐渐清晰起来。


(一)数字人文学术的繁荣

数字人文的学术交流和出版活动日益繁荣,各种行业会议、工作坊和课程频频举办,研究团队纷纷涌现。2016年北京大学图书馆、“数字人文建设与发展研究课题组”联合哈佛大学CBDB项目,举办了首届数字人文论坛。至2018年6月,三届年会的成功举办极大程度上推动了数字人文在中国的发展,对全球视野下的中国数字人文实践进行了全景式扫描,对图书馆提出了展示建设与实践并重的新要求(朱本军、聂华,2016)。2017年6月,清华大学人文学院中文系和图书馆联合举办了首届“数字人文与文学研究国际工作坊”,邀请芝加哥大学Text Lab的成员前来和中国的青年学者同台发表论文,对话交流,为大陆最早举办的文学数字人文专题会议。2017年7月,南京大学召开“数字人文:大数据时代的学术前沿与探索”研讨会。2017年9月南京大学历史学院成立数字人文研究中心(后更名为数字史学研究中心);2018年1月数字人文创研中心在南京大学人文高等研究院成立。这些都是人文学者自发建立的研究据点,凝聚了在各学科深耕多年,积累了相当实践经验和量化成果的一批青年学者。近年来,他们联合早先成立的南京大学数字人文与超媒体GIS实验室,先后召集了“比较视野中的数字人文反思研讨会”(2019年4月),“定义数字人文工作坊”(2019年11月),“数字人文的学术评价体系:定义与规范”(2020年9月)等会议。作为不同时期重要话题和思想的策源地,南大的几个中心为营造有效的跨领域对话氛围做出了人文学者应做的贡献。此外,北京大学历史系、哈佛大学费正清研究中心以及清华大学统计学系于2016年1月联合举办了“数字人文新动向——中国历代人物传记资料数据库暨Digging into Data工作坊”;中国人民大学清史研究中心2016年5月举办“数字人文与清史研究工作坊”;中国社会科学院文学研究所2019年5月举办“数字人文时代的中国文史研究”工作坊,清华大学于2019年12月举行“《数字人文》创刊仪式暨数字人文国际工作坊”,此类工作坊在各个人文学科均产生较大反响,一定程度上起到了风向标的作用。


2016-2020年间,由南京大学、哈佛大学、北京大学、清华大学、中国人民大学、中国社会科学院文学研究所、复旦大学、台湾政治大学等高校人文学者组织的一些数字人文工作坊


2019年12月,中国人民大学信息管理系牵头建立了校级数字人文研究中心,在图书情报与档案管理学科下设全国首个数字人文硕士学位点。北京大学数字人文中心也于2020年5月正式成立。该中心以“北京大学数字人文开放实验室(KVision Lab)”为前身,由信息管理系、北大图书馆和古代史研究中心等机构牵头,鼓动了校内各学科的积极分子,建立在比较可观的前期成果基础上,也是值得期待的DH重镇之一。此外,南京农业大学,中南民族大学,上海大学图书情报档案系,上海大学文学院,曲阜师范大学,上海师范大学也都拥有自己的数字人文相关研究中心。目前中国大陆至少已有两个数字人文专业学术委员会——中国社会科学情报学会数字人文专委会和中国索引学会数字人文专委会。前者在2019年7月与敦煌研究院合办“文化遗产数字化国际研讨会暨中国社会科学情报学会数字人文专委会学术年会”。后者即2020年10月成立的“中国数字人文组织机构联盟”。该联盟的多家成员单位承办了2020年的数字人文年会,每年评选优秀数字人文论文和优秀项目等奖项。


在学术发表和出版领域,以数字人文为名的期刊、专栏、译介作品和成果陆续出现。《山东社会科学》的“观其大较”栏目,由戴安德、姜文涛主持,自2016年7月来译介、发表了一系列国外数字人文理论和应用的研究案例、相关争论及访谈录,也推出了一批本土量化实践成果。两位主持人的开篇文章《数字人文作为一种方法:西方研究现状及其展望》,是人文学者撰写的重要导论文章。2019年12月清华大学与中华书局联合创办了中国大陆第一个数字人文学术刊物《数字人文》(Journal of Digital Humanities),由清华大学刘石、孙茂松教授和中华书局顾青总编任主编,澳门理工学院桑海和古联公司朱翠萍任副主编,至今已出五期。该刊物秉持开放、融合、创新与共享的精神,通过严格的选稿及选题策划,在学术共同体中积极倡导并形成一定标准,成为孵化优质数字人文成果、形成良好批评风气的重要空间。此外,由中国人民大学信息资源管理学院、数字人文中心推出的《数字人文研究》是国内另一本高水准的数字人文专业期刊,由中国人民大学冯惠玲、刘越男教授分别任主编和执行主编,至今已出两期。译著方面,已有中国人民大学出版社的《数字人文》(2018)和王晓光等翻译的《数字人文:数字时代的知识与批判》(2019)等书籍面世。南京大学翻译的《定义数字人文》和数字人文教材丛书,清华大学的数字人文读本系列也都在紧锣密鼓的筹划、出版中。自2016年起,大量数字人文相关文章和资讯,由自媒体微信公众号“零壹Lab”,“DH数字人文”,“数字人文资讯”,“数字人文研究”等传播开来,影响力和迅捷度已远超传统学术媒体。


最后是受项目和课题牵引,依托平台、团队协同攻关的研究发表形态和跨学科的合作网络已初具规模。仅以中国文学学科为例,受国家社科基金资助,就形成了三个重大课题团队,分别为中南民族大学王兆鹏任首席专家的“汉魏六朝文学编年地图平台建设”,清华大学刘石任首席专家的“基于大数据技术的古代文学经典文本与分析与研究”,和浙江大学徐永明为首席专家的“明代文学智慧大数据及平台建设”团队。和海外合作的情形相似,除了独著论文产出量大,集体完成的量化成果被视为团队价值的最佳体现。不仅如此,一些实例雄厚的中、小型研究小组彼此也时有交集,一线技能丰富的骨干分子常常活跃在各个跨学科课题中,成为沟通合作网络的关键节点,如王宏甦(CBDB),邓柯(清华大学),夏翠娟(上海图书馆)等。



(二)“技术共同体”初步显形

尽管没有一个数字人文项目是仅凭单一技术就可以实现的,但和国际上的情形相似,过去的十几年内仍然形成了一些特点相对清晰的分支体系,如文本挖掘(text mining),网络分析(network analysis),可视化(visualization),地理信息技术等(GIS),可姑且称为“跨学科的技术共同体”。严格说来,这些分支的基础都是量化计算,只要将文献档案转化为可量化分析的数据,且编制了元数据,就可以通过最简单的统计手段来进行多变量分析。只不过近年来在数据科学中,机器学习有了长足进步,以深度学习为代表的数据驱动范式在业界取得了较大成功,人文学者开始希冀基于大数据的“计算智能”也能为传统学术带来翻天覆地的变化。在现实中,好的数字人文学者大都坚持“问题取向”,具备一定的社会科学理论素养,能够带着强烈的问题意识来构建数据集,寻求契合理论问题的一、两种主要建模手段,如此便在解决和回答人文问题的同时,不只发展了传统理论,也完成了一项应用性的技术探索。


文本挖掘是“远读”海量文献时采用的一系列技术集合的统称。它发挥了自然语言处理和数据挖掘技术的基本理念,对文本的语言特点、类别、观点、情感倾向等进行批量化的整体“挖掘”,以求发现凭借单一文本阅读难以察觉的潜在“模式”,最终形成新的人文解释。从最基本的信息检索和文本预处理中的标准化、分词、文本标记/注释等步骤,到其后表示模型的选择、特征抽取,词频计算,各种文本聚类和分类,自动摘要,模式识别,情感分析,作者归属判断,主题建模等等,都可算作文本挖掘的步骤。早期应用中有代表性的是对争议较大的古代作品的作者归属研究。如1980年代以来,陈炳藻、李贤平、陈大康,施健军分别对《红楼梦》前八十回、后四十回作者统一性问题所做的研究,得出了截然相反的结论。事实上,由于各个研究者分别选取不同的语言特征,采用不同的统计方法,在缺乏有力“旁证”的情况下,这一类研究很难形成不易之论,因而也成为常做常新的题目。近年文史研究中,对文本挖掘倚重较多且能行之有效的,是偏重思想史考察的“数字观念史研究”。金观涛、刘青峰、郑文惠、刘昭麟、邱伟云、梁颖谊等,以“中国近代思想史专业数据库(1830—1930)”为对象,运用词频统计、自然语言分布定律,词向量、词共现网络等方法,从雷蒙·威廉斯的“关键词”,柯林伍德的观念史、科塞雷克的概念史理论出发,借助于常规算法,用一系列核心范畴从海量语料库中自动生成关键词群,对这些词群和网络所表征的价值体系进行一种历史语义学的历时性描述,以之勾勒或讨论近现代思想观念的结构转型和演化趋势,努力促成观念史、概念史、思想史研究中的“数字转型”。南京农业大学包平团队,南京大学王涛和上海交通大学赵思渊在对方志、民间文献,以及德语文献的文本挖掘方面;中国人民大学胡恒、广东社会科学院申斌在史料的量化分析和建设方面,也都取得了重要成绩。尚闻一、梁兴堃利用CBDB数据,对影响中晚唐河北藩镇人员外流的各因素进行回归建模,做出了严谨而精彩的量化历史分析。北京师范大学高剑波团队近年来在影视剧本的情感计算领域也屡有突破,其合作成果大都在海外发表,具有一定的国际影响。


文本标记和统计分析方面,台湾大学项洁团队近年来注重以基于特征的算法,发掘巨量文档间的多重知识脉络和关联结构,如对两部官修类书和淡新档案的研究,所提供的对历史文献的分类结构、比重和条目上的差异图景,已非人力所能及。南京师范大学在几届师生的共同努力下,先后建设了《左传》《史记》《资治通鉴》等语料库平台,完成了相当繁难的标注工作,实现了词语概念的本体化检索,可用于更精细的数字人文研究。在计量风格学研究中,监督学习的分类算法和无监督的聚类算法也被进一步用于类书和目录学,甚至现代文类的研究,藉此与一些文学史命题形成对话。前者如北京师范大学诸雨辰、李坤团队运用基于神经词向量的诸多模型对《汉书·艺文志》中的存世文献进行自动聚类实验,为超越文献学观念上的“《汉志》主义”提供了更多可能。后者如芝加哥大学文本光学实验室与上海图书馆合作的“民国时期期刊语料库(1918—1949)”,采用朴素贝叶斯分类器,神经网络框架,以及层次聚类和网络分析等多种方式,尝试对近现代期刊中“新文类”的构型因素进行多层面研究。


深度学习和大规模语料结合,而特别是近来预训练模型(如BERT,GPT-3)的发布和流行,使得“大数据预训练”加上“小数据微调”的做法在人工智能写作(文本生成)和中文古籍处理中都拥有众多应用场景。在古汉语的序列标注(命名实体、自动分词、自动断句、标点,词性标注等),文本比对、关系抽取、角色识别等下游任务上也获得了前所未有的优良表现。清华大学自然语言处理与社会人文计算实验室研发的“九歌人工智能诗歌写作系统”,曾以80余万首旧体诗语料和标注知识库为材料,来训练工作记忆模型,同时嵌入体裁、风格和韵律控制等,生成连贯、合律、“有意境”的诗词。不仅支持多模态输入,还可以在人机协作、反复修改的模式下作诗,并为作品自主打分(Zhipin Guo等,2019)。中国古典诗词预训练模型BERT-CCPoem能提供任何一首古典诗词中任何一个句子的向量表示,可广泛应用于古典诗词智能检索与推荐、语义相似度计算。北京师范大学中文信息处理团队较早利用BERT成功提升了命名实体的准确率,开发的古诗文断句和多元古籍标注系统,自动标记标点、书名、专名等,标记准确率超过90%。中华书局古联公司、龙泉寺也上线了高效的自动标点系统(在RNN+LSTM基础上引入新模型,使神经网络拥有成百上千层)。北京大学与中文在线元引公司合作,上线“吾与点古籍自动整理系统”,现已具有自动句读和专名识别功能。南京农业大学、南京师范大学和南京理工大学团队最近在BERT基础上联合发布了繁体《四库全书》语料训练出的面向古文自动处理的开源预训练模型SikuBERT和SikuRoBERTa,在分词、词性标注、断句和实体识别任务上均表现优异。徐晨飞、叶海影、包平采用4种模型Bi-RNN、Bi-LSTM、Bi-LSTM-CRF、BERT对《方志物产》标注语料进行实体识别实验,研究其可行性与优越性。CBDB团队近年来也采用人工标注训练集+BERT+Bi-LSTM-CRF的框架,自动地批量处理了大量未标注的地方志文本。值得一提的是,和上述依靠大规模深度训练的做法不同,清华大学邓柯团队自2016年起,运用无监督中文文本分析方法TopWORDS及其升级系统,以极少的训练信息和人力成本,从海量古文献中识别专名、建立专名索引;通过反复计算学习完成古籍文本的词语发现,文本切割,语义理解,关系抽取,模式捕捉等等,为实现算法“白盒”化和人工智能的可解释性做出了另类贡献(邓柯等,2016;徐嘉泽等,2020)。


网络分析源自网络理论,也是数据分析可视化的一种有效方式,其发展相对独立,自成一体。社会网络分析是量化社会学的一支,它将关注点从传统社会学对人物自身和所属阶层或团体的孤立研究,转移到各种人物和社群彼此联系而构建起来的网络结构上,近年来被整合进数字人文,和各种文本挖掘技术结合,以关系型数据为分析对象,成为DH最具吸引力,也是取得实质性进展最多的方向之一。


很多关系型人文数据库的方法论基础,都是社会网络分析。在CBDB中,各类实体间的关系经过人工编码,依靠简单算法来衡量。可以帮助人们在瞬间获得古代人物的生平资料,并对其所置身的亲属、官僚、师门、著述、通信等社会关系网一目了然,还可以把数据导入网络分析软件,做进一步的统计分析。此类数据库已积育了一些代表性研究,如包弼德结合CHGIS,以朱熹、张栻、吕祖谦等人的社会关系网络所在区域位置来考察道学思想的传播(包弼德,2017)。魏希德在其著作《宋帝国的危机与维系:信息、领土与人际网络》中,借由靖康之后南宋士人的笔记、诗文和通信,以及官方邸报、地图等档案资料,重建起由官员和官场边缘士子组成的信息生产网络,探讨了他们对地缘政治危机的回应,是如何改变了朝廷与州府精英在政治沟通领域中的关系——亦即政治领域的“结构转型”问题。严承希、王军从CBDB中抽取数据,设计算法来表示所谓“政治对抗”与“政治奥援”关系,构建宋代政治网络,对不同时期时序政治关系演化模式的三个层次做出分析,为研究宋代党争格局提供了新方式。徐永明也曾利用CBDB数据和“中古历史地理信息系统”,和人物年谱结合,将汤显祖的社会关系投射到准确的地理坐标图上(徐永明,2018)。刘飞燕、高剑波对隋唐至宋时期精英社会网络动力学的演化研究,也属于对CBDB数据的宏观分析。


2020 年数字人文年会在上海举行


除依靠现成数据库,大部分人文学者仍需自建数据集用于自己的课题。王涛就充分利用《德意志人物志》这部工具书中人物的生卒地信息,绘制出15、18世纪德意志人物的“出生地图”和“死亡地图”,以人物的迁移轨迹,印证普鲁士崛起的几百年间中心城市的盛衰演变(王涛,2018)。陈松对现存宋代地方官学碑记作者进行网络分析,揭示了宋代四川与其他地区在思想观念交流上的结构性鸿沟,以及理学思想在官学碑记写作中与日俱增的影响力(陈松,2020)。严程建立了以顾太清为中心的闺阁诗人交游网络,解释了“秋红诗社”的“中断之谜”(严程,2018)。


不同于现实中的社会关系网络,文本网络(textual network)是人文研究中另一类较受关注的网络类型。许超在《左传》标注语料库基础上,将“人物”与“事件”的实体共现网络表示出来,再将其转化为人物-人物的社会网络,即用人物在事件中的词汇共现关系来表征人物的社会关系。对这一“春秋人物网络”进行整体性和关键节点的挖掘,发现了它的小世界性,以及孔子作为最低聚-度相关度节点的特殊意义(许超,2014)。而另外一些并不认同词共现和数据驱动的做法,则倾向于使用基于规则的办法,从历代文本中提取可解释的关系,建立虚构形象的关系网络,挖掘潜在叙事意图,触及人物观的演变问题(廖俊凡,2010;赵薇,2018)。邱伟云、严程在近年的文史研究中,非常注重运用网络分析,通过构建词汇概念网络,描述思想史的重要转关(邱伟云,2019;邱伟云、严程,2020)。张光伟、李惠在字典和书信网络建模方面,也做出了拓荒性贡献。

莱顿大学汉学家魏希德(Hilde De Weerdt)教授专著Information, Territory, and Networks:The Crisis and Maintenance of Empire in Song China(2015)中译本今年出版


图像与视觉化是数字人文不可或缺的研究对象和重要手段。清华大学美术学院向帆、朱舜山采用CBDB中的家族关系数据,结合上海图书馆的家谱数据和可视化、3D技术和交互性,通过关系判断,算法改进,建构中国古代皇室家谱巨大的树状立体网络。该项目多次获国际大奖,不仅展现了令人惊艳的艺术效果,还可以发现数据中的疑点,解释家谱记录中的可疑关系。北京大学王军、李晓煜等的“宋元学案知识图谱可视化系统”对240万字的《宋元学案》进行了文本处理和分析,把学案中的人物、时间、地点、著作等实体之间的复杂关系提取出来构造图谱,生动呈现了历史事件对理学发展的影响。该实验室还在CBDB的基础上,建设了可视化的数据分析和交互查询的专题平台“中国历代人物可视化平台”。


由美国莱斯大学Tani Barlow和南京大学陈静合作的“中国商业广告数据库”属于历史较久的视觉媒体数据建设项目。他们对近现代的海量商业广告进行数字化和元数据标注,并结合文本挖掘及基于卷积神经网络的图像自动聚类工具对广告文本及图像进行分析,将广告信息放置在于其它信息关联的节点上,通过信息搜索与视觉化的呈现,来追踪显示广告图像、商业公司经济活动、广告业发展及中国近现代社会学思想之间的关联性关系。陈静团队的另一类项目“南京云锦色彩数字化保护利用”“南京传统工艺非物质文化遗产虚拟展示”等,自2019年起开展了以云锦为代表的中国色彩的知识和色谱相关研究,其成果也为业界所期待。上海博物馆刘健主持的“董其昌数字人文展示系统”,依靠数据关联和量化分析,以可视化的形式,展现与明代著名书画家、鉴藏家和史论家董其昌相关的时、地、人、事。结合机器学习等手段,实现书画“精看”,浏览高清书画影像的同时,让观众了解董其昌及其背后的人物网络、足迹图谱等知识体系。同样运用知识本体对视觉艺术进行系统研究的,还有中国美术学院王平团队,自动聚类被用于归纳海量图像细节中的现存模式,从而发掘五代北宋山水画意象长时变化的线索,为数字人文介入传统技艺文化研究提供成功范例。


历史地理信息化与空间人文可看作与数字人文紧密相关的、技术性最强、科学化程度最高、发展最早的学科产业体系,得益于近二十年来地理信息技术在人文学科特别是历史地理学中所取得的种种标志性成就。在平台搭建方面,复旦大学史地所和哈佛大学打造的中国历史地理信息系统(CHGIS)使用典型的矢量化数据,以点—线—面的组合来描述现实地理世界信息,对后续的历史地理信息化产生了深远影响。2013年后,复旦大学发布了基于实地调查数据的“丝绸之路地理信息系统”,首都师范大学历史地理研究中心牵头搭建了“丝绸之路历史地理信息开放平台”。云南大学2019年启动“南方丝路历史地理信息平台”。其他历史久、影响大的信息化平台还有南京大学陈刚团队于2006年开始开发的“六朝建康历史地理信息系统”,中国人民大学夏明方主持的“清代灾荒纪年信息集成数据库”,上海交通大学曹树基主持的“中国历史地图地理信息平台”等(潘威,王哲,满志敏,2020)。


中国台湾方面,“中研院”人文中心GIS专题研究中心自1989年起开始构思时空信息整合平台,曾先后建设了“中华文明时空基础架构”(CCTS),“台湾历史文化地图平台”(THCTS),“台湾百年历史地图”,“地图数位典藏整合查询系统”,“文化资源地理资讯系统”等。CCTS同样是以“谭图”为基础的GIS工程,除历史地图外,还包括了WebGIS整合应用环境,以及主题性空间信息部分。相同的构架也被用于2003年规划完成的THCTS,即以GIS整合不同时空尺度的属性资料,历史地图、卫星影像、老照片、田野调查等多媒体信息,可以说是“以台湾历史文化地图作为地方知识的时空构架”(范毅军,2021)。近年来开发的Sinica View平台,将该中心的GIS资源全部嵌入,研究者可直接导入图层,被誉为“取代Google Earth的学术进阶版”。


2014年后,陈刚、潘威等提出了结合数字人文与GIS的历史地理信息化建设方向(陈刚,2014;潘威,2018)。人们认为应加快双向融合,广泛吸收在史料文本的信息挖掘方面比GIS更具优势的数字人文,达到如虎添翼的效果。南京师范大学 “华夏家谱GIS平台”,致力于以通用型GIS数据模型和标准来处理历史文献,将家族、人口、迁移等多方面问题相关联。中国人民大学历史地理学团队借助“《缙绅录》数据库”,发挥GIS在清史研究、政治史研究中的功用,从地理视角重新认识清代政区问题(胡恒,2019)。中南民族大学“唐宋文学编年地图”将GIS、电子地图与唐宋作家作品编年信息深度融合,提出“系地”的概念,实现了文献的数字化集成与文学空间的可视化呈现。浙江大学徐永明主持的“学术地图发布平台”,支持用户个人上传数据,生成学术地图,包括历史人物行迹图和各类实体定位查询图等,提供了一个友好、专业的信息共享环境,自2018年3月上线以来,已发布1596幅地图、3700余图层、500余万条数据。


面向数字人文的空间数据挖掘和历史场景复现,近年来形成了兴旺发达的多元方向。天津大学建筑学院何捷筹建的SHAPC Lab,将GIS、遥感、空间计算等信息技术与文献挖掘结合,进行文化遗产、景观和城市史相关的“空间人文与场景计算”研究,近年来贡献了诸多开创性成绩(马昭仪、何捷、刘帅帅,2019)。台湾中山大学简锦松教授多年来以独树一帜的“现地研究”闻名学界。他的研究以实地考察为主,辅以GPS、天文历法工具和官职、器物、驿路考古等,还原、复现了古典文学的发生场景和文学行为,达到实证研究的目的。相关成果集中在《杜甫夔州诗之现地研究》《山川为证——东亚古典文学现地研究举隅》等著作中。在这方面,安徽大学唐宸亦有代表性研究发表。


2019年12月“中国古代皇室家族树”在清华美院展出


(三)“网络基础设施建设”作为驱动力

针对目前大多数人文数据库的兴建模式存在“缺乏对资源语义特征的深度描述和解释,知识单元颗粒度不够细,资源之间关联不足,信息孤岛现象明显,服务模式单一,少有语义检索和数据挖掘功能,无法实现自动化的知识发现等不足”的现状,图博档和信息管理学界提出了一套“智慧数据”的解决方案(王晓光、谭旭、夏生平,2020),为铺设全面的人文网络基础设施,而特别是提升文化遗产保存和研究领域的价值提供了保障。近年来武汉大学数字人文中心王晓光团队与敦煌研究院通力合作,围绕“敦煌智慧数据”建设和敦煌文化遗产保护、研究和传播,借助元数据、主题词表、语义增强、知识图谱、国际图像互操作框架(IIIF)等技术与标准,建构了敦煌壁画的图像增强展示和叙事系统。中国人民大学冯惠玲团队工作的重心是历史文化村镇保护和研究,以“高迁古村数字记忆网站项目”为代表,主要表现为“全要素数字化+全息”呈现,为用户提供了一个可检索和呈现、富含语义关联的沉浸式知识库,完成了多种文本的再媒介化和交互式诠释。


与具体领域的设计建造目标不同,网络基础设施的一个重点,是打造支撑人文研究的关联数据平台和知识体系,尽快确立技术和元数据的统一规范,实现全国乃至全球范围内的数据和资源共享。在此环境中,人们能够通过互操作协议获取高性能的计算机工具和数据。因而从本质上说,基础设施指的是由人文数据集、网络标准协议、平台、计算工具和人才,以及合作模式形成的一个联合体(朱本军、张久珍,2020),其重点在于互通机制的营造和长线投入。为此,针对海内外中国研究中数据库建设机构林立,相当分散;在线资料的分析工具只为某种材料而开发,无法跨系统使用;各种数据库的结构不相通,无法让程序快速调用——造成了重复建设和资源浪费的现状,王宏甦、徐力恒、包弼德等学者自2016年开始探索“服务中国史研究的网络基础设施”,详细探讨了规范的资源共享(API共享、文件共享)和共享权限等问题,并提出参考CBDB,中国台湾地区,德龙(Donald Sturgeon)的CTEXT,德国马普科学史研究所等机构数字人文项目中数据关联的经验,为不同资料库中同一实体提供链接——今后的重中之重,则是建造可以进行授权读取和写入的资料库,如此,“中文数位人文网路基础设施的成员可以使用它来建立和查询不同资料库之间ID的关联,实现系统之间的相互操作”。其终极目的,是共同建立一个连接不同项目和专家的基础设施(王宏甦、徐力恒、包弼德,2020)。


2018年3月在上海哈佛中心召开的“中国历史研究的网络基础设施国际研讨会”


在这一认识的基础上,2018年3月,CBDB负责人包弼德教授和CTEXT的德龙,联合北京大学、台湾大学、上海图书馆、中文在线、超星、中国知网、中华书局、搜韵、书同文等海内外近百个人文数据资源建设团队和公司,召集“中国历史研究的网络基础设施国际研讨会”,发起了“面向数字人文的中国研究网络基础设施”的联合倡议。此举核心是与国内各大图书馆、商业机构达成分享和共建的基本共识,说服第三方商业数据库,逐步开放各种专门工具和全文数据库的API接口,看到商业性的全文数据库也可以从网络基础设施带来的元数据分享以及不同项目之间互动得益的前景(徐力恒)。在同年“第九届上海国际图书馆论坛(SILF2018)”上,包弼德教授进一步提出建设“全球智慧数据平台”“中国数字人文研究维基平台”的愿景。也正是在这一大背景下,CBDB项目正式与中文在线集团签约,进入部分商业化的探索阶段。


国内图情学界很快以其方式响应了这一动议,图博档机构大力投入面向数字人文的资源整合和通用平台建设,加快对关联数据、跨网域的开放互联、基于本体的知识表示和建模等方法论的探索(夏翠娟,2020;夏翠娟、刘炜、陈涛、张磊,2016)。走在前列的如上海图书馆“历史人文大数据平台”,整合了“中国家谱知识服务平台”“中文古籍联合目录及征询平台”“人名规范库”“中国近代报刊库”等前期资源,建立起有关人物、机构、事件、物品、时空、领域概念等规范描述的词表体系及庞大的知识图谱,实现了对扫描图片的IIIF管理,数据中台和算法中台具有共享数据和计算的能力。计划整理发布的各类RESTful API接口和互操作协议将能够提供标准化的外部数据整合规范,可实现一站式资源发现(例如,用户可以简单输入“啼笑因缘”,将报纸库中相关的全部小说连载和相关评论的版面图像按照前后顺序自动识别、标注并拼接出来,不仅打破了原先的报纸编排脉络,省却了学者寻找、连缀源文献的功夫,实现了图像资源的灵活组织;理想情况下,也会将近代图书库、期刊库、电影库、历史文化事件知识库等其他关联库,以及外部站点中相关资源一网打尽,形成图谱式的表征),(姚啸华,2021)正在集成的各类文本、图像、数据加工处理及可视化工具也能够帮助学者操控本地或平台数据,进行实时的“数据实验”,并实现远读、细读、共读过程中参数调试和模型优化工作。与此同时,刘炜、夏翠娟、王晓光、陈涛、张春景、张磊、黄水清、朱庆华、王东波、赵宇翔、许鑫、包平、李斌、赵生辉、张卫东、裴雷、聂华、王丽华、张卫东、左娜、徐晨飞、张永娟、朱锁玲、李欣、单蓉蓉等诸多学者也多在人文数据基础设施的一般性功能需求和技术规范设计方面发表了奠基性成果,成为这个领域的高引作者。朱本军、张久珍等意识到国家基础设施建设的文化战略意义,敦促中国学者牢牢把握数字基础设施建设的主动权,相关部门应加快顶层设计,“使海内外与中国议题相关的讨论都在此同一数字基础框架下进行”,同时吸引海外学者进驻与参与(朱本军,2020)。


2019年10月上线的上海图书馆“历史人文大数据平台”(Demo版)统一知识检索服务


文献学家则就当下古籍由数字化向数据化再向知识化的进程提出宏大构想。以中国古典文献学的情况为例,清华大学刘石和孙茂松教授在《中华字库·宋元印本文献用字搜集与整理》和“基于大数据的中国古代文学经典文本分析与研究”等前期项目的基础上,提出建设“中国古典知识库”(CCKB)的构想,即以20多万种全部存世古籍为基础,辅之以相应的工具,在保障古籍文献内容完整性及内部逻辑性的基础上突破文献原有结构,周密设定主题词表,专业地提取各种实体,如年代、地域、人物、社团、著述、事件等等,通过构建实体的相关属性及相互关系,对文献进行深层组织和知识管理。各教研单位面向用户的大型古籍处理分析平台已在建设中,如上海外国语大学“中国古籍基础数据分析平台”,就汇集古籍文字、文本、词典、典籍知识等中国古籍基础数据,可以提供包含649549种古籍实体、221783位典籍责任者、1498383个古籍版本、13960个地名节点的中国存世典籍知识图谱服务。由清华大学中文系和统计中心、中文在线等机构合建的“数字人文智能分析平台”,也有望融更多专门化的工具、方法和数据,乃至教学服务于一身,为“中国古典知识库”奠基。值得关注的是,在这一特殊的建造领域,已经有颇为可观的实践成果应运而生(如以李斌、王璐、陈小荷、王东波:《<左传>知识库》数字人文视域下的古文献文本标注与可视化研究——以《左传》知识库为例)为代表的,受国家社科基金重大项目“基于《汉学引得丛刊》的典籍知识库构建及人文计算研究”支持的多项成果)。此外,数字人文的热潮也吸引了一批青年文献学者的关注,他们纷纷就传统目录学、文献学往何处去,如何与数字人文相互融通等问题,生发出自己的思考,或跃跃欲试地开始自身领域知识的重组工作(王贺,2019;胡士颍,2019)。


可以说,数字人文正在中国大陆掀起一个“知识工程”导向的“基础设施”建设高潮。而稍早启动的另一类更追求实用、易上手的通用工具平台,以台湾大学数位人文研究中心、资讯工程学系数位典藏实验室规划,项洁教授主持,杜协昌等开发的“Docusky数位人文学术研究平台”为代表。此类平台的设计理念迎合了人文学者的切实需要,为了兼顾人文研究的特殊性、个体性和多样性,提供学者在平台上建置符合国际标准格式的个人云端资料库,并以一个超大型工具库的形式,整合了个人文本的格式转换、标记与建库、探勘与分析,以及视觉化观察、 GIS 整合等数字人文的工具模块。此类平台也提供API接口,可以从CBDB、MARKUS、CTEXT、CBETA等外部资源获得资料建库。其主要目的是规划一个开源链接与友善互动的数字研究环境和个人化的服务,“让人文研究者不必再步步仰赖信息科技专家,自主且自由地融合数字科技进行人文研究”。与此相类,中文在线元引公司2019年来在CBDB基础上构造“引得数字人文平台”,也致力于为学者和学生构建一个不断优化的数字人文训练、教学和研究环境。该平台提供针对CBDB的人物传记资料可视化查询,地理空间与社会网络分析,还支持个人上传数据,可进行文本批量预处理(包括文字识别、校改、自动句读和命名实体)、文本标注与数据联动生成图谱等,目前还在推广阶段。


台湾大学2017年上线的“DocuSky数位人文学术研究平台”


在应援大平台的同时,开发具备一定可扩展性的实用工具和模型,以解决文献整理、检索和研究中诸多现实问题,也属于基础设施的重要部分。北京大学哲学系杨浩多年前就曾开发古籍文本对勘、标点过录系统,长期在《儒臧》项目中使用。李惠、侯君明、陈涛等人的一项网络分析研究,则将时空网络和人物网络整合,从《曾国藩全集》的书信册中获取大量元数据,验证了他们此前设计的书信网络模型的有效性,通过透视书信网络的动态结构,为大规模书信网络文本挖掘提供了通用工具(李惠、侯君明、陈涛、朱庆华、刘炜,2020)。


三、“复数的数字人文”与批判的数字人文

和国际数字人文的发展情形相像,中国本土的数字人文成果、项目在学科分布上的一个显著特点,是图情档和信息科学技术的相关文章占了绝大多数(约69%)。尽管2016年以来,人文学者的自觉探索大幅增多,渐成潮流,图情学者仍然是数字人文的主力军和主要推动者。此种现状的形成与从业者对数字人文、数字技术的理解不无关系。如果人们将数字人文等同于面向“大数据”“人工智能”的人文数据挖掘、计算机辅助下的数字文献学或数字语文学,那么,与侧重于解决具体问题的“人文计算”不同,大规模基础设施和智慧数据的知识工程,便构成了现阶段数字人文的重心和主体。据此理解上的差异,有学者将现今中国的数字人文分为“基础设施派”和“人文计算派”(这一粗略划分,来自西藏民族大学赵生辉教授的观点)


在基础设施建设和知识工程派的学者看来,技术进步是数字人文最重要的内驱力,类似于自然科学中的天文望远镜和物理学之于自然科学,作为基础设施的数字人文构成了未来一切人文研究的基础之基础(王晓光),基础设施的重要性毋庸置疑。刘炜、朱本军等认为,人文学者只需要把他们的学识和学术精力集中在“高层次”的研究问题上,成为新媒体和新技术的有效用户,而不是非得“从无到有去发明它们”。尽管在最近一次公开发言中,刘炜馆长明确区分了“基础设施”和“数字人文”,并将图书馆等机构定位为基础设施的“主导者”,而将人文学者定位在“使能者”的角色,数字人文“学科化”的呼声仍有增无减。而另一种观念,表面上看与此对立,实际上更加重了人文计算的工具论成色,认为在数字时代,人文学者可以利用数字技术(尤其是电脑数据库)作为外在的工具,来回答严肃的学术问题,因之更应将其划为形下之“器”的层面。值得注意的是,认同此两种典型的数字工具论的学者不在少数。两种观点的分歧,乃在于数字人文到底是由“数字”还是“人文”主导,从本质上说,却仍然摆脱不了“数字技术”和“人文问题”二元对立的观念,或将数字人文单纯视为“数字+人文”的组合,视为现存体制下各学科诉求的附庸,而并不一定承认已具备了一定自主生产特点的,作为跨学科和多学科协作领域而存在的“数字人文”。


据CNKI检索结果“可视化分析”得到的“数字人文”主题相关文章学科分布


实际上,稍有些本位意识的观点近年来已被中国学者注意,如Johanna Drucker的观点就曾为陈静所援引,以唤起人们对割裂技术与人文的审思,即不能将开展学术活动新环境的设计工作全部留给技术开发人员以及图书馆专业人才——图书馆在规划和保存、使用学术资源的方面是重要的伙伴,他们更是“建筑师”和“施工队”,而分析工具以及对人文和社会科学中的综合数据(aggregate data)进行统计分析的一系列工作,只能由汇聚了技术和个人专家的跨学科团队来完成。“建立学术模型是一个智识上的挑战,而不是技术的。”(陈静,2019)反对数字技术的工具化,归根结底是为了反对数字人文的工具化。将其视为“智识上的挑战”,是从领域发展的内在逻辑来强调其独特性的,更是为了给数字人文留出“向上一路”。


这里的分歧,仍然牵涉如何来看待和理解数字人文,这个难以绕过的基本问题。整体而言,在看重人文学的阐释本质的学者看来,无论是谋求实证的“求是型”研究,还是作为物理世界和人类社会一套符号化映射的数据信息科学,在处理和解释人文命题的时候,都将面临天然的限度。如何面对人文阐释的多样化、多义性和含混性?或更进一步说,如何面对意指过程中难以言喻的复杂性和延宕性,这些由人文话语自身的特点带来的难题?从根本上说,正如基础设施学者认识到的,数字人文是将对象和历史材料彻底数字化之后,在虚拟世界里建立起一套相应的映射、模拟系统,希望以此达到与真实世界高度一致的概念抽象和逻辑框架(刘炜、叶鹰,2017)。它源自人类古老的摹仿冲动,可视之为一套典型的“再现实践”(Unsworth)。因而,再“智慧”的知识系统,也不过再现了人们对事物的认识;算法皆由人发明,机器学习提供的远距离视野并不具有经验的“客观性”,声称以“发现”为目的的数字人文,本身就基于一套“虚假”的(毋宁说是可选择的)“本体论承诺”。数字人文可以突破人们认识的边界吗?沉醉于表示实践的工程师,和那些自由嬉戏于概念、隐喻和想象之间,并以其书写改造世界的文人学者,真的有“本质”区别吗?也许不妨再退一步说:纯粹的“事实性”问题(如布萨神父和IBM联手,成功解决了庞大著述系统的索引编制难题;或者统计学家凭靠繁复的计算解决了《联邦党人文集》名篇归属悬案),毕竟只是数字人文的一部分——必须承认作为一种阐释和批评方式的数字人文的存在。而事实上,从编码、标注、算法开发,到将建模用于推理和论证的各个逻辑环节,从来都离不开理解和解释的先在性。这是一个可以协作却不可分割的整体,是一种在操作中诠释、用操作来诠释的生产过程,在这样一个技艺化的流程中,最不可缺少的,是指向工具和技艺自身的反身性思考,这种思考或者说对工具的“反利用”,让其获得了智识的内涵。


2018年1月6日,全国来自艺术学、历史学、地理学和GIS、信息科学、建筑学、文学、哲学、社会学等学科的学者齐聚南大高研院,围绕数字人文的机构、译介、教学进行探讨,决议成立南京大学高研院数字人文创研中心


从另一个角度说,这也仅仅是一套知识保存和生产、传播方式的变革,其基本样式,是知识表示形态的根本变化。所以人们担忧,也正是在这一过程中,计算不可避免地具有“压缩效果”,把丰富生动的人文体验变换为图形和抽象符号,在屏幕和网络上传播。随着基础设施的日渐完善,人文档案的全部内容,它的复杂性和物质性,都能在数字中保存下来,但却很难被历史地、审美地“感知”了,这也是由媒介变迁带来的人类知识传承必然经历的“降维保存”的过程。而且,和经济学中“所有模型都是错误的”的情形相似,并不存在放之四海而皆准的“文化模型”,每一个DH个案的结论都有极强的针对性,很难推广成普世真理。在大多数问题上,“远读”只能成为细读的补充,由无数细节铸就的特殊性仍然是人文学者更关心的。


所以说,物质和功能主义的数字人文无法自动获得批判性的维度。由“算法优化”主导的诸多研究,还会将其进一步抽离具体社会、文化甚至技术自身的语境。恰如Alan Liu强调,缺乏文化批评的数字人文无法成为真正的人文研究,在一种后基础主义(postfoundationism)的氛围中,或者说晚期人文主义的岔路口,能否发展出批判的基础设施和数字人文的文化批评,从而重建起人文和公众之间的联系,对于整个社会知识的转型来说都至关重要。因而,在难以形成解释闭环的“数据驱动”,与“知识和问题驱动”之间;在重实利的“建造”目的和“树人”的终极信仰之间,人文学者还需自己把握平衡。


在这方面,一部分学者已经做出了清晰的思考。他们认为数字人文须超越“工具角色”的阶段,反对数字人文的学科化,或将主导权交给仅仅在技术上占有优势的学科。陈静就曾明确提倡开放边界和“复数的数字人文”,希望保留数字人文在不同学科、不同文化、不同语言间的多种可能性;一方面人文学者应有意识地提高自己的数字素养,避免对“技术”的无感或盲目的乐观/悲观主义,增强协作意识,提高深度参与能力;同时也应对算法和数据驱动保持清醒认识(陈静,2018)。姜文涛的思考则始终遵循“历史化”的原则,将DH的兴起放在印刷媒介向数字媒介转型的大背景下,提醒人们注意作为专业领域的DH与西方近代人文研究职业化进程的内在关系(姜文涛,2019)。另一种声音呼吁人文主义者以“计算批评”或“算法批评”的进路来取代“数字人文”的竭泽而渔。但汉松最早在《朝向“数字人文”的文学批评实践》中紧扣John Unsworth、Katherine Hayles等人的观点,敏锐地指出作为一套再现实践的数字人文,其计算的有效性并不等同于对计算工具的“皮相”套用(但汉松,2018)。只有在利用方法的过程中,人的主体意识和算法产生了深刻的交互,才算具有了文化批评的人文主义价值。承此观念,赵薇以芝加哥大学文本光学实验室的世界文学和中国研究为例,揭示了莫莱蒂(Franco Moretti)的“远读”,逐渐为一种更具生产性和批判意识的“计算批评”所取代的过程。未来应有更多的量化成果以“计算批评”的面貌出现——人文学者能够从自身的领域知识和细读体验出发,巧妙地利用数字工具设计实验,和数据驱动的结果直接对话,达到破除算法黑箱,揭示现象背后的文化生产逻辑的目的。更重要的,祛魅的前提是人文学者有效参与到搭建、部署、运行和评判复杂的计算和实验的全流程中去,而不是“外包”给技术团队,如此才不会割裂实践的各个环节,从而最大程度上避免了DH在再度学科化的设计中陷入自主性追求的绝境。对他们来说,开展数字人文研究,并不等于无条件地拥抱人文学术的信息化、技术化乃至产业化,相反,让人文学回到有物混成、生机勃勃的发端状态才是其初衷。


可以看到,和国际上的情况一样,数字人文的唯一界定并不存在,各个学科对这个“伞状概念”的理解也难以达成统一,被称为DHer的大部分学者依然对这一标签持足够警惕,而更多的人还处于观望和质疑状态。但是在现阶段中国,“大帐篷下和谐共处”的内涵获得了更多认同。无论是数字开发商、学者、图博档机构还是数据消费者和批评家,一方面数字人文十分鲜明的实践性要求(Just do it)让集结在这个概念下的各个群体不得不暂时搁置分歧,脚踏实地地去行动;另一方面,获取概念红利,谋求共同发展又不失为一种明智之举,所以人们又倾向于采用这种权宜之计。


四、前景、挑战与问题

2019年以来,适逢教育部力推 “新文科”建设,数字人文在中国被寄予厚望。数字人文带来了材料和议题的拓展,一些在前数字环境下无从观察的现象、难以想象和处理的议题得以展开。在学科区分日趋细密的今天,数字人文重新唤起人文学者思考和解决“大问题”的雄心。在乐观者看来,远距离视野(distant horizons),跨学科、多学科协作的知识生产方式将重塑整个人文社科领域。中文数字人文的推进有望触发中国人文学科在知识基础、方法论和评价体系等多方面的反思,一个学科大碰撞大融通的时代终将来临。


这一背景下,学科的固化,而尤其是社会科学与人文学术批评之间的壁垒和禁忌需要进一步破除,计算实证方法将得到规范化的运用。毋庸讳言,数字人文的流行,标志着量化研究进一步向人类的价值和精神领域突入,一些以前不敢想象的研究,关乎人的审美经验和存在本质的问题,现在也可以取得计量化的表征效果。实际上,“量”的事实一直就存在,只不过在计算社会科学兴起的今天,习惯了盲视和定性研究的人文学者在和数据打交道时,还须格外尊重量化社会科学的基本规范,其成果才能为更广泛的受众认同,获得立身之基,亦或是与其“对话”的前提。具体而言,这要求人文学者在涉足量化时,不再满足于对材料带来的数据做简单的描述统计,便匆忙奔向结论,或依主观经验让数据各说其话,形同摆设——而是要借助具有公信力的操作方法,进行科学的统计推断,通过假设-验证的实验范式和检验步骤说话,努力完成数据-建模-细读-数据-建模-理论批评-数据-……的“阐释学循环”。


重视社会科学,也对人文研究中的技术施展提出了相应的要求——它要求技术的使用者,绝不仅仅止步于启用现成的工具和基础设施,还应积极勾连起作为中介的社会科学理论,为人文阐释拓展合法的领地,搭建阐释的桥梁;同时,还要将个体的批评性体验带入关键环节,通过数据建模和细读批评间的多轮往复,达成更高层次的理论生发和对话。恰如“群体传记学”(Prosopography)之于CBDB;历史语义学之于“数字观念史”项目,此前较成功的数字人文研究,大都离不开一种或几种人文/社科理论的依托,没有更深层的理论和批评诉求做驱动,纯粹技术应用式的探索对于人文学者来说,很可能是无源之水,无本之木,因少了一点“人”味儿而行之未必远矣。从基础设施的角度来说,这也是因为,人文工具平台和标准体系的维护与更新换代,仍然不仅是一个技术问题,甚至也不是一个运营模式的问题,它的生命力不可能只寄托在一个项目上,而是需要拥有一个长期在场的用户群体,而一个人文学术群体自身长久不衰的兴趣和投入,或许才是最可靠的动力源泉。


最后,重建社会科学维度并不意味着人文研究的全面社会科学化或成为其附庸,而是要靠起源于实践的数字人文,来复苏跨越科际藩篱的“破壁”能力。人文学科真正从自然科学中独立出来的历史毕竟有限,然而它极端的自主性追求,却有可能令其愈发陷于故步自封的隔绝境地。也许在不久的将来,随着量化思维渗透人文研究的方方面面,具备起码的信息素养、批判性思考能力和“计算思维”的数字原生学者崛起。他们既在传统人文领域获得相当的训练和造诣,也对适合计算机算法的抽象化、自动化的思考方式不陌生,“能够清楚地知晓计算机是如何应用于人文学科的工作,从而使过程自动化的。这种在工作流中重新塑造人文学科的能力,可以进一步分解为更细粒度的能力。”将所谓编码能力,抽象建模能力,运用和反思算法的能力(当然,还应有实验设计能力)的这一系列“工程能力”,也被视为搭建计算项目所需要的“核心思维”,是人文学者能够全程参与,甚至亲自操刀人文数据实验等系统化工作的重要保证。


2020年10月由上海图书馆和中国数字人文机构联盟主办的第二届中国数字人文年会(DH2020)


客观言之,媒介变革使得整个学术界步入“后数字社会”,数字化生存正在成为一种基本现实,被单纯地划归为“人文”或“技术”范畴的事务越来越少。原生态的数字学术从对象的天然数字化开始,大量资料不再经过“数字化”的阶段,而直接用于研究。“当代大数据技术改变了我们对传统文献学的认识路径和把握尺度,它们都反映了人们对知识挖掘、组织、管理与再造能力的不断追求”,数字人文发起了人文研究的底层革命,是从传统文献学的“转型升级”开始的(刘石、李飞跃,2021)。未来将有越来越多的文献数据库完成向知识库的升级,它们按照语义单元来组织领域知识,能够模拟领域应用的知识环境,这也是彻底摆脱纸质文献的存储和利用思维,实现高效、共享的资源“数据化”的真正开端。目录学家和图情学者携手展开“辨章学术,考镜流源”的工作,其重心仍围绕“物有类、有序”两个基本维度,对各类文献实施有史以来最大规模的编码、表示和关联工程。他们也会适当结合自下而上的聚类和分类技术,按照科学、系统、辨证的原则对文献进行再分类;也可能普遍采用关联数据的资源描述框架,将知识本体和元数据转化为机器更易处理的格式,完成细粒度描述,从而解决异构数据的互操作问题,最终揭示出全部本体间的关系和差序结构。当技术想象力和专门化的知识传承强强联合,所有的贡献者“共同构建了一副超越特定领域技能和专门知识碎片的大型组图”。


然而人们可能会问,当“海量数据”“完全数据”取代了抽样调查;大量前所未有的知识关联涌入人们的视野,各种统计学意义上的显著模式被挖掘出来;各类分析挖掘工具变得普遍化和低门槛化;超大型平台已经省却了大部分繁琐的文献准备工作——人文学者还能深究些什么?同一个基础设施不能等同于定制化和谷歌化的学术产出;大工程需要天时、地利、人和等多方面的协调和不懈付出,也需要大资本加持,并非所有个人都有条件参与。正如数字人文不能单靠技术基础设施来推动一样,人文计算具有更持久的吸引力。毕竟,多元化和以人为本仍然是人文学术最根本的价值追求。数字人文可以朝宏大叙事努力,在细小的问题上也会有更多用武之地。当文献基础设施深入人文学科的每个角落,化为人文学者的基本功和知识底本后,人人都要成为懂数据的文献学家。从这个角度说,数字人文另一个值得期待的方向,是在大数据之上,联通对单个命题有意义的小数据集和专题数据集。一个普遍的共识是,历时多年的CBDB之类大型项目积累下来的开源数据,之所以被视为DH最宝贵的财富,在于它不仅可以为更多的机构、团队和平台提供再加工和再建设的基础数据(如通过关联数据平台,和DBpedia,VIAF,上海图书馆的人名规范库等资源互联,构成更强大的基础设施;北京大学KVision Lab的几个平台,可服务于细粒度的对象检索;元引公司开发的“引得数字人文平台”),更在于它与研究者自建的小型数据集对接后,能够满足独一无二的研究需求,展开有问题针对性的研究设计(如前述魏希德的研究)。同时,随着学术出版和发表方式的根本改变,如可验证的实验数据作为论据和文献、开放获取(Open Access)的发表方式等,这些小型数据也将被使用者公开,源源不断地汇入全球数据海洋,在一种开放、共享、互联的数字情境下,数字人文承担起连接更广泛的公共文化的桥梁作用,这是基础设施最有价值和魅力的地方。


相应地,人文学者的工作重点,也将转移到如何结合具体语境,调动自身经验,对数字化生产的“新知”进行批判性的文化解释和检验上来。人文研究将从过去以资源占有多少和各家“独门功夫”的高低为决定因素,转变为以提出问题的想象力为驱动的“第四范式”。也就是说,现如今,最难的很可能并非资料的获得和问题的解决,而是如何能够提出正确的问题。这使得跨学科协作下的攻关模式渐成数字人文研究的一种“标配”。这种深度合作也对人文学者提出了更高的要求,因为,只有深刻理解了方法的本质和操作语法,能够批判性地接受这套别样的知识表示方式后,才能提出在领域内外都有意义、有价值,同时也能够被“解决”的“问题”。


应该承认的是,数字人文绝非无所不能。欧美数字人文的发展一直争议丛生,中国数字人文在未来很长一段时间内也都将处于探索阶段,数字人文面临的问题是显而易见的。尝试简单归纳如下:


其一、大陆地区的数字人文学术进展到今天,摇旗呐喊的居多,真正投身实践的极少。如果从CNKI收录论文来看,粗略判定,自2005年起,“数字人文”主题相关论文已逾千篇,有实质意义的量化成果能占到10.55%左右,可以让数字人文在学界获得一席之地的“标志性成果”则更难见到,固然说明学术界对这个新方向的期待极高;另一方面,不难看到流于空泛的倡导性呼吁、可行性论证、研究计划式写作占了绝大多数。很多作者并没有实践经验,仅止于画饼充饥式的憧憬和不切实际的追攀。加之各种媒体推波助澜,各类组织机构纷纷拉起DH大旗。有些中心积几代学者辛苦摸索之功,至今仍兢兢业业如履薄冰,行事之谨慎令人敬佩,有的则上马仓促,似乎还缺乏必要的前期积累和共识。表面繁荣的背后也不排除抢夺有利占位的心态,有学者已将其概括为“三多三少”现象(黄水清,2019)。事实上,数字人文有强烈的“实践性”要求,需要用量化成果说话,跟风热捧的局面未必是好事,有可能导致过早地泡沫化。把做数字人文研究变成“谈论数字人文”,最终难逃昙花一现的结局,重蹈“**研究”在中国的覆辙。


其二,研究缺乏规范,标准和共识亟待形成。事实上,已发表的量化成果也面临严重的评价问题。诚如黄水清指出,数字人文在本质上是以数据为基础的、面向人文学科的知识生产和发现过程,在问题定义、数据集建构、技术实现、问题求解和结果评价诸环节都应遵守规范化的方法。然而现状却是,各学科背景的研究者各行其是,缺乏规范和标准意识,给人一种随意上手的错觉。一些研究不具备统计科学性,从错误的取样和计算中得出了自以为是的结论并推而广之;另一些则属于“拍脑瓜”的技术冲动,没有自既有学术脉络中形成明确的问题意识和清晰的思路,也没有从学科史中下功夫寻找或建构可兹计量的中介概念,导致最后得到的结论意义不大,也无法放在任何一个学科框架下来阐释和评价;而更多的文章还停留在如何使用数据库进行文献检索的层次,或属于一般意义上的数据集建构和算法开发、改进工作;还有大量尝试缺乏精心的设计,只是套用现成软件,线性地导出结论,对软件或平台的内置算法一无所知,彻底沦为“工具”;最后,则是数据集和具体计算过程的普遍不可见,一些人文学者的文章连究竟是否使用了量化手段都无从判断,更谈不上被后来者重复和检验了。


除了心态浮躁,这些现象归根结底还是由于这个领域自身尚不成熟所致。现阶段不设边界的探索固然重要,相应的理论和标准的探讨也不可或缺,但同时,这样的思考又必须建立在数量可观的成功经验上——这其中的矛盾一时间还难以解决,只能假以时日耐心等待。必须看到,真正过硬的数字人文成果产出必然历时漫长。现实中大多数自由探索的项目会因缺乏人员、技术和资金的支持而进展缓慢,更多的则因为沟通失败而不得不长时间搁浅。深度合作谈何容易?数字人文绝不等于“基础设施+人文学者”,或“数据+技术工具”的简单组合,也没有现成的操作框架可以遵循,很难短时间内一蹴而就。数字人文的成立,由无数“试错报告”积累而来,需要大量先行研究证明模型和测量方法自身的“效度”和现实可行性,需要打通多个学科之间的方法论,更难的是还要获得多学科的认可……而这一切的前提,是人文学者能够突破现有格局来重构他们的知识体系,要舍得投入学习成本,也要懂得如何提出正确的问题,方有可能迎难而上,迈出“合作”的第一步。


《探索与争鸣》杂志自 2017 年起开辟“技术与文明”专栏,此为 2017 年召开的“人工智能与未来社会”高端论坛海报及专刊封面。


第三,评价体系建设任重道远。上述问题其实也涉及数字人文在界定和评价方面的诸多根本性难题。什么样的研究才算得上数字人文研究?谁才是数字人文学者?数据库、平台建设和自主开发算不算数字人文成果?开疆辟土式的“破冰式”贡献该如何纳入人文社科的现行评价体系?谁有资格评价数字人文成果?这些欧美学界也一直经历的自我定位上的困惑和焦虑,现在中文学界蔓生开来。


早先为进一步反对现阶段不求甚解、“江湖骗术”式的拙劣模仿,桑海在《澳门理工学院学报》组织过一期“什么不是数字人文”的笔谈(2019)。参与者纷纷从“什么不是数字人文”,“什么是好的数字人文”出发,为学界贡献了颇多真知灼见。这种努力也体现在此前 “北京大学数字人文工作坊(数字与文学的对话)”中。邱伟云便认为,无论是用DH“创造新说”的研究,还是仅仅运用数字手段验证、修复了前人说法,都应划为数字人文的成果,但也应该警惕“伪数字之花”的出现。这些讨论体现了从学术共同体的小众生产场出发,积极发挥批评和评价功能,建立评价标准的自律性追求;然而不同意见的提出,也暴露出评价问题的复杂性。如王涛即认为尽管如此,现在还不是谈论“什么不是数字人文”的时候,过早的干预和划界与DH的根本精神背道而驰。


在后来南京大学举办的“数字人文的学术评价体系”研讨会上,上述矛盾进一步暴露出来(陈静、王涛等,2021)。由于大多学者将当下学术成果形式认定、传播路径的单一视为限制DH从业人员的最大障碍:即传统的著述、论文、期刊之类相当有限的形式,无法容纳丰富的数字人文工作,——为了让更多样的成果,无论是难以评估的跨学科论文,还是耗时费力的分布式劳动,诸如文献数据采集和整理,数据库建设,工具、程序和平台的开发,以及更普泛意义上的基础设施建设——能够得到整个学界的承认和尊重,数字人文学者萌发了自发建构评价体系的需求,然而这一行为本身,在人们看来,却陷入自相矛盾的境地。也就是说,为了反对主流学界的偏见而“另起炉灶”,在本质上仍然是要依靠评价手段的“法权”来设置新的“门槛”和等级秩序(申斌、朱剑)。基于此,一部分人文学者强调,如何让DH与现行学术评价机制衔接,更好地扮演一个“建设者”“融入者”而不是“革命者”的角色,或许是一种更为稳健的策略(胡恒、赵思渊)。另一方面,人们也在呼吁,要靠“小同行”组成的学术共同体,来促成良性的同行评议和批评机制,其中DH的专业学术媒体、行业协会和联盟要扮演起凝聚、协调和推动的角色。(朱剑、张耀铭、陈静等)


继而,在要同行评议还是量化评价等老生常谈的问题上,桑海认为,数字人文恰恰应该发挥自己的先天优势,大胆推进量化评价体系的创新,借鉴替代/补充计量学(Altmetrics),研发更合理、立体、有效的评估算法,践行多种出版形式。如“中国高校系列专业期刊”或“域出版”,一种将期刊论文筛选后按专业或专题在网络发布的模式,目前正酝酿向“平台型媒体”(Platisher)转型,是可以孕育新学术生态的互动开放平台,即是可行之道。


最后,在DH大发展的过程中,如何缩小各类固有的等级差异?如东、西部地区之间,名校大团队和孤军奋战的小团队、个人之间资源占有的天差地别;如何平衡规范化要求和散兵游勇的微型探索之间的关系(潘威)?也有意见认为,从最广义的DH生态来说,对于这样一个跨领域的松散联盟,“荒原野草”才是目前最好的状态。毕竟利益诱导会助长浑水摸鱼的现象。真正意义上的学术创新,往往是几个人出于求知欲和好奇心做出来的。凡是可以被体系化、计划化、规范管理的都只能是对具有充分确定性的科学原理的工程性应用(申斌)。


第四,来自国家、社会的决策和支撑体系也需要机制创新。针对目前各方都在大力兴建基础设施,然而顶层设计和统筹规划不出台,一套权威标准不落地,一窝蜂式的上马和重复建设,“雷声大雨点小”,“看得见,摸得着,用得了的几乎绝无仅有”等产出远小于投入的弊病,人们提出应逐步建立起大型基建项目的成果公开和评估制度(申斌)。但是也要看到,在举国体制下,评价是分配的依据,直接关乎资源的分配和国家支持力度,没有进入评价体系,就得不到资源(刘炜)。数字人文的生产性,“人文学者+技术开发+项目管理”的组织模式,让从业者时时处在对数据、技术、人力资源的竞争和有效利用的焦虑中。因而完全依靠外部支持和驱动,又有可能导致过于功利的行为,对人文学科的长远发展总归是不利的。况且现阶段,能获得国家基金支持的是少数,大多数研究和建设要靠情怀和使命感。社会支持方面,和自然科学的基础设施不一样,由于无法直接创造经济价值,想要得到来自社会的大面积支持(包括企业和基金会),仍有难度。在现实中,大型基建项目、平台的成果最终落地,合作方(从早些年的爱如生,书同文,超星,汉王,瀚堂,到近年来的古联,中文在线,搜韵,西安云图等)也仅止于扮演幕后英雄。所以一方面国家应匀出资源做一些为传统学术评价机制尚无法容纳的“情怀式”的DH项目(胡恒),另一方面,在项目运营过程中,如何联手企业,在大平台建设和文化遗产保护领域推动众包式的公众科学(姚远,赵宇翔),营建开源共享的数字经济社区,将有赖于数字人文学界、相关部门和信息管理学者的联合促成。


第五,应鼓励自由探索的“微型数字人文”。对于大量潜在的自发研究者来说,在形成松散型社群的同时,更好地开展“微型数字人文”可能是别无选择的选择。作为基础设施的题中之义,数字人文圈子一方面应引入包括独立机构、学者、图书馆、出版社、数据公司、基金会、志愿者等在内的更广泛的参与者;另一方面,数字人文不应该仅仅成为大团队、大平台和资本分而治之的天下。开展自由探索的微型数字人文,充分调动个人的能动性和兴趣,维护小群体的同人性和非功利性,与人文知识分子的旨趣更接近,也能够促进研究者、图书馆员和学生的协作,使资源匮乏者不用加入大中心、购买技术、处理海量资料,便能打破进入DH领域的壁垒。此类工作,仍需要以大量网络开放资源为基础。事实上,近年来已有个人或公益团队,几乎是以一己之力,撑起了一些专业程度很高的资源空间或信息聚合的全开放平台,如未曾先生创建的书格网站,安徽大学唐宸设计的奎章阁古典文献导航系统,还有国学大师、搜韵网、观沧海等,在民间和学界赢得了很好的口碑。这些默默奉献的涓涓细流,对于发展包容的DH社群,发扬开源、共享、实用的互联网精神至关重要,终将汇聚为未来中国的DH主潮,必须予以支持。


致谢与说明

 

本文的写作和修订,承蒙刘石、李飞跃、朱本军、高树伟、徐力恒、刘炜、邱伟云、陈静、刘明、徐嘉泽、朱翠萍、王宏甦、韩玉凤、赵生辉等多位师友指点帮助,此致谢忱。

继续滑动看下一个
图情招聘
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存