数字人文作为一种方法:西方研究现状及展望
“数字人文:观其大较” 专栏
(学术主持人:戴安德 姜文涛)随着20世纪90年代以来信息技术的发展,计算的方法逐渐深入人文学科领域并悄然改变着其研究方法,各种电子资料库、数据库等的建立和阅览检索方式的改变,使对于信息与技术、媒介之间关系的研究日渐重要,这正在改变传统意义上的以纸质媒体为主要对象、细读为主要方法的人文学科研究,也促使人们更加注意知识的形成及流传方式的变化。作为一种研究方法“数字人文”针对文本现象进行量化分析,大致起源于19世纪的计量文献学、20世纪20年代的俄罗斯形式主义,以及法国的年鉴学派。50年代以来,这种研究方法的范围不断扩展, 从西方学术界近况来看,已逐渐成为继理论和意识形态批评之后学术研究发展的一种较大的趋势。斯坦福大学的弗朗科莫瑞蒂( Franco Moretti) 建立了一个“文学实验室” ( Literary Lab) 来进行这方面的研究,加州大学圣巴巴拉校区的艾伦刘( Alan Liu) 在加州大学系统、苏真( Richard Jean So) 和霍伊特·朗( Hoyt Long) 在芝加哥大学等纷纷建立类似的研究空间,已有大量开拓性成果问世。国内学界也注意到了这股新的学术潮流,北京大学等近期已经召开有关的学术会议,但是多限于图书馆学方面的数据库搜集和建立,或者较为空泛意义上的“大数据” ,还未深入“数字人文”与文学研究、历史研究、艺术史研究等具体学科之间的密切关系。有鉴于此,我们特开辟此专栏,并以梁启超先生20年代介绍新史学时所使用的“观其大较”为副标题,选择性地介绍北美这方面重要的学术研究成果,同时邀请相关学者展开访谈,介绍其具体研究思路和方法等,旨在推进国内学界在此领域的深入研讨。
数字人文作为一种方法:
西方研究现状及展望
[美] 戴安德 姜文涛 撰 赵 薇 译
[ 摘要 ] “ 数字人文”是最近一二十年以来人文社会学术发展的一股新潮流,但是数字与人文社会之间的关系却是由来已久的问题。本篇“引言”较为简要地介绍了数字人文20世纪以来的简短历史,及其与近代知识生产之间的关系,回顾了“数字人文”作为一种跨学科方法的机构史、作为文学研究方法的可能性,及其为人文社会研究带来的潜在的方向性的改变。作为一种新的学术生产潮流,它必然会改变人文社会研究的某些层面,引发我们对人文社会研究意义的重新思考,同时它也会面临新的问题和挑战。[1]
[ 关键词 ] 数字人文;文学研究;人文计算;远读;导论
[ 中图分类号 ]I0-05
[ 文献标识码 ]A
[ 文章编号 ] 1003-4145[2016]11-0026-08
导论
大约一个世纪前,梁启超在东南大学发表的演讲中向人们汇报了他正潜心钻研的一种新式学术方法:“历史统计学”[2]。正如其名称所表示的,这一方法源于将统计学原理用于历史数据的处理,以便从中辨认出宏观历史趋势,继而生产新型的知识。这一方法的发明既受到了统计学——这一在后来的中国文化和中国史学中大量增殖的现代科学的影响,同时也受到了清代文献学者的影响,特别是顾栋高所做的《春秋大事表》的重要启发。顾氏在这部有里程碑意义的晚近著作中,把一部《春秋》拆碎,重组为一系列表格,从而将文本中提到的各类事件、人物、地点完全系统化。与其相类,梁启超所提出的“历史统计学”也欲探索中国历史文献中的海量细节,以表格和集积数据的方式来生产新的历史事实,或者重述过去,“是用统计学的法则,拿数目字来整理史料推论史迹。”他强调道:
“欲知历史真相,决不能单看台面上几个大人物几桩大事件便算完结;最要的是看出全个社会的活动变化。全个社会的活动变化,要集积起来比较一番才能看见。往往有很小的事,平常人绝不注意者,一旦把它同类的全搜集起来,分别部居一研究,便可以发见出极新奇的现象而且发明出极有价值的原则。……统计学的作用,是要‘观其大较’。换句话说:是专要看各种事物的平均状态,拉匀了算总账。”
这篇被人们淡忘已久的演讲,在今天看来却显得格外亲切。梁启超对使用全新的标准和分析方法来研究历史学怀有如此浓厚的兴趣,想来他也一定会拥抱今日诸如个人电脑、高级统计软件之类的数字工具。他甚至会对今日西方历史、文化、文学研究中的数据和量化方法产生热情。在今天,这些新动向被归到各种名目之下,诸如“人文计算”(humanities computing)、“文化分析”(cultural analytics)、“大分析”(macroanalysis)等。对于这一复杂趋势最流行的命名毫无疑问是“数字人文”(digital humanities,常简写为DH)。这一术语的命名方式饱受争议,这一点我们在下文也会再次谈到。也许可以说,“数字人文”这个命名所遮蔽的问题和它所能表示的一样多。无可置疑的是,将量化导向与传统的质化研究相结合的数字人文,在最大程度上与梁启超当年的理想达成了一致。
数字人文在西方早已不再是其最起初阶段的样子,为数可观的研究项目依赖它而存在,专业期刊因它而建,美国重要的大学里纷纷开辟有关数字人文的新教职和博士后岗位。也有许多大学课程施行了教学课程改革,教改后的目的是为了训练本科生、研究生们能够使用数字工具来思考人文问题。有学者早在几年前就已经注意到,数字人文势不可挡,已经迅速变成了宽泛的文学研究的一部分,甚至还给了人文学一块全新的“招牌” [3]。数字人文在西方已经成为相当活跃的研究和讨论领域,然而,在中国大陆,它却仍处在起步阶段。这很可能是因为:迄今为止,很多数字工具仍然不能适用于非字母书写的文件[4];或者,开放的中文数据库仍然相对稀少;又或者,中国与西方的人文学者感兴趣的问题并不一样。不管情况如何,我们认为,将西方数字人文研究中前沿性的工作介绍给中国读者的时机已经成熟了。开设这个不定期专栏的目的,是要将这一正逐步成熟的学术潮流和研究方法介绍给中国读者。这之所以重要,并不仅仅因为数字人文自身在西方学界的崛起,更因为这种方法以及与其相关的重要研究倾向,将会为中国的人文研究提供许多助益。我们希望这个专栏不会成为西方人文研究方法论最新趋势的传声筒,而是能够激发中国同行们采用数字人文的工具去从事人文社会科学研究,尤其在我们所集中的文学研究领域。梁启超先生以自身独特的知识探索欲和世界主义精神,在1920年代即开始倡导数字化研究历史的方法。[5]为了纪念他,我们决定将这个专栏命名为“观其大较”[6]。需要说明的是,我们并不鼓励对数字人文方法无批判性地接受和拥护。事实上,我们无法预料它会占据什么样的知识空间,又或者,它会产生什么样的问题。但我们坚信,数字人文最终能够赓续和增补中国人文学术的伟大传统。
为了这个目的,我们计划在这一专栏里推出三种不同类型的学术文章。第一种包括:该领域内那些已经声名日盛、在北美主要研究型大学任职的人文研究学者最近研究论文的中文翻译版本;考虑到这种新的研究潮流正在发生非常快的变化,以及数字人文与大众文化之间自然的密切联系[7],我们也会有代表性地摘取一些这些学者们的博客文章,并辑录在此,它们往往会比正式发表的研究论文和学术书籍更能反映这股学术潮流最新的发展;同时,我们会专门对其中部分学者进行简单的学术采访,请其谈谈同数字人文的个人化机缘以及对这个学术潮流发展方向的展望等。尽管这些研究性文章将首先聚焦于有关西方的人文研究(尤其在文学研究方面),我们的读者却很可能会由此对他们的方法论产生兴趣。这方面,我们在第一期中重点推出芝加哥大学苏真(Richard So)教授、霍伊特•朗(Hoyt Long)教授和加拿大麦克吉尔大学安德鲁•派博(Andrew Piper)教授的最新研究文章。之后,我们也将介绍一些北美有关中国文学和历史研究中数字人文方面的进展。在此,我们的目标不仅是为了展示数字人文为中国人文研究界带来的可能贡献,更要将在使用数字人文时碰到的一些实际困难和应对策略呈现出来。最后,我们也将刊出一批数字人文主题的中文原创性文章。
在这里,我们首先对数字人文进行简单的历史回顾和现状介绍。这在所涵盖的范围上谈不上广泛全面,事实上,鉴于数字人文迅猛、快速的发展,“什么是数字人文”这样一类的题目已经成为一种写作的题材了,每年都会有这方面的学术专著出版[8]。但我们会为读者提供进一步探索的参考文献,也会为将要刊出的系列文章和访谈提供一个简单的背景。
2000年之前的历史:计算时代前后的“数据与文本”
和谈任何学术领域一样,克制住那种急切地要为数字人文确认一个清晰“起源”的心态在此尤为重要。一般来说,以计算机为基础的文本分析可以追溯到意大利耶稣会罗伯特•布萨(Roberto Busa)神父始于1949年的伟大工作。布萨神父意欲创建一个数据库,里面包括了圣徒托马斯·阿奎纳(Thomas Acquinas,1225-1274)著作所使用的全部词汇(大约一千一百万拉丁文词)。尽管布萨神父有可能是最早使用计算机技术和统计方法来促进诠释学的人,他却并非实验大规模文本分析的第一人。例如,早在19世纪末,托马斯•门登霍尔(Thomas Corwin Mendenhall,1841-1924),一位美国物理学家,便开始测量文本中所使用词汇的平均长度,或者作者的整个语料库,以便于能够确定在该作者的写作中,他/她的用词是否体现出了与其习惯相一致的分布,这种科学性的实验最终发展为了计量文体学[9]。另一个例子是1920年代的俄国形式主义,像文学理论家什克洛夫斯基(Viktor Borisovich Shklovsky,1893-1984)和研究民间故事的普洛普(Vladimir Yakovlevich Propp,1895-1970)这样的批评家,他们都致力于在文学和文化研究方面发展出来一套科学的研究方法。第三个例子,当然是1920年代的梁启超,以及他所受到的来自历史学和哲学研究的影响,这也与20世纪前半叶中国历史学的社会科学化运动密切相关[10]。反过来看,梁启超的工作在布罗代尔的统计历史地理学和其后几十年的年鉴学派中找到了回声[11]。这些例子,尽管零散,却形成了一种模式。它可以说明,早在数字计算机到来之前,人们便想要通过计算和查找大规模数据来分析问题。文学和历史学者们为了更好地定位我们现在的时代,开始重新来审视这段历史。由此,这段数字人文的前史才变得可以理解起来[12]。这一回顾是真正必要的,因为它将数字人文与生俱来的魅力和它在人文研究学者之中所引起的那些挥之不去的焦虑重新历史化了。早在1938年,海德格尔深刻地描述过现代研究者们对量化知识的沉迷。海德格尔描述的“研究者”,正体现了量化分析向人文学的迅速渗透和一种新的跨学科研究的兴起。同时,海德格尔对近代研究者的批评,也预示了今天一些学者对数字人文的批评,这些批评将数字人文视为技术拜物教乃至大学向新自由主义转变的征象[13]。
让布萨神父的工作与众不同的是,他早在那个时代已经明确地围绕计算机技术来考虑这项工作了,也就是说,将文本编码为穿孔卡片,可以用于分析,也可以用来再转化为其他形式的数据。布萨神父在IBM公司的协助下,懂得了如何将圣托马斯的大量文本编码为穿孔卡片。这里的关键在于制作一种“字母索引”,也就是出现在某个文本中的词汇表,按字母表顺序排序而成,这个词表引征了这些词汇每一次出现在文本中的例子。需要注意的是,“字母索引”本身并非一种新形式,而且在计算机发明很早之前就诞生了,比如第一个拉丁文版圣经的字母索引表是由多明我会修道士于1230年发明的。但是,电子计算机所具备的搜索和组织功能,却使得电子索引表成为十分强大的工具:例如,它能够提供一种交互式的“超文本”环境)。这种通过将文本转化为数据的方法,激发了有意于用计算机研究文本的学者的想象力。
到了1960年代,一些研究小组开始为其他语种和语料库制作电子索引表,比如早期中高地德语文本、爱尔兰现代主义诗人叶芝(1865-1939)的诗歌等。这些索引适用于高效的量化文本分析,例如计算多个作者语料库中作者使用两字母词汇的数量。这也激发出一种 “作者身份研究”的新研究领域,也就是利用词出现的频率,或者词的计数,去分类作者文本,因为通常会认为每位作者对普通词汇的使用有着独特的——然而非常微妙的——风格差异。这方面一个著名的例子是对《联邦党人文集》(1787-1788)的研究。这85份档案由三位美国国父,即亚历山大•汉米尔顿(Alexander Hamilton,1755-1804)、詹姆逊•麦迪逊(James Madison,1751-1836)、以及约翰•杰伊(John Jay,1745-1829)起草。其中十二份档案的作者身份,一百五十年来一直存在疑问。1964年,两位学者运用统计学的方法分析了这十二份档案,认为他们很可能出自麦迪逊之手,这便解决了长期存在于历史学界的涉及美国立国问题的一项思想史方面的争议[14]。
1960年代也同样见证了数字人文学者群体和期刊杂志的崛起,研究者们开始为解决相似的问题而聚集到一起。例如,1964年IBM公司组织了一场会议,他们的活动于第二年以《文学数据处理会议议程》(Literary Data Processing Conference Proceedings)为题发表。1966年,一个全新的杂志《计算机与人文科学》(Computers and the Humanities)诞生了。在1970年代,“文学与语言计算协会”(The Association for Literary and Linguistic Computing)与“计算机与人文研究协会”(The Association for Computers and the Humanities)双双成立。这些信息交流和出版讨论了一些业内的常见问题,诸如如何将不同的文本形式或语言编码、文体量化研究的可能性、以及编程的问题等等。这一趋势自1970年代一直延续到1980年代中期,像牛津大学和宾夕法尼亚大学创设了人文计算的专门研究中心,而且文本数据库也在慢慢扩展。同时,软件程序也变得标准化,为广范围的研究者们所共享。从方法论上说,这一时期的研究并没有进步很多,依然聚焦于如何使用词频统计的手段来进行文体分析。
1980年代中期以降,随着个人电脑和因特网的发展,越来越多的人开始使用计算机和软件。得幸之助,人文计算快速传播开来,继而产生了一种标准化实践的新需求,以及由此而来的对于普及性协议(common protocols)的发展,后者以标准通用标记语言(Standard Generalized Markup Language,SGML)和文本编码计划(Text Encoding Initiative,TEI)为代表。文本编码计划被认为是“为了归类和界定学者们可能会感兴趣的人文文本,而做的第一次系统性尝试,”[15]它创造了一种全球通用的处理和标记文本的结构,成为当今时代图书馆数码化项目的通行标准。个人电脑最重要的功效可能是,它将信息技术推到了日常生活的最前沿,将“使用机器”迅速归化为学术研究、互相合作的必要部分,最终预示了“信息时代”的来临和今日被称为“天生数字化”的年轻一代学者的出现。
2000年以后:从“人文计算”到“数字人文”和“远读”
现在看来,在“人文计算”以及不久之后出现的“数字人文”之间,2000年是较为重要的过渡的一年。这一年里,斯坦福大学英文系教授美籍意大利裔学者弗朗科·莫瑞蒂(Franco Moretti)在《新左派评论》(New Left Review)上发表了后来成为经典的《世界文学的猜想》(“Conjectures on World Literature”)一文[16]。莫瑞蒂教授作为一名现代小说研究专家和马克思主义者,因为其学术工作及其在斯坦福建立起来的传奇性的“文学实验室”(“Literary Lab”)[17],很可能成为了数字人文最能言的代表人,他的工作已成为无论是支持量化分析、还是对此持怀疑态度的人都关注的焦点。意味深长的是,在《世界文学猜想》这篇文章中,莫瑞蒂并没有明确地提到要使用计算机去研究小说。他批评了比较文学研究空间的局限性,并提出一项研究“世界文学”的更有雄心的方法,他设想了什么终将成为数字人文最重要的“原初场景”(“primal scene”),以及最终会有什么简便的方法来促进大规模的、计算机辅助下的文本分析。为了说明当一个人想要思考世界文学问题时,需要将多少文学考虑在内,莫瑞蒂写到:
“文学如今已经明白无误地成为了一个行星体系……当然,很多人比我阅读得多而且好,然而我们谈论的是百来种语言和文学。‘更多的’阅读似乎并非解决问题的办法。尤其是因为我们刚开始重新发现玛格丽特·科恩(Margaret Cohen)称之为‘伟大的不为阅读的部分。’(我可以声称:)‘我是从事西方欧洲叙事学研究的,等等……’(然而实际上)并非如此,我从事的只是它经典化了的一小部分作品,它们甚至占不到(这个历史时期和欧洲此地)已出版文学的百分之一。而且,有些人读得比我更多,但关键在于有三万种英国19世纪小说还并不在这个范围内,或者是四万、五万、六万,没有人真正知道到底是多少,没有人真正阅读过它们,也不会有人去读遍它们。而除此之外,我们尚有法国小说、中国小说、阿根廷小说、美国小说等等。读的‘更多’总是一桩好事,但,却并非解决之道。”[18]
作为一名普通读者,去读完民族文学的极小一部分都不过蜻蜓点水,更不要说世界文学了。这一数量上的门槛也体现为质上的不同:阅读多了便会产生不同的感受和观察。在莫瑞蒂看来,解决的办法是远离“细读”传统,发展出一种新的“远读”(distant reading)模式,通过量化的方法,对庞大的文本体系中的类别因素和形式元素做出解释。莫瑞蒂的远读概念直接来源于法国年鉴学派,特别是费尔南德•布罗代尔(Ferdnand Braudel),这与梁启超关于“历史统计学”的提议惊人地不谋而合。也许正是由于莫瑞蒂的文章出现在由互联网带来的新一轮全球性理想主义的巅峰时期,或者,由于莫瑞蒂已经是一名文学研究界的杰出批评家,又或者,由于他方法范围上的激进色彩,“远读”的概念成为某种信号,唤起了人文学界思考大问题的雄心。这篇文章预言了以计算机和“大数据”来考察文化体系的做法。对此,更为清晰的描述体现在他的《地图、图表、树形图––文学史的抽象模型》(Graphs, Maps, Trees: Abstract Models for Literary History, 2007)一书中。在现今西方,此书已是任何一位预备成为比较文学和世界文学学者的必读书了。
“远读”概念的关键在于对文学研究中“证据”之本质的理解。正如马修•约克斯(Matthew Jockers),一位爱尔兰文学学者和数字人文界的领先者所说的:
“在数字图书馆和海量图书数字化的时代,‘证据’的本质已经大大的改变了。这并不是说我们不再读书去搜集和记录它里面的随机性的‘事实’,而是在强调,大量数字语料库提供给我们前所未有的文献记录,也要求一种新形式的证据搜集方式与意义生成过程。二十一世纪的文学学者不能再满足于轶闻式的证据,不能再从那些少量的、即使可以称为‘代表性’的文本得到随机的‘事实’。我们发现的那些有意思的东西,我们必须努力将它们放置在文本的上下文中去理解,这些上下文包括大量‘不那么有意思’的文本” [19]。
一个人如果要就长篇小说、某种文类,或一个文学主题做一个论断的话,就需要读多于一小部分样本的文本,我们通常将这一小部分样本文本称为文学经典,然后以此出发,对整体范围上的文学档案做出一项判断。然而,莫瑞蒂、约克斯, 以及其他“远读”的提倡者们强调的是,远读并非是为了替代细读,而是为了更好地补充或增多细读[20]。这两种方法可能互相补充,也许有时候并不那么明显,但已经很大程度上促进了计算机分析在人文学中的传播了。事实上,与“人文计算”对文学研究的微小影响相比,“数字人文”被转换为更容易为人所习惯接受的“远读”概念。尽管(或者说也许正是因为如此)“数字人文”自身界定模糊,且对于人文学本质的实际影响仍不甚清晰(有关此点,我们在将来的专栏讨论中会涉及),这在很多文学和历史学系,几乎已成为主流[21],
如果我们将数字人文置于“人文计算”的谱系中,会更明显地看到一次根本性的范式改变。人文计算处理的是“假设测试与材料证实,”在数字人文中,人与计算机是“共同负责解释行为的,包括提出假设、观察、发现、分析、测试,再次提出假设等。材料证实(已经经历了)从测试或证实到开始正式使用的阶段。”[22]第二种形式的使用数据,更接近于传统文学研究的创造性活动、相对自由的分析及其思索性的本质。如此说来,便到了将目光转向数字人文研究成果的时候了。
研究领域现状:扩张和多样化
数字人文领域迅疾地变化着,变得更具整合性和扩展性,但是它的边界却并非总是那么清晰:除了历史学和文学史,它看起来还肯定包括书籍史、文学社会学、传播学,以及社会网络理论。但有时,数字人文也包括了新的研究路径,诸如更宽泛意义上的“平台研究、”“软件研究、”“媒介研究”,以及新型的信息管理,像文本编码、数据挖掘,和其他形式的数据分析等。它也从其他发展成熟的领域,诸如语言学、计算机科学、统计学、社会学、政治科学那里吸取了相当多的经验,在较少程度上也与遗传学与生物学相关。总体上说,针对数字人文的定义或范围,学者们很少有统一的意见——很多从事数字人文的研究者们也倾向于完全避免回答数字人文是什么的问题。
在一篇题为《数字人文的意义》(“The Meaning of the Digital Humanities”)的文章中[23],加州大学圣芭芭拉分校英语文学学者艾伦•刘(Alan Liu)教授分析了斯坦福大学“文学实验室”最近出版的一篇“小册子”,以此来指出今日数字人文工作的四种共同的特征:
使用已经存在的数字语料库。“这意味着,(这种工作)并不属于以往常规意义上的数字化、文本编码、出版或存档……,而是处理和分析已经建设好的数据库”(411);
2使用量化或模型的方式来规划人文研究领域中的问题;
3选择一个特定的学科去设计项目:正如艾伦•刘教授指出的,数字人文的方法在从历史学到文学研究不同的学科中使用,产生不同的结果;
4技能的结合,诸如对编程与批评分析的同时运用。
这最后一点也许是最重要的,因为这对真正富有革新性的数字人文项目提出了新的技能要求,诸如学习像Python或R语言等编程方面的知识,或者对统计学的高阶掌握。技术问题也是核心问题,我们在将来的几期中也会再多次回到这个问题上来。这一点也说明了数字人文本质上是一项互相协作性质的、跨学科的事业。今天,大多数数字人文项目在某种程度上可以说是协作完成的,而且其中一些项目甚至是由专家合作的复杂网络组成,其中包括了图书馆员、计算机科学家、统计学家,文学或历史学者。
不管多么准确地界定数字人文,有两种趋势正日益明显。第一种趋势是从小型手动输入的数据库向真正的“大数据”项目转化,大数据库中通常包括了几十万——如果不是几百万的话——的文本量,[24]而且计算机分析要求超级计算机的能力。这一类“按比例激增”的数字人文为人文研究带来了新的挑战,诸如一个大型专家团队中劳动的分工与合作,更不要说所涉及的主要的机构性资源和财政来源问题了,这也为证明这种研究工作的合法性带来了新的压力。第二种趋势是降低使用电脑分析文本的技术门槛。之前以电脑分析为基础的准备工作令人生畏,为了分析文本,需要处理数据库,然后为其编写代码。在今天,人们可以使用一系列已经发展成熟的分析工具。一些工具可以从源网站上下载,诸如Text Analysis Portal for Research (TAPoR)[25],或者Software Environment for the Advancement of Scholarly Research (SEASR)[26]以及一些免费但十分强大的应用,诸如主题建模,Machine Learning for LanguagE Toolkit (MALLET)[27],以及那些神奇的网络可视化应用,Gephi[28],等等。这些工具让人们对数据库的使用大大超出了基础的“搜索”功能,它们正日渐成熟并可以植入使用者的界面中去。
那么,数字人文的方法究竟为文学或文化研究带来了什么?马修•约克斯教授曾经简洁地勾画出数字人文为文学研究带来的可能贡献或洞见,包括对以下材料的分析能力:
1)单个文本、作者、或作品体裁在更宏观的文学语境中的历史地位。
2)一定历史时期内、一定地理区域内或一定人群中,文学生产的增加或衰落。
3)一定历史时期内、跨历史阶段的、一定区域内或者人群群体内文学模式以及所使用的词汇。
4)影响文学文体及其演化的文化与社会力量。
5)文化、历史以及社会的联系,这些联系使得单个的作者、文本以及文体结合成一个集中的文学文化,或者相反。
6)文学主题的此消彼长。
7)文坛精英的品味与喜好,这些喜好是否与一般大众的品味喜好相一致。[29]
这个单子并不全面,却给出了数字人文的某种可能性。更有意知道数字人文如何扩大了传统学术工作具体细节的读者,请参考我们专栏中将要刊出的泰德•安德伍德(Ted Underwood)教授的博客文章译文。
那么,按以上所列出来的可能性来看,数字人文的前景应该会看涨。就专门期刊和书籍的出版情况来看,这显而易见[30]。此外,学者的博客和线上“社区” 那里有更活跃的新的想法的出版,以及作者与读者之间就有关问题的互动。在那里研究者们不仅可以交流想法,还能共享软件代码和相关数据。这种线上空间,以比较受欢迎的博客诸如美国西北大学马特•施密特(Matt Schmidt)教授的“吸引注意力”(“SappingAttention”)[31],麦克吉尔大学安德鲁•派博教授的“文本实验室”(“Textlab”)[32],或者研究者们的个人网站,如美国鹿特丹大学英语系马修•威尔肯斯教授(Matt Wilkens) 或斯坦福大学英文系马克•阿尔吉–休伊特教授( Mark Algee-Hewitt)经常更新的个人网站[33],这些与社会网络站点上的交流相辅,创造了一个充满动力的空间。在这里,知识生产通常是协作型的,也不同于通常的方式,这样的空间常常赶超了期刊和书籍等的传统出版渠道[34]。除了印刷品和线上交流之外,一些主要的年会,如“数字人文会议,”也吸引了成百的参与者[35]。而许多大学也专门设立了新的学位,或改革了他们原先的课程规划,这其中有本科生课程也有研究生课程。这都是为了迎合新增长的对数字技能的需要。
最后,数字人文的一个重要指向,是越来越多的学者利用它去研究文学与社会问题之间的关系。长久以来,针对数字人文的一个批评是数字人文总是聚焦于“非政治”的问题,比如经典作品的形成、作者身份认证问题,以及文学形式问题。然而近来学者们开始用数字人文的方法去探索与政治相关的问题,这和自后殖民主义、性别研究以来的文学研究方式相近似。这一更富有批判精神的转向,通常以有效的方式揭发不平等的权力关系,讨论传统上被忽视的人群,例如女性和有色人种。这一工作渐渐被认为是继续走多样化路线的数字人文的一个必要方向[36]。
这一多样化探索也延伸到了北美有关中国文学史与历史学的领域。尽管这一领域仍然处于它的婴儿期,但成长迅速,在亚洲和西方的研究中国的学者的努力下,数据库和分析工具已经发展起来。为此,在接下来的某期专栏中,我们将提供有关此方面的较为综合的观察;在此,有必要提及几项最新的进展,以展示中国研究方面数字人文的成长。在数据库方面,一系列激动人心的新项目已经在建,特别是关于前现代中国历史的。例如,哈佛的中国历代人物传记资料数据库(CBDB),记录了七至十九世纪将近四十万个历史人物的传记资料,小一些的项目,则如魏希徳(Hilde De Weerdt)教授的宋代笔记数据库,由莱顿大学发起。[37]数字人文的发展也体现在一些会议的举行上,诸如亚洲研究年会(AAS),台湾的数位典藏与数位人文国际研讨会,以及斯坦福大学的亚洲数位人文论坛系列。[38]目前,像哈佛大学费正清中心保罗•维尔德勒(Paul Vierthaler)等学者正在开发十分强大的中文文本分析工具。[39]这些都只是当前发展的一小部分,可以肯定地说,在未来的十年里,中文世界的数字人文必将经历与英语世界里的研究相同甚至更大的扩张。
结语
在我们准备这篇“数字人文:观其大较”专栏的“引言”中,我们预设我们的读者对于数字人文只有最基本的认识和朴素的概念,并以此为出发点,勾勒出了数字人文的历史背景及其目前快速发展的现状。自然,作为一种新的学术潮流和研究方法,数字人文自身不无问题,学者们就其意义和重要性进行的辩论很激烈。具体地讲,它提出了许多政治方面的问题,挑战了传统意义上的学者身份认同,招致了不同学者阵营的攻击。这些学者或者是想要保护批判性细读这一实践,使其免于实证主义侵害;或者担心将计算机带入阅读的实践之中,这会是“后人类”(posthuman)阶段历史出现的另一个症候,而“后人类”是由技术和资本主义所控制的[40]。另外,甚至也有学者怀疑,数字人文研究的结果远远没有达到其最初的许诺。至目前为止,数字人文研究的大多数项目确实没有推翻传统意义上的预设,也没有产生完全新的叙述,只是在量化方面确认了我们已经知道的内容。甚至数字人文最坚决的拥护者,比如莫瑞蒂教授,都表达了某些怀疑[41]。这些怀疑和批判性的评价集中起来,形成了一个小小的领域,叫作“批判数字人文研究”(“critical DH studies”)。最终,它们提供了很重要的谨慎和反思的声音。而同时,许多教育和研究机构纷纷投资数字人文教学和研究,以努力使传统的人文研究来习惯当今白领“知识工人”的工作实践和意识形态。我们这篇导论并没有在“批判数字人文研究”方面给予足够的篇幅,希望以后我们会有一期专栏来谈这个问题。
而无论是支持还是拒绝数字人文,是自己来加入到这股学术潮流之中,还是将之留予他人,我们是没有办法忽视数字人文日渐发展的存在的,这个新的学术潮流会接着向前发展。尽管目前在传统人文学术和数字人文之间存在着强烈的不同意见,我们相信在将来,会有越来越多的学者发现这两种学术方法之间的分界线并不是那么严格。也就是说,将来并不会以是“数字人文”还是“非数字人文”来划分研究方法的不同,数字人文的方法将会成为一种很自然的人文研究方法,就如目前大家习以为常的细读研究方法一样。将来也会出现新类型的混合型工作,在量化和质化的阅读之间产生富有成效的对话。事实上,文学和文化研究所遇到的量化研究与质化研究之间截然对立的局面,也发生在其它的学术研究领域,比如政治科学、社会学、心理学,甚至是历史学。那么,作为文学研究者,我们所面临的挑战即是认识这种新的研究方法方向,知其优势和缺点。确实,我们该努力工作,以便“观其大较。”
责任编辑 | 陆晓芳
作者简介
戴安德
戴安德( Anatoly Detwyler) ,美国哥伦比亚大学哲学博士,宾夕法尼亚州立大学( The Pennsylvania State University) 人文与信息文化研究中心( The Center for Humanities and Information) 博士后研究员,主要研究方向为中国现代文学和数字人文。本文由戴安德执笔。
姜文涛
姜文涛,美国纽约州立大学哲学博士,浙江大学外国文学研究所讲师,主要研究方向为英国“漫长的18世纪”( Long eighteenth century)印刷文化及情感研究、文艺理论和比较文学、数字人文。
译者简介
赵薇
赵薇, 清华大学人文学院中文系博士研究生,清华大学-康奈尔大学联合培养博士,主要研究方向为比较文学与20世纪中国文学、数字人文。
[1]基金项目:本文受“中央高校基本科研业务费专项资金资助”
[2] 梁启超:《历史统计学》,杨刚、王相宜主编:《梁启超选集》,北京出版社1999年版,4045-4050页。此处引文出现在第4045页。
[3] Alan Liu, “The State of the Digital Humanities: A Report and a Critique,” in Arts & Humanities in Higher Education, vol. 11. 1-2 (2012), pp. 8-41. p.9.
[4] 此处可参见本期专栏我们对芝加哥大学东亚系霍伊特•朗(Hoyt Long)教授的访谈。
[5] 梁启超对“历史统计学”方法的提倡是20世纪上半叶中国历史学社会科学化的一部分,可参见仲伟民和张铭雨最近的文章《20世纪上半叶中国历史学的社会科学化——以清华学人为中心的考察》(《北京师范大学学报》社会科学版,2016年第2期,总第254期,第132-139页)。同时参见王学典刊于《清华大学学报》2016年第5期上的文章《中国新史学的摇篮——为清华大学历史系创建90周年而作》。无独有偶,从另外一方面来讲,目前西方文学研究也正在经历一种社会科学化的过程。从学科史方面来看,数字人文与文学研究的结合也许可以看成是这种社会科学化的一个方面,我们专栏之后也会谈到这个问题。参见James F. English, “Everywhere and Nowhere: The Sociology of Literature After the Sociology of Literature,” in New Literary History, Vol. 41, No. 2, Spring 2010, pp. v-xxiii.
[6] 事实上,五四运动之后,中国人文学术界出现了一股信息可视化及文化量化分析的学术潮流。我们计划在未来的第三期专栏之中再次谈到这个问题。
[7] 数字人文的发展对美国的科学研究和教学引起的影响之深,这已经不再仅仅是美国高等教育中的一个学术问题,而成为一个引起一般民众注意和讨论的社会问题。具体的讨论可以参考莫莉萨•丁斯曼(Melissa Dinsman)博士所主持的《洛杉矶书评》(Los Angeles Review of Books)“人文研究中的数字技术:学人访谈特辑”(“The Digital in the Humanities: A Special Interview Series”): https://lareviewofbooks.org/feature/the-digital-in-the-humanities。
[8] 参见Matthew G. Kirschenbaum, “What Is Digital Humanities and What’s It Doing in English Departments,” in ADE Bulletin, No. 150 2010, pp. 1-7.
[9] C.B. Williams, “Studies in the history of Probability and Statistics: IV. A Note on an Early Statistical Study of Literary Style,” in Biometrika vol. 43, no. 3/4 (Dec., 1956), pp.248-256.
[10] 参见仲伟民和张铭雨最近的文章《20世纪上半叶中国历史学的社会科学化——以清华学人为中心的考察》,上文注4。
[11] 参看Braudel, “History and Sociology,” in On History, trans. Sarah Matthews, Chicago: University of Chicago Press, 1980, pp.64-82.
[12] 计算作为一种批评的早期例子,还可以参照英国的情况。参看David Masson, British Novelists and their Styles, Boston: D. Lothrop & Co., 1875. Masson列举了诸多小说和小说家的例子来展现文学场,在这个过程中,他明确地对这些例子进行统计学式的数据化批评。参见Jonathan Farina, “‘The New Science of Literary Mensuration’: Accounting for Reading, Then and Now,” in Victorians Institute Journal Vol. 38 (2010); Anatoly Detwyler, “The Aesthetics of Information in Modern Chinese Literary Culture, 1919-1949” (PhD dissertation, Columbia University, 2015); Yohei IGARASHI, “Statistical Analysis at the Birth of Close Reading,” in New Literary History 46, no 3 (Summer 2015), pp.485-504.
[13] “一种以研究所方式活动的历史学或考古学的研究,本质上比它自己的还处于单纯博学中的精神科学院系里的科学,更接近于相应地建立起来的物理学研究。”参见Martin Heidegger, “The Age of the World Picture,” in The Question Concerning Technology and Other Essays, trans. by William Lovitt , New York: Harper & Row, 1977, p.125。中文译文参见孙周兴译《林中路》(马丁·海德格尔著,上海世纪出版集团,2008年第一版,第84页)。
[14] Frederic Mosteller and David L. Wallace, Inference and Disputed Authorship: The Federalist. (Reading, MA: Addison-Wesley, 1964).
[15] Susan Hockey, “The History of Humanities Computing,” in A Companion to Digital Literary Studies, edited by Schreibman, Siemens, and Unsworth, Oxford: Blackwell, 2008, p.8.
[16] https://newleftreview.org/II/1/franco-moretti-conjectures-on-world-literature
[17] 这个实验室最近进行了一系列的调整,正在成为具有全球影响力的数字人文和文学研究机构,其最新的主任是斯坦福大学英文系的Mark Algee-Hewitt教授,其网站地址如下:https://litlab.stanford.edu/people/。
[18] Ibid.
[19] Jockers, Macroanalysis: Digital Methods and Literary History, Urbana-Champaign: University of Illinois Press, 2013, p.8. 与细读相对,杰克将他的“远读”称为“大分析”,正如宏观经济学与微观经济学相对一样。
[20] Ted Underwood教授也指出了这一点,参见Ted Underwood, Why Literary Periods Mattered: Historical Contrast and the Prestige of English Studies, Stanford University Press, 2013, p.166.
[21] “The State of the Digital Humanities: A Report and a Critique,” in Arts & Humanities in Higher Education, vol. 11 (1-2), 8-41. P.9.
[22] Alan Liu, ibid, 21, 23.
[23] Alan Liu, “The Meaning of the Digital Humanities,” PMLA 128 (2013): 409-23.
[24] 这些主要的数据库有:Chadwyck-Healey, Project Gutenberg, Internet Archive, HathiTrust, 以及Google Books.
[25] http://www.tapor.ca/
[26] http://www.seasr.org/
[27] http://mallet.cs.umass.edu/
[28] https://gephi.org/
[29] Jockers, p.27.
[30] 专门的期刊杂志有:Journal of Digital Humanities; Literary and Linguistic Computing; Digital Humanities Quarterly; Literary and Linguistic Computing; New Literary History.书籍方面则有: Burdic, Drucker, Lunenfeld, Presner, and Schanpp, ed., Digital_Humanities ,Cambridge, MA: MIT P, 2012; Gold, ed. Debates in the Digital Humanities ,Minneapolis: U of Minnesota Press, 2012; Goldberg and Svensson, ed., Humanities and the Digital ,Cambrdige, MA: MIT Press, 2015; Matthew L. Jockers, Macroanalysis; McCarty, Humanities Computing ,Basingstoke: Palgrave, 2005; Schreibman, Siemens, and Unsworth, ed. A Companion to Digital Literary Studies; 当然也包括Moretti, Maps, Graphs, Trees: Abstract Models for Literary History, London: Verso, 2007.
[31] http://sappingattention.blogspot.com/
[32] http://txtlab.org/
[33] https://mattwilkens.com/与http://markalgeehewitt.org/
[34] 为了处理这个现象,斯坦福大学的文学实验室等几个机构都会出版自己的册子:https://litlab.stanford.edu/pamphlets/.
[35] http://dh2016.adho.org/schedule/. 2016届几乎有九百多名参与者。
[36] 比如苏真(Richard Jean So)最近发表在《洛杉矶书评》的访谈:https://lareviewofbooks.org/article/the-digital-in-the-humanities-an-interview-with-richard-jean-so/#!,芝加哥大学苏真和霍伊特•朗(Hoyt Long)教授关于美国文坛的种族隔离的项目: http://www.ipam.ucla.edu/abstract/?tid=13849&pcode=CAWS4
[37] http://chinese-empires.eu/static/media/uploads/database/index.html
[38] http://dhasia.org/
[39] http://pvierth.herokuapp.com/
[40] 这类批评中最近的、引起很大争议的一篇发表在《洛杉矶书评》上面,见Daniel Allington, Sarah Brouillette, and David Golumbia’s anti-DH polemic, “Neoliberal Tools (and Archives): A Political History of Digital Humanities,” available online at https://lareviewofbooks.org/article/neoliberal-tools-archives-political-history-digital-humanities/ (May 2016).
[41] 参见其在2016年三月份《洛杉矶书评》上表达的观点:https://lareviewofbooks.org/article/the-digital-in-the-humanities-an-interview-with-franco-moretti/ (March, 2016).
本文转载自《山东社会科学》2016年第11期。
“Prehistory” of the Digital Humanities at THU in the 1920s
欢迎投稿,稿件请发至
dh2020@tsinghua.edu.cn
长 按 关 注