对撞机 | 人文计算的历史
作者简介
苏珊·霍基 (Susan Hockey): 英国伦敦学院大学图书馆及信息研究荣誉教授,研究方向为数字人文、TEI 编码,代表作是 A Guide to Computer Applications in the Humanities (Duckworth and Baltimore: Johns Hopkins,1980)。
译者简介
葛剑钢 (1978 ~ ),德国奥格斯堡大学哲学系研究生,研究方向为现代哲学。
本 文 选 译 自 《数 字 人 文 指 南》 ( A Companion to Digital Humanities,ed. Susan Schreibman,Ray Siemens,John Unsworth,Oxford: Blackwell,2004),在线版本为: http: / /www. digitalhumanities. org/companion/。
原文已获得授权,刊发于《文化研究》 第 16 辑(2013 年·秋)。
摘要
本文对 “数字人文”的历史进行了整体性梳理,以技术发展阶段和机构体制建设为逻辑线索,将其分为 “起始” “联合” “新发展”和 “成熟时期”等四个时期,指出文本编码倡议 (TEI) 和计算语言学的独立是早中期最重要的数字人文成果,1990 年代至今的 “数字人文”由于互联网的出现得到了极大的拓展。
关键词: 数字人文 人文计算 互联网 文本编码倡议
Abstract: This essay describes the general picture of digital humanities. Following the clues of technological and institutional developments,this essay divides the historical period of digital humanities into four phrases: beginnings,consolidation,new developments and the era ofInternet and also pointed out the most significant achievements in digital humanities in early-middle period are TEI and independence of computing lin-guistics. From 1990,digital humanities have been extending to a broader scale with the help of Internet.
Keywords: digital humanities humanities computing internet TEI
作者在1970年代
01
导论
我们追溯任何关于跨学科领域的学术活动的历史,都会不可避免地碰到许多基本问题。诸如该领域的范围应该是什么? 相关的领域之间是否有重叠,哪个领域影响了活动的发展? 对于其他———也许是更加传统的———学科有何影响? 对于活动的发展按线性时间顺序的描述真的适当吗? 或许接下来的这个问题有些离题,有什么能够引导我们进入迄今为止尚未探索的道路? 这些问题中的每一个子题都能构成一篇论文的基础,但鉴于本文的篇幅以及背景,我们采取的方法是通过按时间顺序的记述追溯人文计算的发展。在此范围内,将重点介绍那些里程碑式的事件,即已经取得的重大学术进展或已经实质上被其他学科所采用、改进或吸收的人文计算工作。
在此并不想定义人文计算是什么。本文的主题范围事实上已经就此给出了大量信号。我只想说,我们关注的是在被宽松地定义为 “人文学科”(the humanities),或在英式英语里被称为 “艺术学科”(the arts) 中应用了计算程序的研究及教学。在人文计算的发展过程中,有关文字资源的应用程序已经占据了核心地位,这一点可以从大量有关的出版物看出,本文因此也必将关注这个领域。同时这里也不是试图定义 “跨学科”的地方,但就其本质而言,人文计算不得不包含 “两种文化”,即将科学的严格、系统、明确、程序的方法特征带到人文学科中,来解决那些迄今为止大多以偶然的方式被处理的人文学科问题。
02
起始: 从 1949 年到 1970 年代
与许多其他跨学科的实验不同,人文计算有一个非常知名的开端。在1949 年,一位意大利耶稣会修士,罗伯特·布萨 (Roberto Busa) 神父开始了一项即便就今日而言仍然非同寻常的任务: 为圣托马斯·阿奎那及相关作者的著作制作一份语词索引 (index verborum),包括了总计大约 1100 万的中世纪拉丁词语。布萨神父想到也许有机器可以帮到他,而他也听说过计算机,所以他到美国访问了 IBM 的托马斯·J·沃森 (Thomas J. Watson)以寻求支持 (Busa 1980)。在其帮助下,布萨开始了他的工作: 所有的文本逐渐被转移到穿孔卡,为这个项目编写了一个语汇索引程序,最终出版了印刷卷册。第一册于 1974 年出版 (Busa 1974)。
这个纯粹机械式的语汇索引程序根据单词的图形形式 (即字母顺序)排列词语,可以在相当短的时间内搜索到结果。但布萨对此并不满意,他需要能生成 “词形还原的” (lemmatized) 语汇索引,也就是词语按照词典起始字排列,而不是按照它们的简单形式。他的团队尝试编写了一些计算机程序来解决这个问题,而最终是以一种半自动的方式,即用以人工处理那些计算机程序无法处理的单词形式,完成了所有 1100 万词语的词形还原(lemmatization)。布萨对他的工作要求很高。他的卷册排版优雅,而且他决不会为了让工作快点完成而降低学术标准。他对人文计算产生了持久深远的影响。他所体现出的远见和想象力甚至远远超过了当前这一代伴随互联网成长起来的从业人员。1992 年,有关阿奎那资料光盘出版。光盘资料具备了超文本功能 (cum hypertext ibus) (Busa 1992),同时还有拉丁语、英语及意大利语的用户指南。布萨神父是 “布萨奖”(the Busa award) 的首位获得者,该奖表彰他在应用信息技术进行人文研究上所取得的杰出成就。在 1998 年匈牙利德布勒森的获奖演讲中,他探讨了在万维网上使用精致的分析工具生成多媒体学术资料的潜力 (Busa 1999)。
布萨神父
在 1960 年代,其他研究者开始意识到使用语汇索引的好处。多丽丝·伯顿 (Dolores Burton) 于 1981 ~1982 年在 《计算机与人文科学》期刊发表了四篇系列文章,尝试对 1950 年代开始的讨论做一些总结 (Burton 1981a,1981b,1981c,1982)。这 些 研 究 者 中 的 一 些 是 独 立 学 者 ( individual Scholar),他们的兴趣主要集中在一组文本或作者上。在英国,罗伊·威斯比 (Roy Wisbey) 制作了一系列早期中古高地德语 (Early Middle High German) 文本的索引 (Wisbey 1963)。在美国,斯蒂夫·帕瑞斯 (Stephen Parrish) 对马修·阿诺德 (Matthew Arnold) 和 W. B. 叶慈 (W. B. Yeats) 诗歌制作了一系列的语汇索引 (Parrish 1962)。在此期间,也能看到欧洲一些重要的语言学院配备了计算机设备,主要用于协助辞书编纂,其中包括建于南希大学的 “法语宝库” (Trésor de la Langue Française) (Gorcy 1983),意在归档储存法语文档资料,还有另一个是位于莱顿的荷兰语词汇学研究所 (De Tollenaere 1973)。
虽然这时候的许多活动主要专注于语汇索引的制作,并以此为最终目的,但这些工具的运用却开辟了一块新的学术领地。事实上,早在被用于计算机应用之前,定量方法就被用于研究风格与作者问题。比如奥古斯塔斯·德·摩根 (Augustus de Morgan) 在 1851 年写的一封信中就提出将词汇表的定量研究作为调查保罗书信作者的一种手段 (Lord 1958)。另外 T. C.门登霍尔 (T. C. Mendenhall) 在他 19 世纪末的著作中描述了他的计数器,两位女士计算了莎士比亚、马洛、培根以及许多其他作家作品中双字符、三字符以及其他更多字符单词的数目,试图以此来判断到底是谁写出了莎士比亚的作品 (Mendenhall 1901)。计算机的出现使得更多、更准确地记录词频成为可能,这些都是人工所不能及的。1963 年,一位苏格兰牧师安德鲁·莫顿 (Andrew Morton) 在一家英国报纸上发表了一篇文章,声称根据计算机的计算,保罗书信中只有四篇书信是圣保罗本人的作品。莫顿的研究基于对希腊文本中常见词的词频统计,并加上一些非常基础的统计数据。他持续考察了各种不同的希腊文本,并发表了更多的论文与书籍。这些著作注重检查常用词 (通常是小品词) 的频率,同时也注重句子的长度———虽然人们可以反驳,用于识别句子的标点是现代的编辑们添加到希腊文本中的 (Morton 1965; Morton and Winspear 1971)。
据信,最早将计算机应用于有争议作者身份的研究是阿尔瓦·伊勒嘉(Alvar Ellegard) 对 《朱尼厄斯的信》(the Junius Letters) ① 的研究。尽管这项发表于 1962 年的研究并未使用计算机统计词数,但伊勒嘉的确使用了机器计算来帮助自己从手稿中获得一个词汇表概览 (Ellegard 1962)。1960 年代早期出现了被认为是最具影响力的基于计算机的作者身份研究,即摩赛勒 (Mosteller) 和 华 莱 士 ( Wallace) 的 《联 邦 党 人 文 集》 ( Federalist Papers) 研究,这项研究试图确定 12 篇有争议文章的作者身份 (Mostellerand Wallace 1964)。由于这项研究在识别作者身份上的特别贡献,使得此项研究成为分析研究的理想案例。摩赛勒和华莱士最初关注于他们所使用的统计学方法,使他们得以说明麦迪逊很可能就是那些有争议文章的作者。他们的结论已被普遍接受,《联邦党人文集》甚至被当作检测关于作者身份辨别新方法的标准 (Holmes and Forsyth 1995; Tweedie et al. 1996)。
① 《朱尼厄斯的信》是指一组写于 1769 ~1772 年的、作者署名为 “朱尼厄斯”的信件。这 69封信件后来被整理成书于 1772 年出版。有关这些信的作者身份,有诸多猜测,但未有定论。———译者注。
在这个时候,技术的局限性备受关注。用于分析的数据只能是文本或数字。它们必须通过手工费劲地输入到穿孔卡或者纸带上。就卡片而言,每张卡片只能容纳 80 个字符或一行文字 (仅限于大写字母); 而就纸带来说,虽然允许小写字母,却无法阅读。布萨神父就有过将满满几卡车的穿孔卡从意大利的一个中心转移到另一个中心的经历。所有的计算都是以批处理的方式进行的,在工作完成并被打印出来之前用户根本无法看到任何结果。人们很快认识到字符集的缺陷,但这个问题直到 Unicode ① 的出现才得以解决。但这种解决方法并不适用于所有类型的人文材料。在此之前,人们设计了许多不同的方法来表现穿孔卡上的大小写字母,最常见的办法是在大写字母前插入一个星号标记或类似的符号。类似的处理方法也适用于重音符以及其他非标准的字符,至于非罗马字符则必须全部以字母为表现形式。
① Unicode (中文: 万国码、国际码、统一码、单一码) 是计算机领域的一项标准,对世界上大部分的文字系统进行了整理、编码,使得电脑可以用更为简单的方式处理和呈现文字。———译者注。
Unicode示例
大多数大规模的数据集都保存在只能串行处理的磁带上。一盘全尺寸磁带从一头卷到另一头需要花费的时间大概是四分钟,所以软件也被设计为尽可能减少磁带的活动量。想要像在磁盘上那样随意访问数据是不可能的,因此数据不得不以序列的方式存储。对于文本数据而言,这不构成什么问题,但对历史资料而言,这种储存方式意味着数据的简化,这代表一个对象的几个方面 (构成关系数据库技术的几个数据表) 必须简化成一个简单的线性流。就这一点而言,足够让历史学家对基于计算机的项目敬而远之了。
需求远远超出了特定字符集的范围。对语汇索引和检索程序而言,通过其在文本中的位置来识别引文是非常有必要的。传统文档检索系统所采用的方法并不适用这种情况,因为传统方法倾向于设定文档结构与期刊论文的结构类似,因此就无法处理诗歌或戏剧的结构,或者那些有画线的很重要的手稿资源的结构。人们提出了各种各样定义文档结构的方法,但这一时期发展出来的最精细的则是被应用于 COCOA 语汇索引程序中的方法(Russell 1967)。COCOA 以保罗·布拉特利 (Paul Bratley) 为一个古苏格兰文本档案馆设计的格式为范本,允许用户为文档结构定义一个匹配文档特殊设置的规范,同时也允许对重叠结构进行标记,这就使得在为资料的手稿资源编制一个引言系统的同时,也可以为打印版本编制一个引言系统。COCOA 在文件空间上也很节约,但相对来说,对人而言缺少可读性。
另外一个得到广泛应用的引言模型则更加依赖于穿孔卡的格式。在这一通常被称作 “固定格式”(fixed format) 的方案中,每行是以一个编码的字符序列开头,这个字符序列提供了既定的引言信息。引言中的每个单元分别定位行中的特定列,比如标题在 1 ~3 列,诗句号在 5 ~6 列,而行号在7 ~9 列。此项信息的录入因为穿孔卡机器的功能而得到加速,但此项信息却占据了计算机的更多空间。
我们依旧能够在不久前创建的电子文本中找到这些引言方案的遗产。特别是 COCOA 具有非常深远的影响,许多模型都是由它衍生而来。COCOA无法轻松地处理文本内容中诸如名字、日期以及缩写等特征不明显的标记,但它可以处理重叠结构,这一点要远胜于几乎所有的现代标记方案。
在这一时期,那些对人文计算感兴趣的人第一次有机会聚集在一起。1964 年 IBM 在约克城高地组织了一场研讨会。随后出版了由杰西·贝辛格(Jess Bessinger) 和斯蒂夫·帕瑞斯编辑的 《文字数据处理研讨会会议记录(Literary Data Processing Conference Proceedings) (1965)。这些论文讨论了复杂的问题,诸如手稿材料的编码以及语汇索引的自动分类。在后一问题中,拼写变形以及词形还原的缺陷被认为是严重的问题。
可以肯定的是,约克城高地研讨会只是一个单一的活动。事实上,第一个关于文字与语言学计算的定期系列会议,也就是后来的文字与语言学计算学会/计算机与人文学科学会 (the Association for Literary and Linguistic Computing “ALLC” / Association for Computers and the Humanities“ACH”)研讨会的前身,是由罗伊·威斯比 (R. Wisbeg) 和迈克·法灵登 (Michael Farringdon) 1970 年 3 月在剑桥大学组织的。这是一个真正的国际性事件,具有良好的代表性,无论是就大西洋两岸还是就澳大利亚而言。经威斯比(1971) 细致编辑的会议记录为后续出版物设定了标准。对这些会议做个简单回顾,我们可以看到其主要的兴趣是输入、输出、编程与词典编纂、文本编辑、语言教学以及风格学。甚至在当时,人们就已经意识到了需要找到一种存储和维护电子文本的方法。
ALLC的建立
一个新学科的诞生往往是以一份有关该学科的新杂志的创建为标志。1966 年由约瑟夫·雷宾 (Joseph Raben) 主编的 《计算机与人文学科》(Computers and the Humanities) 开始发行。凭借非同寻常的热情,雷宾创办的这份新期刊在刚开始的那几年,至少在定期的系列研讨会以及在此基础上发展而来的学会良好运行之前,就成为有关人文计算信息的主要传播媒介。雷宾认识到了此项研究者希望知道最新的研究状况。同时,他还知道,对于那些考虑启动一个新的研究课题的人而言,他们想到的第一件事就是需要看到反映学者动态的期刊目录。另外也有其他针对某些特定团体的非正式的时事通讯,值得一提的是由斯蒂夫·韦特 (Stephen Waite) 编辑的针对计算机和经典著作的 《演算》(Calculi)。
在 1960 年代,一些致力于在人文学科领域使用计算机的中心相继建立。威斯比 (Wisbeg) 于 1963 年在剑桥建立了文字与语言学计算中心 (the Centre for Literary and Linguistic Computing),目的是为他的关于早期中古高地德语文本的工作提供支持。威海姆·奥特 (Wilhelm Ott) 则在图宾根建立了一个小组,他们开始研发一整套用于文本分析的程序,专门用于批注文本的制作。TuStep 软件模块一直沿用到今天,它为从数据输入与核对到复杂的印刷文本的制作全部阶段的处理确定了非常高的学术标准。
早期阶段的工作受到技术的严重阻碍,比如字符集、输入/输出设备以及批处理系统的缓慢运作等都影响了研究。但无论如何,研究者们还是找到了一些应对这些问题的方法,尽管这些方法有些繁复。更为重要的是,他们所面对的关键问题依然是我们今天要面对的,特别是需要超越图形字符串的层面去看待 “词语”,以及有效率地处理不同的拼写、多个手稿以及词形还原。
03
联合: 从 1970 年代到
1980 年代中期
如果用一个词来描述这一时期,那几乎肯定就是“联 合 ”(consolidation)。有更多的人使用早期发展而来的方法,创建了更多的电子文本,启动了更多使用相同程序的项目。关于有可能做什么的知识慢慢在普通的学术通信渠道中扩散开来。越来越多的人在思考计算机能够对他们的研究和教学做点什么。
知识的扩散不仅仅受助于《计算机与人文学科》,也得益于定期的系列会议。1970 年剑桥的研讨会开启了一项在英国的双年系列会议,它后来成为人文学科计算的一个重要焦点。在爱丁堡 (1972)、加的夫 (1974)、牛津 (1976)、伯明翰 (1978) 和剑桥 (1980) 的一系列会议都产生了高质量的论文。“文字与语言学计算学会”是在 1973 年伦敦国王学院的一次会议上创建的。初期它每年发行三期内部通讯。它也组织一个有一些特邀演讲的年度会议。在1986 年它有了一份名为 《文字与语言学计算》(Literary and Linguistic Computing) 期刊。在 1970 年代中期,另一项被称为 “人文学科计算国际研讨会”(ICCH) 的系列会议在北美启动。为了与英国的会议错开,该会议每逢奇数年举行。英国的会议与 ALLC 年会开始慢慢结合。他们继续关注文字与语言学计算但更偏重于 “语言学”,为此他们为日渐增长的欧洲研究者提供了一个论坛,这个论坛后来被称为语料库语言学 (corpus linguistics)。ICCH 发表了大量的论文,比如关于在写作教学中计算机的使用,以及关于音乐、艺术及考古学的论文。“计算机与人文学科学会” (ACH) 产生自这个研讨会,它创建于 1978 年。
学术的计算机机构也开始意识到人文科学对计算的需要。在使用大型机计算的那个时期,人们需要注册之后才能使用计算设备。与此同时,注册也为学术计算的工作人员提供了机会去了解用户想要什么,去考虑哪些标准软件可以提供给更多不同的人使用。英国的 COCOA 语汇索引程序的第二个版本恰恰是为了这个目的而设计的,以能在不同的大型计算机上运行(Berry-Rogghe and Crawford 1973)。该程序在 1970 年代中期被分发到不同的计算中心,而许多中心也指定了专人作为技术支持。由于该程序用户界面不甚理想,加之编写该程序的阿特拉斯实验室 (Atlas Laboratory) 中止了对该程序的支持,使得英国的资助机构转而赞助牛津大学一个新程序的项目。该程序被称为牛津语汇索引程序 (the Oxford Concordance Program,简写为(“OCP”),这个软件在 1982 年已经完成并吸引了全世界许多不同国家用户的兴趣 (Hockey and Marriott 1979a,1979b,1979c,1980)。与此同时也出现了其他打包的或通用的软件,这大大减少了人文项目在编程方面的费用。
为了避免重复开发,文本存储及维护领域也开始了联合。随着打包软件 ① (packaged software) 的出现以及大量编程不再成为必须,每一个项目都要花大量的时间去备份。1976 年牛津文本档案馆 (OTA) 建立备份的主要动机就是确保一位研究者已经处理完成的文本不会丢失。OTA 承担维护电子文本,并在版权许可的前提下,向任何出于学术目的、想要使用它们的人提供这些文本。它是数字图书馆的开端,尽管一开始并没有人这样称呼它。
① 被绑在一起成为整套的软件,比如微软的办公软件。———译者注
OTA搜索页面
OTA 的方法是为已存储的文本的维护提供服务。但它对特殊的文本仍然无能为力。某些学科领域的学者团体更加注重于创建某个文本档案馆,以便作为研究资源。其中值得一提的是在加州大学欧文分校创建并由西奥多· 布鲁纳 ( Theodore Brunner) 领 导 的 希 腊 语 库 ( Thesaurus Linguae Graecae,简称为 “TLG”)。布鲁纳募集了上千万美元用以支持古希腊文本“数据库”的创建,它涵盖了从荷马到公元 600 年的所有作者,约 7000 万词语 (Brunner 1993)。后来帕卡德人文学院制作了一个与之互补的古典拉丁文合集,配合 TLG 为古典研究的学者提供了其他学科的研究资源。古英语学者也建成了类似的、较为全面的,但要小一些的语料库 (Healey,1989)。
在此阶段,更多的人文计算中心成立了。其中一些,比如位于卑尔根的挪威人文计算中心 (the Norwegian Computing Center for the Humanities,现在的 HIT),凭借政府的大力支持,整合了大范围的项目。其他比如位于宾夕法尼亚大学的文本计算分析中心 (the Center for Computer Analysis of Texts,缩写 CCAT) 则更加关注于该中心创建者们的学术兴趣。世界各地成立了许多的兴趣机构,其中的学者都得到了良好的支持。
宾夕法尼亚大学
在这一阶段,人文计算开设了各种不同方面的课程其中一些课程是由学院计算中心的工作人员授课,主要讲授特定软件程序的制作技术。其他一些课程则更广泛地关注于技术的应用。学院课程常常倾向于自己的长项,这导致相同应用领域中的学生项目增多。当时发生了一场人文学科学生是否应该学习计算机编程的争论。有些人觉得它取代了拉丁语成为一种“精神原则”(mental discipline); 其他人则认为它太难,从人文学科的核心工作中占用了太多时间。字符串处理语言 SNOBOL一度很流行,因为它对于人文学科的学生而言比其他的计算机语言———当时最重要的 Fortran———更加简单。
计算机处理工具也有所进展,主要是通过从磁带到磁盘存储的转换。文件不再以串行的方式进行搜索。一度出现了多种不同的管理数据库材料技术,其中一些对于人文学科的材料非常有效 (Burnard 1987a)。然而关系模型 ① 渐占上风,这种模型在大型计算机实施中呈现出更好的结构,历史学家以及其他人能够处理从资源中抽取出来的材料 (而不仅仅是资源本身)。然而,关系技术在对那些需要转换为图表形式的信息进行呈现时仍然存在一定的问题。1970 年代至少有两种硬件设备被发明出来用以协助搜索。一种被安装在戴维·帕卡德 (David Packard) 的 Ibycus 计算机上,该计算机是专门用来处理 TLG 以及其他一些古典材料 (Lancashire 1991: 204 – 5);另一种则是内容寻址文件存储 (CAFS) 系统,它使用于英国的 ICL 计算机上 (Burnard 1987a)。将 (数据) 处理转移到硬件的想法非常吸引那些不得不处理大量材料的人文学科研究者,但它并未大规模的流行。
① 一种基于谓词逻辑和集合论的数据模型,主要用于数据库的管理。
总览这一阶段的各种出版物,可以看出基于通过语汇索引程序生成的词汇表所撰写的论文具有明显的优势。研究结果不仅对文体分析家有益,对于语言学应用也是如此。愈来愈多的复杂数字被加诸词汇表统计,而那些偏向于人文学科的研讨者却受到冷落。除此之外,方法论方面的创新还真没有什么新鲜的或人兴奋的成就,方法论的评判少于期待。这一时期,人文计算在配套体系方面取得了重要进展,更多的传播渠道 (会议和杂志)涌现出来,软件标准化和文本存档和维护的需求也获得了认可。然而就传播渠道而言,成果还都集中在人文计算领域,很少在主流的人文学科出版物上出现。可以说,我们曾经处于这样一个阶段: 基于计算机的作品在人文学科中的学术声望还是值得怀疑的,而且学者们也都愿意以那些他们更易被接受的方式发表他们的作品。
04
新的发展: 从 1980 年代中期
到 1990 年代早期
这一阶段人文计算有了重大发展。这主要归功于两种新技术: 个人计算机和电子邮件。
最早出现的几种具有竞争性的个人计算机,有些是专门为游戏开发的,有些是独立的文字处理器,无法用于其他工作,还有一些是专门针对教育市场而产生的。
个人计算机是学术生活不可缺少的工具,但在其早期阶段,个人计算机要比现在昂贵得多,那时的购买者都是狂热的爱好者或那些熟悉计算的人。它对人文计算的贡献是人们不必专门花时间去计算中心。个人计算机用户可以做任何他们想做的事情,缺点是不能从数据库中获益。这导致了重复劳动,但同时也促进了创新,因为用户要超越这种制约。
在 1980 年代末期存在三种基于 DOS 的文字分析程序: Word-Cruncher、TACT 和 MicroOCP,都具备非常出色的功能。个人计算机用户可以在家使用这些程序工作,如果使用 Word-Cruncher 和 TACT,可以瞬时获得搜索结果。MicroOCP 则是一个大型程序的衍生物,它使用批量语汇索引技术而不是交互式搜索。理论上个人计算机的主要应用程序是可以与所有程序共享的,也就是文字处理。这吸引了更多的用户,他们认为文字处理程序的功能就是计算机做的全部功能。
苹果的麦金塔电脑有两点吸引了人文学科用户。首先,早在视窗系统(Windows) 之前它就拥有了一个图形的用户界面。这意味着它能够显示非标准字符。它能够在屏幕上显示古英语字符、希腊字母、西里尔字母以及任何其他字母,而且能够轻易地操作包含这些字符的文本。其次,麦金塔电脑也自带了一个程序,用 户 可 以 轻 松 地 创 建 一 些 初 级 的 超 文 本。HyperCard 提供了一个文件卡片的模型,卡片之间能够互相关联。这是一个简单的编程工具,第一次使得编写计算机程序工作容易起来。超文本对于教学的益处显而易见,很快就出现了各种各样的范例。一个很好的例子是由帕特里克·康纳 (Patrick Conner) 创建的 Beowulf 工作站 (Conner 1991)。它向用户展示了一个文本,上面带有指向现代英语版本以及各种不同版本的语言学注释和背景注释的链接。这一时期,Perseus 项目的第一个版本也通过 HyperCard 交付给了终端用户。
电子邮件一开始只局限于计算机科学家团体和研究机构。1980 年代中期,大多数学术计算服务都提供了跨国收发电子邮件的设施。在 1985 年尼斯的 ALLC 会议上,人们初次交换了电子邮件地址,一个新的即时通信的伟大时代开始了。很快,电子邮件就被发送给用户组,人们创建了用于电子讨论列表的邮件列表服务程序 (ListServ) 软件。1986 年帕特里克·康纳创建了针对人文学科的使用最悠久的电子讨论列表 Ansaxnet (Conner 1992)。
1987 年春天,在南卡罗来纳州哥伦比特区的 ICCH 会议上,一群主要从事人文计算工作的学者聚集到了一起,他们一致同意设计一种定期保持联系的方法。当时来自多伦多大学的威拉德·麦卡蒂 (Willard McCarty) 在返回的途中发现了 ListServ 的存在,于是 Humanist 诞生了 (McCarty 1992)。第一条信息发布于 1987 年 5 月 7 日。麦卡蒂自告奋勇地担当了他称之为“电子研讨课”的编辑,除了 1990 年代早期的一段时间他一直都承担着这项工作。
Humanist讨论组页面
Humanist 在某种意义上成为电子讨论列表的模板。麦卡蒂一直保持着优秀的编辑水准,而且讨论的水平通常也很高。对我们这些身处欧洲的人而言,每天早上三到六篇 Humanist 摘要作为定期早餐意味着愉快一天的开始。Humanist 已经成为一个社区维护和发展的中心,它对人文计算作出了意义重大的贡献。它的存档要追溯到 1987 年,包含了关于在此期间的发展及关注的庞大信息资源并被语言学列表 (Linguist List) ———最主要的针对语言学家的电子论坛———的创建者当作了样本。
这一时期,纸媒形式的出版物开始大规模地尝试制作关于项目、软件及出版物的目录索引。两卷本的 《人文计算年鉴》 (Humanities Computing Yearbook,简称 “HCY”) 得到出版。1988 年,由伊恩·兰开夏 (Ian Lan-cashire) 和威拉德·麦卡蒂编辑的第一册出版,包含 400 页的内容。第二册(1989 ~1990) 有 700 页的内容。在以后的几年中 HCY 都是极具价值的资源,它替代了原来由 《计算机与人文学科》学者动态目录所扮演的角色,后者在 1970 年代早期停办。筹备 HCY 是一项艰巨的任务,在出版了两册之后就停办了。1990 年代早期,普遍的共识是在线数据库将成为更有效率的资源。尽管有若干项目试图继续 HCY 的工作,但一直没有出现相类似的成果。
就学术史而言,此阶段有一项成果脱颖而出。1987 年 11 月,南希·艾德 (Nancy Ide) 在 ACH 同事的协助下在波基普西的瓦瑟学院 (Vassar College,Poughkeepsie) 组织了一场特邀会议,意在探讨为人文学科电子文本创建一个标准的编码方案的可能性 (Burnard 1988)。早前就有人进行过尝试,试图解决不同而且相互冲突的编码方案问题,那时的情形用瓦瑟会议的一位与会者的话来形容,就是 “混乱”。学者们厌倦了浪费时间去重新格式化文本以适应特殊的软件,对已有方案的种种不足更是备感沮丧。1986 年,一种新的编码方案出现了,由 ISO 发布的标准通用标记语言 (The Standard Generalized Markup Language,简称 “SGML”) 提供了一种定义标记方案,它可以操作许多不同的文本类型,既可以处理元数据也可以处理普通数据,不但能够表现文档的基本结构特点,也可以表现复杂的学术评注。
与会成员还设立了一套准则———波基普西准则 (the Poughkeepsie Principles),作为创建一套新的解码方案的基础,同时项目管理也被委托给一个指导委员会。该委员会由来自 ACH、ALLC 以及计算语言学学会 (The Standard Generalized Markup Language) 的代表组成 (Text Encoding Initiative 2001)。随后这个团体就在北美募集了超过 100 万美元的资金并指导了文本编码倡议 (Text Encoding Initiative ,简称 “TEI”) 的 《电子文本编码和交换指南》(Guidelines for Electronic Text Encoding and Interchange) (简称 《指南》)。这项工作最初被规划为四个区域,每个区域由一个委员会带领。委员会的成果由两位编辑汇总为第一稿并于 1990 年发布以征求公众意见。进一步的工作包含了诸多工作小组,以便详尽地着眼于特定的应用领域。TEI《指南》的第一个完整版本于 1994 年 5 月,以纸媒形式和电子版形式发布。
TEI网站主页
TEI 的规模、范围及影响远远超过了瓦瑟会议的设想。这是历史上第一次系统化地对所有人文学科文本进行分类和定义。总的来说,用大约 400 个编码标记了一个结构,该结构可以很轻松地针对新的应用领域进行扩展。《指南》中对标记的规定进行了说明,但更深层次的学术挑战则是伴随着工作的进展而出现的。TEI 的工作激发了人们对于标记理论以及将人文学科作为一个主题的兴趣。TEI 《指南》的出版恰逢数字图书馆的初创。之前数字图书馆项目与人文计算并无联系,但 《指南》简直就是为数字图书馆项目而生,后者可以直接以 TEI 为基础而不必重新发明一套标记方案。
许多 TEI 工作是通过使用私人以及公共的电子邮件讨论列表并配合一台公共资源服务器来完成的。从一开始,TEI 小组的人员就被要求定期使用电子邮件,而这个项目也成了这种工作方式的范本。然而,参与者们很快发现,很难在电子邮件讨论中达成结果,幸运的是,他们有足够的资金用于举办定期的面对面的技术会议从而确保作出合理决议,所以不同工作小组的标记建议能够有效率地得到合理化采纳。
除了个人计算、网络以及 TEI 的贡献之外,自 1970 年代以来的那种人文计算活动也在继续发展,并拥有了更多的用户和更多的项目。某些应用领域渐渐从人文计算分拆开来并形成了新的领域。“计算机与写作”就是一个很快就消失的主题。对人文计算而言更重要的是失去了语言学计算的某些领域,特别是语料库语言学,他们拥有了自己的研讨会和会议。计算语言学一直以来都独立于人文计算而发展,所以除了唐·沃克 (Don Walker)在 TEI 指导委员会上的努力之外,它仍然是一个独立的学科。沃克与比萨的计算语言学研究所的安东尼奥·扎波里 (Antonio Zampolli) 一直致力于将人文计算和计算语言学这两个社区联合到一起,但成果有限。只有当人文计算学者开始对计算语言学 (形态分析、句法分析以及词汇数据库) 中发展出的工具表现出强烈需求的时候,计算语言学和语料语言学方面的研究为了维护自身地位和满足语言分析社区的需要才取得了一定进展。除了扎波里和他的同事尼可莱塔·卡佐拉里 (Nicoletta Calzolari) 于 1989 年 6 月在第一次 ACH/ALLC 联合会议上作出的 “关于计算语言学和文字与语言学计算之间的聚合”这篇里程碑式的报告之外 (Calzolari and Zampolli 1991),这些社区之间很少有交流,而人文计算并没有从计算语言学的技术中得到应有的补益。
05
互联网时代: 从 1990 年代早期
到现在
1990 年代出现了一项具有深远影响的成果。这就是互联网,更确切地说是万维网 (World Wide Web)。1993 年出现了第一个图形浏览器 Mosaic。现在互联网的使用已经是学术活动的一个重要组成部分。整整一代人伴随着互联网成长,他们将互联网作为信息的第一来源。
最初,一些长期从事人文计算的从业者就像微软曾经做的一样,低估了网络的作用。那些 TEI 的参与者认为超文本标记语言 (HTML) 是一套问题系统,它涵盖了文字处理器和外观标记的所有缺陷。而圈外的人则带着好奇的心态看待网络。网络是一种查找信息的工具,但并未被人文计算所重视。网络的崛起是它为那些第一次进入人文计算的人提供了一个机会———一个优秀的出版平台,这不仅是对他们学术工作的成果而言,也有助于他们在庞大的用户社区中传播他们的成果。于是,一个新的用户群体出现了。
任何人都可以在网络上成为出版人,从制作人的角度看这样做的好处非常巨大。文本格式不再受到纸媒的限制,它几乎不存在图书厚度的限制,而超文本链接又为注释提供了一个非常有用的方法,等等。网络出版物可以以增量的方式创建,一直到它完成发布。它可以迅速提供给读者,也可以随时修正和更新。
从 1990 年代初期到中期,许多新项目纷纷出现,其中一些确实募集到了资金并得以启动。尤其是在电子学术版本领域,有一些会议和出版物专门讨论电子版本的未来问题 (Finneran 1996; Bornstein and Tinkle 1998)。当时的编辑理论家们以物理的视角着眼于电子文本,他们准备以数字图片的形式表现这些文本。除了彼得·罗宾森 (Peter Robinson) (Robinson 1996,1997,1999) 以及其他几人的工作外,很少有出版物得见天日,除了一些蓝皮书和小样本。而到了 1990 年代的后期,对这方面的兴趣已经消退了。人们提出了很多具有想象力的想法,一旦这些想法开始转化为实践的时候,特别是开始要面对输入并标记文本以及开发软件的繁重工作的时候,人们的注意力立即转移到了其他地方。
对于这些电子资源合集应该如何称呼引起了诸多争议。许多人偏爱“档案馆” (archive) 这个术语,比较著名的有布莱克档案馆 (BlakeArchive) 以及其他在弗吉尼亚大学人文学院高级技术研究所进行的项目。“档案馆”意味着堆积如山的资料,在那里用户不得不选择一条导航路线。“版本”(Edition) 意味着很多的学术附加值,它反映了一位或多位编辑的观点,这会影响到特定的导航路线的选择。SGML (标准通用标记语言,Standard Generalized Markup Language) 常见于基于 TEI 的应用,可以为建立导航路线提供一种关联的方式,但更为重大的挑战则在于设计和建立一个有效率的用户界面。然而重点还在于导航技术,而不是过去人文计算领域的分析工具及技术。在网络的早期阶段,SGML 编码的文本传递技术相当笨拙,无法令人满意。不过由于浏览它们的方式简便,此类出版项目的数量还是很可观的。越来越多的人开始熟悉人文学科中的技术理念,但对于如何将材料放到网络上依然知之不多。
尽管一开始的时候大多数此类出版项目是由学者团体发起的,但不久之后图书馆也开始考虑将他们的藏书内容放到互联网上。美国的几家研究所建立了针对人文学科基础资源材料的电子文本或电子图书馆合集,大多数通常使用 OpenText SGML 搜索引擎 (Price-Wilkin 1994)。尽管它提供了优秀、快速的工具,但实际上它的功能并不多。其他项目则使用 DynaText SGML 电子书系统。这套系统提供了更结构化的搜索,但它的界面并不理想。
Orlando 项目开发了一种用于电子出版物的全新系统,该项目意在阿尔伯塔和圭尔夫大学创建英国女性著作历史。凭借充裕的研究基金,他们创建了一套 SGML 文档,包含了作者的短篇传记、著作的历史以及一般历史性事件等资料 (Brown et al. 1997)。这样就可以使这些文档的材料重新组合,比如针对特定的时期或主题生成年表。这个项目开创了一种全新的学术写作形式,这是过去所没有的。至于它是否真的会被大规模使用,还有待观察。
Orlando项目网站主页
互联网也使得合作项目以一种前所未有的方式得到开展。那些身处不同地方的人能够对同一个主题进行收集,就是一个巨大的进步。在 Orlando项目中,两个研究所的研究者们将文档添加到一个基于网络的文件管理系统的文档档案馆,该系统使用了某些 SGML 标记。此外还出现了整合编辑资源的想法,处在不同地点的人能够添加注释层,比如 Peice 项目 (Neuman et al. 1992) 和 Codex Leningradensis (Leningrad Codex Markup Project 2000)。这在技术层面上相当清晰。但随之而来的问题是项目管理,诸如谁来控制或审查注释,以及系统的维护和未来标准等。
TEI 作为一个模块给数字图书馆项目带来了挑战,因为 TEI 主要是由那些想要尽可能灵活多变的学者设计的,所以所有的 TEI 标签都可以被重新定义,人们可以在任何合适的地方添加标签。而图书馆和信息科学领域秉持的却是,标准一旦被制定就必须得到严格遵守———这是为了确保读者能够轻松找到书籍。遗憾的是在 TEI 创建的过程中,图书馆和信息科学专业人员从未涉及其中,而且那时还没有 “数字图书馆”。与学者社区不同,图书馆社区拥有多年电子文本工作经验的人只是少数。不过 TEI 系统在文献中搜索病毒的功能具有非常广泛的影响。
1990 年代初期的人文学科电子领域具备了一个新的维度,可以有效获得图片、音频和视频形式的多媒体信息。在数字图像化的早期阶段,许多讨论是关于文件格式、像素以及其他图像处理技术方面的问题,但人们很少谈及这些图像的应用。越来越多的人文计算从业者认为图像应该像Beowulf 项目 (Kiernan 1991) 那样被操作并以某种方式得到增强。例如实现从图像到文字的链接、下拉到文字所在的行 (Zweig 1998) 等。人们已经认识到多媒体的潜力,而未来很可能是与电视的逐渐交汇。
网络渠道的扩充导致了其他领域对人文计算的兴趣在一个新的学术团体中,电子资源成为研究的对象并且被解剖分析,他们中的一些人对于人文计算几乎一无所知,其中,超文本尤其突出。这有助于扩大人文计算的研究和解决更多的问题,但也有可能对于创建和使用这样一种资源造成分歧。这是两种文化的冲突,一种是实践的文化,而另一种则是理论的文化。
开设学术项目的导论课程是该学科成熟的另一个标志。人文计算课程发生在 1990 年代晚期,值得一提的是,当时只有很少的专业标题包含了“人文计算”这几个字。伦敦大学国王学院为许多人文学科提供了辅修的“应用计算”学士专业,而它新设立于人文计算中心的文学硕士专业也被称作 “应用计算”文学硕士专业。加拿大的麦克马斯特大学 (McMaster University) 则提供了多媒体学士专业。弗吉尼亚大学即将开设一门称为 “数字人文学科”的文学硕士专业,该专业由媒体研究项目主办。据我所知,阿尔伯塔大学是第一个开办在名称中带有 “人文计算”字样专业的大学,尽管格拉斯哥大学在很多年前就开设了历史和计算的哲学硕士专业。
阿尔伯塔大学
由于互联网促进了计算机在人文学科方面更为广泛的应用,其他学科也开始涉入其中。这导致了定义域的进一步刷新,至少为此生成了一项研究议程。当时的盖蒂艺术历史信息项目 (Getty Art History Information Program) 在 1996 年公布了一项非常有趣的网络传统文化研究议程 (Bearman 1996)。该议程涵盖了数字图书馆和人文学科研究及教学的主题。其中每一个分支都能形成一项研究计划,但该倡议未能进一步实施。
同时,ALLC 和 ACH 仍然每年组织一次会议,关于标记以及其他技术问题的论文占据了主要篇幅。为了筹备 2002 年在德国举办的研讨会,有人为人文计算描绘了一份路线图,并由此产生了一份有用的调查表(Robey 2002)。尽管没有多少新内容,但由一个更大的社区投入更多的劳动,也许会产生一些新的东西。但人文学科电子资源更多地吸纳来自人文计算社区以外的人员,这种融合造成的偏差可能是一个更大的问题。
06
结论
TEI 是所有人文计算活动中最突出的一项活动,在我看来,它代表了我们这一领域迄今为止最具意义的知识进步。它影响了整个标记社区。在XML (可扩展标记语言) 开发的时候,TEI 吸引了 SGML 社区专家的注意力,TEI 的编辑之一迈克斯伯格 - 麦克奎恩 (Michael Sperberg-McQueen) 受邀成为新的 XML 标记标准的合作编辑。TEI 完成的关于超链接的工作构成了 XML 中链接机制的基础。TEI 在很多方面是超越时代的,因为只有在最近两三年随着 XML 的迅速普及,描述性标记系统才被更多的社区认识。与此同时,从 TEI 发展而来的标记理论家社区继续就知识表现提出了一些具有挑战性的问题。
其他领域依然需要深入研究。文化遗产日益期待着人文计算的介入,这不仅是对学术用户而言,对于终身学习者和一般公众也是如此。人文计算有助于对各种人文材料的研究,就像 Perseus 项目显示的那样 (Rydberg-Cox 2000),结合计算语言学的技术可以开辟出广阔的视野。在我们既节省数据创建的费用又不损失学术价值或功能的前提下,我们的工具和技术也可以促进新人文数字化和编码过程的研究。通过互联网,人文计算有了更多的受众,新设立专业的毕业生将不仅仅在学术界工作,也会就职于电子出版业、教育技术以及多媒体开发行业。纵观其历史,人文计算在继续保持其高学术标准的情况下,仍然显示出对于想象和创新的强烈愿望。现在互联网已经成为日常生活的一个重要部分,人文计算的前途是无量的。
参考文献
Bearman,D. ,(ed. ) (1996) . Research Agenda for Networked Cultural Heritage. Santa Monica,CA: Getty Art History Information Program.
Berry-Rogghe,G. L. M. and T. D. Crawford ( 1973 ) . Developing a Machine-independent Concordance Program for a Variety of Languages. In A. J. Aitken,R. W. Bailey,and N. Hamilton-Smith (eds. ),The Computer and Literary Studies (pp. 309-316) . Edinburgh: Edinburgh University Press.
Bessinger,J. B. and S. M. Parrish (1965) . Literary Data Processing Conference Proceedings. White Plains,NY: IBM.
Bornstein,G. and T. Tinkle (1998) . The Iconic Page in Manuscript,Print,and Digital Culture. Ann Arbor: University of Michigan Press.
Brown,S. ,S. Fisher,P. Clements,K. Binhammer,T. Butler,K. Carter,I.Grundy,and S. Hockey (1997) . SGML and the Orlando Project: Descriptive Markup for an Electronic History of Women's Writing. Computers and the Humanities 31: 271 – 84.
Brunner,T. F. (1993) . Classics and the Computer: The History of a Relationship. In J.Solomon (ed. ),Accessing Antiquity: The Computerization of Classical Studies (pp. 10 – 33).Tucson: University of Arizona Press.
Burnard,L. (1987a) . CAFS: A New Solution to an Old Problem. Literary and Linguistic Computing 2: 7 – 12.
Burnard,L. (1987b) . Principles of Database Design. In S. Rahtz (ed. ),Information Technology in the Humanities (pp. 54 – 68) . Chichester: Ellis Horwood.
Burnard,L. (1988) . Report of Workshop on Text Encoding Guidelines. Literary and Linguistic Computing 3: 131 – 3.
Burton,D. M. (1981a) . Automated Concordances and Word Indexes: The Fifties. Computers and the Humanities15: 1 – 14.
Burton,D. M. (1981b) . Automated Concordances and Word Indexes: The Early Sixties and the Early Centers. Computers and the Humanities 15: 83 – 100.
Burton,D. M. (1981c) . Automated Concordances and Word Indexes: The Process,the Programs,and the Products. Computers and the Humanities 15: 139-154.
Burton,D. M. (1982) . Automated Concordances and Word Indexes: Machine Decisions and Editorial Revisions. Computers and the Humanities 16: 195 – 218.
Busa,R. (1974-) . Index Thomisticus. Stuttgart: Frommann-Holzboog.
Busa,R. (1980) . The Annals of Humanities Computing: The Index Thomisticus. Computers and the Humanities14: 83 – 90.
Busa,R. , (ed. ) (1992) . Thomae Aquinatis Opera Omnia Cum Hypertextibus in CD-ROM. Milano: Editoria Elettronica Editel.
Busa,R. (1999) . Picture a Man. … Busa Award Lecture,Debrecen,Hungary,July 6,1998. Literary and Linguistic Computing 14: 5 – 9.
Calzolari,N. and A. Zampolli (1991) . Lexical Databases and Textual Corpora: A Trend of Convergence between Computational Linguistics and Literary and Linguistic Computing. In S.Hockey,N. Ide,and I. Lancashire (eds. ),Research in Humanities Computing1:Selected Papers from the ALLC/ACH Conference,Toronto, June 1989 (pp. 272 – 307) . Oxford:Clarendon Press.
Conner,P. W ( 1991 ) . The Beowulf Workstation: One Model of Computer-assisted Literary Pedagogy. Literary and Linguistic Computing 6: 50 – 8.
Conner,P. W (1992) . Networking in the Humanities: Lessons from Ansaxnet. Computers and the Humanities 26: 195 – 204.
De Tollenaere,F. (1973) . The Problem of the Context in Computer-aided Lexicography. In A. J. Aitken,R. W. Bailey,and N. Hamilton-Smith (eds. ),The Computer and Literary Studies (pp. 25 – 35) . Edinburgh: Edinburgh University Press.
Ellegard,A. (1962) . A Statistical Method for Determining Authorship: The Junius Letters 1769 – 1772. Gothenburg: Gothenburg Studies in English.
Finneran,R. J. (1996) . The Literary Text in the Digital Age. Ann Arbor: University of Michigan Press.
Gorcy, G. (1983) . L'informatique et la mise en oeuvre du trésor de la langue française(TLF),dictionnaire de la langue du 19 e et du 20 e siècle (1789 –1960) . In A. Cappelli and A. Zampolli (eds. ),The Possibilities and Limits of the Computer in Producing and Publishing Dictionaries: Proceedings of the European Science Foundation Workshop,Pisa 1981. Linguistica Computazionale III (pp. 119 – 44) . Pisa: Giardini.
Hamilton-Smith,N. (1971) . A Versatile Concordance Program for a Textual Archive. InR. A. Wisbey (ed. ),The Computer in Literary and Linguistic Research (pp. 235 – 44) . Cambridge: Cambridge University Press.
Healey,A. (1989) . The Corpus of the Dictionary of Old English: Its Delimitation,Compilation and Application. Paper presented at the Fifth Annual Conference of the UW Centre for the New Oxford English Dictionary. Oxford,September,1989.
Hockey,S. (1986) . Workshop on Teaching Computers and the Humanities Courses. Literary and Linguistic Computing 1: 228 – 9.
Hockey,S. and I. Marriott (1979a) . The Oxford Concordance Project (OCP) – Part1. ALLC Bulletin 7: 35 – 43.
Hockey,S. and I. Marriott (1979b) . The Oxford Concordance Project (OCP) – Part2. ALLC Bulletin 7: 155 – 64.
Hockey,S. and I. Marriott (1979c) . The Oxford Concordance Project (OCP) – Part3. ALLC Bulletin 7: 268 – 75.
Hockey,S. and I. Marriott (1980) . The Oxford Concordance Project (OCP) – Part 4.ALLC Bulletin 8: 28 – 35.
Holmes,D. I. and R. S. Forsyth (1995) . The Federalist Revisited: New Directions in Authorship Attribution. Literary and Linguistic Computing 10:111 – 27.
Kiernan,K. S. (1991) . Digital Image Processing and the Beowulf Manuscript. Literary and Linguistic Computing6: 20 – 7.
Lancashire,I. , (ed. ) (1991) . The Humanities Computing Yearbook 1989 – 90: A Comprehensive Guide to Software and Other Resources. Oxford: Clarendon Press.
Lancashire,I. and W. McCarty,(eds. ) (1988) . The Humanities Computing Yearbook 1988. Oxford: Clarendon Press.
Leningrad Codex Markup Project (2000) . Project“EL”: The XML Leningrad Codex. Available at: <http: / /www. leningradensis. org>,accessed May 15,2003.
Lord,R. D. (1958) . Studies in the History of Probability and Statistics: viii. de Morgan and the Statistical Study of Literary Style. Biometrika 45: 282.
McCarty,W. (1992) . Humanist: Lessons from a Global Electronic Seminar. Computers and the Humanities 26: 205 – 22.
Mendenhall,T. C. (1901) . A Mechanical Solution of a Literary Problem. The Popular Science Monthly 60: 97 – 105.
Morton,A. Q. (1965) . The Authorship of the Pauline Epistles: A Scientific Solution.Saskatoon: University of Saskatchewan.
Morton,A. Q. and Winspear,A. D. (1971) . It's Greek to the Computer. Montreal:Harvest House.
Mosteller,F. and D. L. Wallace (1964) . Inference and Disputed Authorship: The Federalist. Reading MA: Addison-Wesley.
Neuman,M. ,M. Keeler,C. Kloesel,J. Ransdell,and A. Renear (1992) . The Pilot Project of the Electronic Peirce Consortium (abstract) . ALLC-ACH92 Conference Abstracts and Program (pp. 25 – 7) . Oxford.
Parrish,S. M. (1962) . Problems in the Making of Computer Concordances. Studies in Bibliography 15: 1 – 14.
Price-Wilkin,J. (1994) . Using the World Wide Web to Deliver Complex Electronic Documents: Implications for Libraries. The Public-Access Computer Systems Review 5: 5 – 21. <http: / /jpw. umdl. umich. edu/pubs/yale. html>,accessed July 21,2004.
Proud,J. K. (1989) . The Oxford Text Archive. London: British Library Research and Development Report.
Robey,D. (2002) . New Directions in Humanities Computing,<http: / /www. uni-tue-bingen. de/zdv/zrkinfo/pics/aca4. htm>,accessed May 15,2003.
Robinson,P. ,(ed. ) (1996) . Geoffrey Chaucer: The Wife of Bath's Prologue on CD-ROM. Cambridge: Cambridge University Press.
Robinson,P. M. W. (1997) . New Directions in Critical Editing. In K. Sutherland (ed.),Electronic Text: Investigations in Method and Theory (pp. 145 – 71) . Oxford: Clarendon Press.
Robinson,P. M. W. (1999) . New Methods of Editing,Exploring and Reading The Canterbury Tales. http: / /www. cta. dmu. ac.uk/projects/ctp/desc2. html,accessed May 14,2003.
Russell,D. B. (1967) . COCOA—A Word Count and Concordance Generator for Atlas. Chilton: Atlas Computer Laboratory.
Rydberg-Cox,J. A. (2000) . Co-occurrence Patterns and Lexical Acquisition in Ancient Greek Texts. Literary and Linguistic Computing 15: 121 – 30.
Text Encoding Initiative (2001) . Text Encoding Initiative,http: / /www. tei-c. org,ac-cessed May 15,2003.
Tweedie,F. J. ,S. Singh,and D. I. Holmes (1996) . Neural Network Applications in Stylometry: The Federalist Papers. Computers and the Humanities 30: 1 – 10.
Wisbey,R. (1963) . The Analysis of Middle High German Texts by Computer: Some Lexicographical Aspects. Transactions of the Philological Society,28 – 48.
Wisbey, R. A. , (ed. ) (1971) . The Computer in Literary and Linguistic Research. Cambridge: Cambridge University Press.
Zweig,R. W. (1998) . Lessons from the Palestine Post Project. Literary and Linguistic Computing 13: 89 – 97.
END
主编 / 陈静、徐力恒
责编 / 任苗青
美编 / 任苗青