理论前沿 | 数字时代的“世界文学”研究：从概念模型到计算批评

Original 赵薇外国文学动态研究 2022-05-09

数字时代的“世界文学”研究：从概念模型到计算批评

赵薇，文学博士，中国社会科学院文学研究所助理研究员，主要从事比较文学、二十世纪中国文学与数字人文研究。

内容提要 本文以意大利学者弗朗科·莫莱蒂及其领衔的文学实验室的早期探索为中心，尝试用“世界文学”问题来检视“莫莱蒂道路”的得失，揭示其所提倡的“远读”研究之实质和局限，追踪它随后汇入数字人文大潮的轨迹。以这一时期莫莱蒂的文学建模路径为线索，可以发现一种带有文化分析学面向的计算文学研究，将如何取代《世界文学猜想》中对“概念模型”的理论设想，而必然地导向了更具反思性和实践性的计算批评。

关键词 世界文学远读实证化数字人文计算批评

《世界文学猜想》（“Conjectures on World Literature”）2000在《新左派评论》（New Left Review）的发表，可以视为意大利裔比较文学学者、马克思主义理论家弗朗科·莫莱蒂（Franco Moretti，1950— ）形成“远读”（distant reading）观念和实践的重要节点，因为正是在这一年，莫莱蒂终于借“实证”的形式将量化手段和宏大理论构想结合在了一起。也就是说，《猜想》中的所有想法，在莫莱蒂前二十年的研究生涯中已初步形成，但是距其后二十年能够取得的成绩，却还相当遥远，具体要如何施展，也仅仅只有一个模糊的方向。

（《新左派评论》，图片源自网络）

首先是“世界文学”的难题。用建立在国别文学研究之上的“远读”方法来验证“世界文学”的概念模型，这个计划听上去令人惊艳，也无比正确，却绝非个体之力可以实现得了，莫莱蒂也早已意识到这一点：如果说仅仅是欧洲文学，还可以凭借母语之外的英、法、德、拉丁文、希腊文等阅读功底，在有生之年知其十一。可一旦跨越语言体系，来到广袤的汉藏语系世界，就将遭遇不可想象的困难：如何大批量地处理浩如烟海的多语种文学档案？而如果不经过这一步，“世界文学”又如何成为“世界”的？从最现实的层面来说，若不跨越语言的鸿沟，不经过“翻译”，某种模型即便在西欧是可以成立的，而且可被“证实”，但当其被扩大到各民族文学的实际中，当“世界文学”真正要成为对象时，就不知其正当性如何了，这就是《猜想》中反复提出的问题。对世界文学研究来说，越过语言的中介来构想一种普适性的世界文学理论要冒极大风险，2000年的莫莱蒂固然可以借助二手的文学批评来“验证”某种假说，但文学体验、文学阐释的主观性和不易测量使这种做法无论在文学批评还是经验研究（empirical study）中都不讨好，所以也只能偶一为之，根本无法推广。所以，某种具备了计算批评和文化分析学（cultural analytics）面向的数字人文转向对莫莱蒂来说，也将是一种必然。本文即尝试继续以世界文学问题为线索追踪这段历程，在一个回溯性的语境中进一步检讨莫莱蒂道路的得失。

一、世界文学问题域中的“远读”

关于“世界文学问题”的论争，在莫莱蒂的《再猜想》（“More Conjectures”， 2003）一文发表之后似乎暂时告一段落了。相比《猜想》发布后的热闹，《再猜想》引来的左、右两派的激烈批评，更多是针对“远读”方法本身。此后，被“逼上梁山”的莫莱蒂，开始利用大量现实数据，以一项项量化形式主义研究，向学界普及他所谓“远读”的要义，用自身行动打破批评界对他只专注于理论的印象。值得注意的是，尽管这其中只有一两项研究可被视为接续、辅证了《猜想》中的观点，但已能令人强烈地感受到，作者对模型的热情是与对方法本身的探索相关联的，这些都使得昔日的“世界文学猜想”在某种程度上真的变成了一种“猜想”，至少在莫莱蒂的实践道路上，留下了一个难以完成也无需完成的问题，一种构成知识的永久“条件”，倒是几项由世界文学生产延伸出来的研究，铺就了通向数字人文和计算批评的坦途。恰如2005年出版的《图表，地图，树图：文学史的抽象模型》（Graphs, Maps, Trees: Abstract Models for Literary History）一书的标题所显示的，莫莱蒂在这一阶段开始转向了对实存而非观念意义上的文学史做真正的远读研究。这部书由三篇论文构成，曾首发于2003年的《新左派评论》上，其写作初衷也可认为是接续《猜想》《再猜想》，即以自己的实证化探索来对此前的“世界文学论争”做出回应。对此时的莫莱蒂来说，“二百本十九世纪英语小说构成的经典序列，远远少于实际出版过的三万部作品”，这方面，含英咀华的细读并无太多用武之地。所以必须继续“寻找更少的要素，以换取对这些要素之间的关联更敏锐的洞察。形状，关系，结构，形式，模型”（Graphs：1）。不难看出，描述和建构模型的冲动仍主导了他这一时期的研究。

（《图表，地图，树图：文学史的抽象模型》，图片源自网络）

这本书使用的三个“模型”借用自三个曾经与文学研究都不太相干的领域：量化史学中的图表（graphs），地理学中的地图（maps），以及演化论的树图（trees）。其中真正与世界文学问题有关的部分，来自作者对第一和第三种模型的阐发和应用。但实际上，只有第一项研究可看作与《猜想》中的抱负直接相关，因为这是一项用统计分析图表来再现“世界小说的兴起”与文类霸权周期性更迭的实证研究。在这项研究中，莫莱蒂名正言顺地采取书籍史研究的手段，和几位研究英、法、日、丹麦、意大利、西班牙、印度以及尼日利亚的书籍史学者合作，使用他们提供的出版发行数据，将某一时期各国小说先后兴起的情况可视化出来。如果按照《猜想》和《再猜想》中的理想思路——随着统计图表的变换，在不同粒度的统计指标之间进行切换，研究者应致力于去发现不同国家小说兴起的差异模式。首先是在主要趋势上，莫莱蒂发现来自三大洲五个国家的情况十分相似：从十八世纪二十至四十年代的英国到二十世纪六十至八十年代的尼日利亚，尽管前后相差二百年有余，但从曲线图来看，这些国家的小说几乎都在各自关键的二十年间经历了出版速度的“剧增”阶段，完成了“兴起”过程。如果分别以各个国家的小说出版量为纵轴，以年代为横轴，又会发现在短短几十年内，各民族国家小说的兴起模式各具特色：英国小说经历了三次持续性崛起，才逐渐达到顶峰；日本小说的曲线趋势则体现为先繁荣，又下降，再上升的反复“钟摆式运动”，而日本小说的产量曾一度超过英国小说，这很可能是随着政权和书籍审查制度的更迭而发生的必然变化；丹麦和意大利、尼日利亚及法国小说都表现出趋同的模式，唯一的例外是英国对印度小说的进口在1857年叛乱后急速上升，似乎颠倒了殖民关系，这种上升在英国突然加速象征性霸权的建立时达到顶点，而后进口的趋势又回归到1857年之前（Graphs：5-12）。莫莱蒂认为，如此轮番观察，似乎只能带来个体化的解释。于是他接着以英国小说为例，认为寻求某个独立事件发生的原因（如为何英国小说在1775至1783年，1810至1817年间有两次回落），解释将可能是多重的。诸如拿破仑战争，纸张涨价，重印数波动等可能的因素，都只构成模式形成的一部分原因，但人们必须解释的是作为一个整体的模式，而非一段时期内的现象。所以，为了识别作为整体的兴起模式，需要以布罗代尔（Fernand Braudel）所谓的“中时段”作为观测范围。因为，长时段只有稳定的结构，短时段只有潮流没有结构，中时段是唯一将历史潮流包含在短暂结构中的。文类（genres）是“中时段”研究真正的主角，它不仅是“历史潮流”（flow）与“形式”（form）真正的遇合点，也是物种形成理论最直接的对应物。莫莱蒂此时的落脚点也再次说明了为什么在世界文学问题上，人们曾一度聚焦于文类。但令人颇感意外的是，接下来的统计和可视化呈现尽管是以“中时段”为范围，莫莱蒂却并没有再对各国差异做进一步的抽象，寻求更细粒度上的共性，而是转向了统计其他变量对小说兴起的影响。这其实和莫莱蒂自身对统计学的理解和运用水平有关——后文还会详细提及——例如，如果将更多的亚文类囊括进来，对其按年代迁移做聚类分析，就会发现四十四种英国小说亚文类在二百年间此消彼长的兴替过程中已经初步形成了“聚类化”（clustering）的形态（如下图，Graphs：19）。

英国小说亚文类（1740—1900）

就是说，每二十到三十年，一波新的文类就会活跃起来，同时某些旧文类会相应衰落。莫莱蒂认为什克洛夫斯基（Viktor Shklovsky）只是定性地描述了这个现象，却无法发现这个隐秘的周期规律，其实最好的解释当然是卡尔·曼海姆所说的代际更替（generation）。至此，莫莱蒂认为，当量化不能再提供任何东西的时候，必须走向形态学的解释。其次，与此相类的是性别变量导致的模式循环。莫莱蒂认为，在十八世纪写作的性别问题研究中，“性别”是文类下面经常会被考察的一个次变量，相关话题曾争讼不断：十八世纪到底是女性写作不断崛起的世纪，还是男性依然占据中心，以将女性驱逐出去为主导趋势？若将前后百年间发生的事用图表表示出来，会发现这不过是在女性写作和男性占据主导之间的五次范式转移而已（Graphs：27）。除了性别的转移和小说的兴起，类似的还有对高眉现代主义（High Culture）和流行文化的区分。在莫莱蒂看来，曾经的研究者都以为他们有了独一无二的发现，但其实他们没有从整体的角度拉开距离看，从而导致看到的只是中时段的一个瞬间——只见树木不见森林，而远读却是要发现和追问钟摆式隐秘运动的机制到底是什么。这需要进一步分析次变量间的冲突，因为只有冲突才是常量，这也是只有在中时段层面才能观察到的。至此，中时段的各种循环构成了横轴，而文类的生产则是纵轴，二者当然不是小说史的全部，但却让我们看到了多样性，看到了复数的“小说”。小说不仅是一种基本的形式，不仅是前人以为的现实主义、辩证法、罗曼斯、元小说……若这样定义小说，就忽略了百分之九十的文学史。从宏观上看，莫莱蒂求助的仍是演化理论，但却不再追求一种遁入无形的运用效果，而是很明确地将结论表示为统计图表，且具备一定的可操作性。因为人们只需设立一个时段，然后考察某种文类和所受诸影响变量之间的关系（在这项研究中，先是国别，后是亚文类，最后是性别），再获得一系列同质化的范畴（如“英国小说”“反雅各宾小说”等形态学概念），继而在更细的粒度上考察次变量内部的冲突和矛盾，从而发现整个文类体系的全貌，就完成了对文学史的共时和历时性研究。这种最基本的统计分析框架，后来被马修·乔克思（Matthew Jockers）发展为针对文学史具体问题进行“大分析”（Macroanalysis，又译宏观分析）的研究，显然更有意义一些。然而在莫莱蒂这里，他所关心的对象，与其说还是曾经的“世界文学”，不如说是长篇小说这种文类自身的演化规律。就此一时期的莫莱蒂而言，较多地诉诸演化论的解释，就像是什么也没有解释一样，仍停留在人们的常识范围内，这无疑让人们对以经验的方法证实“世界文学猜想”的期待再次落空。此书涉及的第三个模型是演化树（Evolutionary Trees），主要想借助对演化树谱系的简易绘图，来解释某种文体策略的微观文化政治功能。对莫莱蒂来说，这一篇是其马克思主义形式理论的真正起点，也是将形态学和历史主义融合为一枚硬币之两面的开端，因而在量化的程度上显得更加“初级”。然而，由于演化树关注的是文学形式跨越民族国家疆界不断衍生变化的“实存”历史，所以讨论的是地道的世界文学问题，某种程度上也可视为“世界文学猜想”在偏向演化理论路径上的具体生发。在这部分中，莫莱蒂是通过分析自由间接引语的跨民族演化史进入到对文体特征政治功能的微观解释层面的。这一思路，已经比《猜想》中单纯举出某种“边缘地区”现代文学的发生情形要高明许多，因为它是以一种明晰、具体，又有全球特色的叙述语体的形式演化为分析对象的。以某种全球流播的现代文学技巧为跟踪对象，这种做法为后来的文化分析学者对世界文学现象进行特征化建模和追踪提供了可资借鉴的思路。我们知道，西方语言中的“自由间接引语”（free indirect speech，以下简称FIS）直接表述就是“叙述者的动词时态和介词，加上人物的语调和语句顺序”（Graphs：81），指在人物的声音中渗入了叙述者声音这样一种小说文体技巧。莫莱蒂认为，1800至2000年的现代小说史上，FIS一直是一种最重要不过的叙述装置，可以被视为人物社会化的标志，同时也是小说现代性的最好表征，在社会刻度和个体声音之间，FIS是它们之间力量平衡的指示剂。在大致画出FIS的演化树之时，莫莱蒂发现，只要考察还限制在西欧范围内，就没什么令人惊异之处，这种复合声音，最多只是从对意识的“反映”（reflective）到“不反映”（non-reflective）的转移（如下图，Graphs：84）：

现代叙事中的自由间接体（1800—2000）

例如从奥斯汀尖锐准确的人物话语，到福楼拜和左拉那种无所不包的情绪。在福楼拜和左拉的小说里，人物的内部世界完全被公众世界的陈词滥调所占据，因而显得完全不可知。但有趣的是，当个人的思想世界将要全部淹没在意识形态话语中时，一个慢慢生长、延伸到“东方”的分支现象渐渐逆转了这种趋势，FIS开始变成冲突而非统一意志的世界。正如巴赫金对拉斯柯尔尼科夫内部话语的分析一样，FIS开始从客观化“叙述”冲向富于戏剧性和紧张感的“对话”一极，因而充满了辩论色彩。在其后的演变史中，巴赫金重视口头艺术的倾向，在自然主义运动中达到新的顶峰，构成了多种符号霸权。在西欧的国家政权之下，非个人化的内部声音又从新闻报纸、书籍及公众意见中渐渐升起，在南欧语言中，多视角的众声喧哗或窃窃私语从外省的忏悔室中传出（如西班牙语小说《庭长夫人》，或意大利南部的村庄小说《枸杞树屋》）。此时，FIS被社会喉舌附身，相比于欧洲西部的安静叙事，南欧的叙事里有更多扰攘和争吵，但它们大体上仍处在“反映”的一极。如果说至此莫莱蒂追溯的还都是FIS如何分化出那些更具备社会性和“客体化”特点的流派分支，接下来一些实验小说（如伍尔夫、托马斯·曼、普鲁斯特等人的作品）的相继出现，则让光谱的另一端浮现。也就是说，直到乔伊斯真正超越“非反映性的意识”，深入到无意识或潜意识的心理生活中，在这个时间点上，第二次文体突变出现了。“正如在《罪与罚》中，第三人称的叙事话语转变成为第二人称对话，在《尤利西斯》中，则是一贯地滑入了他的第一人称的意识流中”——一种对话技术的异质性关联（Graphs：88）。这里，文化的杂交作用遇上了无法超越的障碍（意识流技术）。这意味着，一种“分化”（diverge）的另一个极限又出现了，一种“形式”定型了，分化的力量不再主导这种文类的发展了。换言之，“对话”（陀思妥耶夫斯基）和“意识流”（乔伊斯）圈定了FIS这种语体不断向两个方向分化的边界，因为“会聚”（coalesce）作用的存在，它不可能无限分化下去。最后，再到二十世纪偏向“不反映”一端的最后一个分支中，第一人称与第三人称之间的摇摆还存在，这就是拉丁美洲小说中的“独裁叙述”。不难看出，莫莱蒂对FIS全球演化史的描摹，是将各民族文学中叙述形态的变异放在历史变迁中来比较和纵观，尽管不无见识，而且也做了某种文化人类学的修正，但总体上还是依附于物种演化理论。对莫莱蒂来说，由于文化“分化”和“会聚”作用同时存在，任何两种叙述技术，不管它们多么接近，都如同两片叶子无法真正长成一体一样，“引语”技术永远无法和“对话”手法真正接合，所以其“世界历史”只能表现为一棵在各种“极化”空间中左冲右突的生长演化树。需要强调的是，与莫莱蒂的世界文学体系同源，这里提供的同样也是个可能性的空间，但不会随机地生成无所不在的“文化杂种”，这是一个遵循一系列确定性的内在规则的世界文学生态体系。这一个案的新意恐怕还在于，通过这种可资讲述的可视化手段，研究者若将决定了FIS边界的重要形式特征和其他要素（如人称、视角、口头/书面语域）综合起来，便可以把它在历史时空中不断演变的形式“模型”初步勾勒出来。遗憾的是，这个模型并不具备量化基础，也明显缺少更细致的描述维度。某些重要维度，像所谓“主”“客”之分，“反映”与“非反映”等，莫莱蒂已模糊地提出来了，然而在真正的数据分析中，却是要经过繁复的计算工作自下而上地把它们“发现”出来的。莫莱蒂本人显然无法做到这一点，只能凭借其丰富而专业的长篇小说研阅经验，像在《现代欧洲文学》中一样粗糙地设想其大概结构。此外最致命的是，这一模型中的重要“极值”点依然由二十世纪小说史上几个经典作家来担当，这本也无可厚非，因为很可能经过纯粹的经验研究后，计算出的离群值正是这几个对象，但这毕竟还需要得到更大范围内样本数据的验证，否则“演化树”便无异于莫莱蒂个人的创造物，而这便消解了此举的意义。可以说，这种并未建立在全面语料之上的“远读”还是以忽视玛格丽特·科恩（Margaret Cohen）所说的“伟大的未读”（Great Unread）为代价，某种程度上仍与其初衷背道而驰，使得莫莱蒂不过是再次借用生物学模型来阐发己见，此种个人化的独立探索将永远止步于对模型的“描述”，而非真正地开始“建构模型”。这一点已被后来者不无犀利地指出，也为莫莱蒂本人所承认。如今再对《图表，地图，树图：文学史的抽象模型》这个小册子的写作进行回顾，自然可以看出它充满了朴素探索意味的初级性。实际上，包括2013年编辑出版的《远读》中的全部论文在内，读起来都有一种尽力说服读者的味道，其作用更像是在别开生面地介绍一种全新的文学研究方式，这本身还是不自信和犹疑的表现，也意味着探索者自己还处在演化理论和世界-体系理论之影响的巨大阴影中。莫莱蒂在后来果然一步步远离、抛弃了生物演化论和体系论，显示出其志并不在此，而是朝向了更加开阔的量化社会形式主义和计算批评前进。

二、文学实验室时期的尝试与“计算批评”

“数字人文”并非由莫莱蒂提出，而是2005年写作《世界体系分析、演化论、“世界文学”》时的作者必须直面的形势和亟待采纳的手段。直到这一年受邀去华勒斯坦（Immanuel Wallerstein）任主任的布罗代尔研究中心发表这一关于“世界文学”的演讲时，莫莱蒂才开始考虑如何能够真正地将演化论和世界体系，这两个受到诸多经验证据支持的宏大理论整合一体。在2013年结集出版的《远读》中，作者以一种回顾性的视角将此文的开头调整为：尽管“世界文学”的术语产生已经伴随我们近两个世纪，我们却仍然还没有关于世界文学这个对象的某种真正的理论——而仅仅是随意地界定它的内涵。我们没有一系列的概念，没有理论假设能够组织起构成世界文学的海量数据。我们并不知道什么是世界文学。这篇论文并不能填补这个空白。但是它将两种时常使我着迷的理论相对照，为世界文学勾勒出一个极好的模型。这就是演化论理论和世界体系的分析。时隔多年，此文的口径与写作《猜想》时已显出差别，从中不难感到，作者之所以坦诚自己还无力将模型真正建立在关于世界文学的巨量“数据”之上，而只是“为世界文学勾勒出一个极好的模型”，或许是因为这个任务本身在现阶段很可能是虚妄的，此外，这种无力感还来自于某种更深层的问题——事实上，也正是在写这篇文章时，他尴尬地意识到了将演化论和自然科学的“概念模型”应用于文学史解释的天然缺陷，那就是人们其实很难在生物演化理论中找到“社会冲突”的真正对等物，亦即有机体之间的物种竞争，或者说弱者和强者间无论再怎么冲突，也无法改变整个生态体系的结构特征，而这将是任何一种社会文化理论无法容忍的（Distant：121-122）。

（《远读》，图片源自网络）

今天再来审视“莫莱蒂道路”，已经能够清晰地看到这种关键性转折，然而演化论和世界体系理论的重要性之所以将在他日后的实践中减弱，并不仅仅由于理论自身暴露出了弱点，也不是因为世界文学难题让人一筹莫展。决定性原因还在于此类研究中日益增长的对量化手段本身的需求。这种需求终于导致一个独立的文学实验室（Literary Lab）于2010年在斯坦福大学创立。若干年后，莫莱蒂甚至说，情况并非是有了与这两种理论相悖的量化数据，而是数据本身提供了完全属于另外一种类型的经验证据，这让他感到措手不及。今天看来，这便是指从原先依靠于自然科学的认知隐喻来解释数据、勾勒“概念模型”，变作了由社会科学和人文科学自身提供的“另一种数据”来驱动研究。由此，在“闭门造车”地自行摸索了十多年后，“远读”研究彻底汇入“数字人文”，进入了数字人文时期。这一迫切性让莫莱蒂把曾经以“世界文学猜想”为代表的理论架构的冲动和热情暂时抛之脑后，走上了自下而上的量化实践的道路。在后来的莫莱蒂看来，慢慢浮现在眼前的精彩世界，就是由文学档案和文学文献提供的总体理论世界，这是一个崭新的实证领域，也会是演化理论和历史唯物主义再次相遇的地方（Distant：122）。转型后的莫莱蒂很快意识到，计算的办法的确改变了传统人文学的方法和策略，但数据是无言的，数量再大的数据和档案也不会自己说明问题，所以使用量化手段的前提是研究者必须提出正确的问题；其次，真正的提问必须要将批评意识转化为可操作的程序。这一点至关重要，也是莫莱蒂主导文学实验室时所提倡的“计算批评”（computational criticism）的出发点，不过现在看来，可以说实现得并不理想。例如，从世界文学和比较形态学的角度出发，莫莱蒂在编著百科全书式小说理论集《小说》（Romanzo）时，曾萌生了对中国古代散体长篇小说的强烈兴趣。他发现了中国小说迥异于西方小说的形式结构，认为中国古典长篇小说提供了另外一条道路，几乎找不到任何一种历史实例可以像中国小说这样，对西方既有的视野和学说构成挑战，让他可以名正言顺地抵抗欧洲长篇小说理论中的“现实主义霸权”。然而，认识归认识，这一本来可以触及中西文化构型之核心的关键问题，却并没有得到切实可行的验证，除了在《小说：历史与理论》（“The Novel: History and Theory”）中对中国小说的历史下过些似是而非的判断（即便是这些判断也大多建立在汉学家的二手研究之上，且正在不断受到挑战），真正涉及“可操作化”的部分，仅体现在《远读》结尾的一篇《网络理论，情节分析》（“Network Theory, Plot Analysis”）中——后又成为斯坦福实验室小册子的开篇之作。在这篇报告中，中国古典章回体小说体量庞大、人物成百上千的特点激发了莫莱蒂的浓厚兴趣，从而得出中国小说“人际关系网”在文本中存在的重要意义。在此想法的基础上，他曾尝试绘制《红楼梦》各章回人物关系的网络简图，再由此对比中西小说在结构对称性方面的巨大差异。但可惜的是，莫莱蒂的工作也仅止步于此，这一大有文章可做的数字人文方向并没能得到应有的拓展。也许此时莫莱蒂迈出的有关键意义的一步，是将统计和计算作为必不可少的步骤整合进论证的过程中。正如在发表于实验室成立前夕的《风格公司：对1740至1850年间七千本英国小说标题的反思》（“Style, Inc: Reflections 7000 Titles ［British Novels, 1740—1850］”，以下简称《风格公司》）中，莫莱蒂不仅跨进文学档案的广袤世界，先后采用平均数、中位数、标准差等常见的统计学指标，对1740至1850年间七千本英国小说的标题长度、形态分布和内容进行了测量和统计分析，而且，这些分析的基本变量再也不是《猜想》中难以界定和量化的批评性体验，而是相对容易操作的语言学研究对象：词汇、词语单元和语义。它们无疑为莫莱蒂向往已久的实证研究奠定了基础。在这一研究中，莫莱蒂首次与马修·乔克斯、塞姆·鲍尔斯（Sam Bowles）、大卫·布鲁尔（David Brewer）、鲍勃·福尔肯福利克（Bob Folkenflik）等后来的文学实验室主力成员合作，建立起相关的语料库。为了发现有价值的问题，形成有意义的解释，莫莱蒂不断变换统计量，寻找更恰当的计算方法，还引入图书出版流通数据，比照市场的扩张程度，对小说标题和文学场生态的关系进行深入探讨。在第二部分中，他不仅展示了标题语义结构的分布，也将“文类”这一他本人最关心的问题作为元数据量容纳进来，发现了百余年间各类最受欢迎的小说标题的语法结构，接通了所谓“计算文体学”（computational stylistics）的领域。可以说，统计算法的变换不可谓不繁多，真的是多角度立体地“远读”了作为文学史演化标本的小说标题形式。然而，即便如此，在后来的苏真（Richard Jean So）等人看来，此时的莫莱蒂却仍停留在对各种语料库的统计分析进行“描述”的阶段，其实并没能对其语料数据展开准确而复杂的“建模”。苏真的批评不无道理，在《所有模型都是错误的》一文中，苏真亲自教给人们，如何运用回归分析，让《风格公司》中的研究更上层楼，更具有正当性。莫莱蒂不厌其烦地解释每一种数据结果，试图发现它们的问题所在，凭借的都是他良好的直觉。但这项工作可以更系统一些，可以依靠统计检验来发现随机抽样的误差，再选取更好的模型，依此循序渐进，不断地贴近“现实”本身。因此，在这一过程中，重要的并非论证模型对错与否以及为什么对，而是要追问某种统计推断为何错了。简单化的数据和图表呈现，让莫莱蒂的工作变得非常普通，也缺乏足够的说服力。必须恢复统计学模型的“自反性”，让它们真正成为研究中推理、分析诸环节的有机组成部分。因而，能否坦然接受错误，从错误、误差甚至是不合理想的结果入手，去发现最初的那道阐释学的裂缝，就成为量化的文学批评能够开展的关键，这一点对整个基于统计的数字人文也至关重要。

（苏真，图片源自网络）

事实上，这种量化的文学批评，或称“计算批评”（computational criticism）、 “算法批评”（algorithm critics）的统计学基础正是苏真所说的模型检验，这一做法的本质是人和算法的互动，一种强调人的意识和机器逻辑进行对话、交锋的文学批评。其具体路径在数字人文的文化分析学中经常体现为：形成一些松散的猜想→大规模的文献挖掘（所谓“远读”）→找出离群值→通过回归细读来精准定位→提出随意阅读难以发现的问题——又或者，继续在细读、远读间回返，不断精确模型，无限逼近想要再现的问题。从这一意义上讲，统计学既是表征世界的方式，也是研究人员用于推理和分析的工具，当然还可以发展成为一种文学批评的利器。更进一步说，统计分析是当我们有了数据并且通过远读发现了事物间的关联、形成假设后，用于检测这种假设的合理性工具。在计算批评中，这一过程应该体现为一种手术刀式的精湛技艺，而绝非凭借某种粗糙的经验观察或是大刀阔斧地施以“数字技术”就可以完成的。在这一点上，前实验室时期的莫莱蒂显然做得还不够。也许正是由于对统计学的理解还有一定偏差，在莫莱蒂的认识中，计算批评更是与“编码智慧”联系在一起的。他在不同场合反复提到，同行们在运用计算机语言编写程序脚本的过程中体现出一种极富直觉性的魅力和智慧：这种智慧体现在脚本编写上，但在编写脚本的过程中，某个概念也会逐渐成形。虽然这个概念往往不会以概念的形式呈现，但是你能够看到它就隐藏在编写的脚本里［……］未来诸多最具价值的成果实际上都会由脚本产生。这些脚本一半是脚本程序，一半是文化、文学、历史概念。因此，我认为开展数字人文研究项目的高校，不管这些项目是大是小，都应该确保每个人都有机会获得这种智慧。正如实验室的年轻骨干们对1785至1900年间英国小说语言变迁模式所做的研究，最后全部结晶出的新质便是一种“脚本概念”：由他们发明的“相关器”（correlator），以词频为单位，用来寻找在某一历史阶段，与给定的“种子词”最相关的词丛，再从这些关键词丛入手，衡量和解释十九世纪小说社会文化空间转变的基本轨迹，是谓雷蒙·威廉斯“关键词法”的量化拓展版本。这一崭新的计算批评的概念是经算法和文学批评视野的叠加创造出来的，是算法和批评的中介。在这一过程中，算法甚至解放了原先限制在文学史视域中的批评潜能。不难想到，莫莱蒂这样做是为了将“算法”合理划入文学批评的范畴，是想通过批评概念的建构来进一步确立算法的合法地位，以此来更好地利用算法，获得计算和文学研究高度融合的方法论前提。然而，也许这在苏真等人看来还是不够，因为只有走到下一步，在一个由研究者发动的批评性环节中，主体通过与自身文学研究经验的比对，完成了对算法的质疑、检验和融通，才算是真正达成了与机器的互动。在当时的莫莱蒂和后来的文化分析学之间之所以会有这种细微的差别，究其根底，还是由莫莱蒂对数字人文“可操作性”的绝对强调决定的，也是他早年深受实验物理学的影响使然。在此，我们也可以再次确认莫莱蒂多年来一贯坚持的一种倾向，即反对以单一的文学批评或语料库研究来介入社会批评，这种保守性使得他的研究很可能自然地缺少了艾伦·刘（Alan Liu）所提倡的在一个批判性的整体框架下运用工具的意识。但诚如苏真同时注意到的，实验室成立后的数字人文研究也正在努力改变这种面貌，逐渐显示出对试错性试验的强烈兴趣，而这才是远读精神最可宝贵之处。这一取向，如果以文学实验室成立后的第一个大型团队成果“文体/风格研究三步曲”中的“句子尺度上的文体风格”项目为例是可以看清的。这个实验利用标注过的查德威克-希利（Chadwyck-Healey）十九世纪小说数据库里的二百五十部英国小说做语料来源，试图分析文体风格是如何从句子尺度上浮现出来的。以其中的“叙事性句子”为重心，实验室给计算机操作程序的要求是：发现句子的哪种成分会随着句法的选择变化而变化，随后机器发现了一些存在于句法与叙事、句法与语义之间的显著关系模式。实验重复了这个过程，先后利用“最特别的词”（most distinctive words）和语义向量（semantic vectors）等常用技术，再结合主成分分析法（PCA），在不同的尺度上层层深入，继而得到越来越多的结果反馈，经过不断调整测量方法、设计新的程序，生成了新的概念循环。正是在这种问题意识和测量程序的交互碰撞中，他们逐步获得了建立在概率基础上关于风格的“新”定义。这种可操作性的概念生成方式当然是以固有的文体/风格论为前提的，但在莫莱蒂看来，他们却绝非要仅仅发展一种新的风格概念，也正是在这一点上，他们和传统语文学家、文体学家斯皮策（Leo Spitzer）、奥尔巴赫（Erich Auerbach）等人形成了区别：后者的论述固然更丰富，但在他们的理论中，不同的风格组成要素只是单纯的相加，或者总是以一些微小的差别来不断重申一个总体观点——这完全谈不上真正的“主客交互”，更不要说在这个过程中让总体性自然浮现出来了。莫莱蒂认为，正是这个互动的过程，为人文学阐释提供了契机。也就是说，尽管机器提供了结果，但这只是一半，机器所无法做到的，是如何去解释新的发现——它无论如何无法在多样化的语义选择和更广阔的社会文化背景之间建立起有意义的联系。所以，在人机交互的实验发现和文学解释相遇时，计算批评诞生了。

（弗兰克·莫莱蒂，图片源自网络）

最后，通过对从句组合方式、动词和语态的统计分布检测，将所有看似“不相干”的因素重新放到一起来考虑，莫莱蒂团队把文体风格在句子层面的定义重新描述为：“当句法-语义成分以超乎预料的方式凝缩为一个句子，并且这个过程被作者不断地重复时——风格就产生了。”这既是对作为惯例的文体范型的“偏离”，同时，在一个作者身上又是大概率重复发生的现象，因而形成了某种可能性模式，某种概率模式。在这个意义上，作为最小语义单元的句子，就成为探测和度量文体风格的“实验室”。值得一提的是，这个可能性的模式和莫莱蒂当年对“世界文学”的概念创新一脉相承，其本质同样建立在一套可操作的测量程序和概率论的基础上。只不过，世界文学的概念模型是通过想象、设想甚至是“猜想”提出来的，就莫莱蒂的有限经验来看，并不具备可验证性；而如今“句子层面上的风格”，则是实实在在地由操作程序的反复“证伪”和迂回式锚定来实现的。也可以说，从《猜想》到《句子尺度的风格》，初步具备了实证性、可操作化、问题性，乃至一点点“生产性”的“远读”研究终于“落地”了，蜕变为数字人文范式中的计算文学研究。

（原文载《外国文学动态研究》2020年第3期“理论前沿”专栏，由于篇幅有限，省略了原文中的脚注。）

责编：艾萌校对：袁瓦夏

排版：培育终审：时安

点击封面，一键订购

往期阅读

《外国文学动态研究》2020年第1期

《外国文学动态研究》2020年第2期

《外国文学动态研究》2020年第3期

扫码关注我们

《外国文学动态研究》

投稿邮箱

wgwxdt@aliyun.com

社科期刊网

扫码关注我们点击“阅读原文”，购买新刊

震撼！上海开放Google、Meta等国际平台，中国数字化迈出历史性一步！

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

Dior变色唇膏59元两只限量抢！一抹玻璃唇，秒变时尚girl！

林志玲终于晒娃，3岁儿子也太帅气了！网友：有孩子的，都来学学

理论前沿 | 数字时代的“世界文学”研究：从概念模型到计算批评

您可能也对以下帖子感兴趣

震撼！上海开放Google、Meta等国际平台，中国数字化迈出历史性一步！

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

Dior变色唇膏59元两只限量抢！一抹玻璃唇，秒变时尚girl！

林志玲终于晒娃，3岁儿子也太帅气了！网友：有孩子的，都来学学

生成图片，分享到微信朋友圈

理论前沿 | 数字时代的“世界文学”研究：从概念模型到计算批评

您可能也对以下帖子感兴趣