对撞机 | 以计算的方法反对计算文学研究
作者简介
笪难章(Nan Z. Da),美国圣母大学英语系教授,研究方向为批评理论、19世纪美国文学和文学史、中国文学和文学史、书籍和阅读理论。著作《不可传递的相遇:中美文学与交流的限制》(Intransitive Encounter: Sino-U.S. Literatures and the Limits of Exchange)2018年由哥伦比亚大学出版社出版。
译者简介
汪 蘅,毕业于北京大学英文系,现为自由译者。
摘要
本文以基本统计原则从实证层面讨论计算文学研究中的14篇学术作品,讨论其中所涉及的数据的性质以及导致研究结果的统计工具,指出这其中一系列的技术问题、逻辑谬误和概念缺陷。文章将所选择的计算文学研究分为两种类型:一种是统计方法严谨,然而并没有提出和解决有意义的学术问题;一种是看似解决了有意义的学术问题,然而或者统计方法并不严谨,或者并没有必要使用统计学和其他机器学习工具。本文通过探讨这些文章所使用的数据以及所使用的计算方法,试图去神秘化计算工具在文学语料库上的应用,重提文学语言修辞和阐释的复杂性。本文得出的结论是:计算文学批评的方法论和理论前提并不适用于分析文学、文学史和语言学的复杂性。
引论
本文意在从实证层面找出一个日益流行的文学研究分支的一系列技术问题、逻辑谬误和概念缺陷,该分支有各种名称:文化分析学、文学数据挖掘、定量形式主义、文学文本挖掘、计算文本分析、计算批评、算法文学研究、文学研究的社会计算、计算文学研究(computational literary studies(缩略为CLS—译者注), 我在文中使用"计算文学研究"这个说法。简单说从现状看,计算文学分析的问题在于有力的方面很明显(实证意义上)、不明显的方面并不有力,考虑到文学数据的本质和统计调查的性质,这一情况不易克服。在统计工具和工具应用的对象之间存在根本性搭配失当。
数字人文这个研究领域包含诸多多样化主题:媒体史和早期计算实践史,为开放获取而做的文本数字化、数字记入和媒介、计算语言学和词汇学、数据挖掘技术论文;它不是我批判的对象。我具体针对的是在大规模(或通常不那么大的规模)语料库上运行电脑程序,产出定量结果,再绘图、制表、测试,得到统计显著性并用来提出关于文学或文学史的主张,或者设计新工具、用来研究形式、风格、内容和语境。计算文学研究(CLS)另一个恰当定义是对文本挖掘中发现的模式的统计学表达,适用于现存关于文学、文学史和文本生产的知识,以便缩小安德鲁·派博在其宣言《要有数字》里所说的"证据缺口"。① CLS 声称文学批评家不会再仅凭少量文本就提出关于文学史完整时期的未经证实的主张,也不会忽略大批文学生产—CLS(派博说)能向我们展现新事物,让我们诚实,办法是给我们一种用实证证据支持各种主张的方法,或者利用上述证据去挑战和文学史有关的各种传统智慧(比如关于风格、体裁、历史分期等等的主张)。
①Andrew Piper, "There Will be Numbers," Journal of Cultural Analytics, 23 May 2016, culturalanalytics.org/2016/05/there-will-be-numbers/
文学学者不太有办法查验CLS的工作,有时是因为获取有问题。还有些学科环境使得对CLS 的批判难以增加,例如网络文学社会学的主流化、把形式和形式主义的意义在语义上简化为可追踪单元,以及对于可追踪事物形成的各种模式的研究。CLS还采取了一种研究批评性贡献的方法,以节制、补充或逐步升级为特征,将挫折重构为一种必要性,以便调整方法论、产生更多检验。因此,尽管派博评论道:"迄今已经写出大量论战文章支持或反对用数据研究文学、文化、媒体和历史,再提出一种基本原理看起来非常不必要了" ,他又说,"确定无疑的是需要更多研究—研究到底为何、为何是现在,文化的计算研究是必要的。”② CLS声称要生产探索性工具,就算是错误的工具也是内在有价值的,因为探索就是内在有价值的。错误归类变成关注对象、误差变成理论、异常值变为审美和哲学探索,而这一切都值得付出更多资金和更多出版。这种战略上的逐步升级已经使得有些最直言不讳的评论家让自己的论辩温和起来,—毕竟,谁不想显得合理、前瞻、开明?
②Piper, "There Will Be Numbers."
现在已有对CLS的评论文章—值得注意的有提摩太·布伦南的《数字人文的破产》、丹尼尔·阿灵顿(Danielle Allington)、莎拉·布洛莱特和大卫·格伦比亚的《新自由主义工具(和档案):数字文人的政治史》,③ 对DH的政治和哲学批判已经对我们理解该分支领域的制度和意识形态基础做出重要贡献,但它们要么相信CLS说到做到、确实做了它号称要做的事,要么就忽视了CLS论点的武断。的确,同他们的贡献和真正需要的计算能力(除了大规模数字研究计划)相比,数据挖掘文本实验室获得了不成比例的制度资源。只需要一台笔记本电脑就能在这儿再现几乎所有的工作,单单一部智能手机就能提供计算能力,这又回到这个问题:我们为什么需要"实验室"、或CLS何以敛到高得离谱的资金。不过,由于CLS处理文本分析的方式,它能用类似的数据挖掘方法支持非常不同的立场,也已给出理由,认为自己可以提供新方式、捕捉不平等,并"阅读"出于获取或审美和价值判断的理由被正典遗留在外的语料库。
③参见Timothy Brennan, "The Digital-Humanities Bust," The Chronicle of Higher Education, 15 Oct. 2017, www.chronicle.com/article/The-Digital-Humanities-Bust/241424, 及 Danielle Allington, Sarah Brouillette, and David Golumbia, "Neoliberal Tools (and Archives): A Political History of Digital Humanities," Los Angeles Review of Books, 1 May 2016, lareviewofbooks.org/article/neoliberal-tools-archives-political-history-digital-humanities/.
本文并不主张"数字是新自由主义的、不道德的、不可避免要主张客观性、目标是从文学研究中清除所有细读、不能表现时间、会导致'文化权威'的遗失",也不认为"数字不可避免(摧毁时间/将阅读简化为视觉化/排除主观性/填补空白)"。④ 也不会有任何关于"数据和数据科学霸权"或者数据本身的客观性不稳定性的说法。⑤ 已经有人周到而雄辩地这么做了。认为人类和文学现象不可简化为数字、文学批评中好的阐释和风格和科学一样客观,这是个人信念,不会进入这一批评。我们能用非意识形态的推理看到,就目前情况而言CLS几乎没有还什么未被其实际操作抵消掉的解释力。
④Ted Underwood, "It Looks Like You're Writing an Argument against Data in Literary Study . . . ," The Stone and the Shell, 21 Sept. 2017, tedunderwood.com/2017/09/21/it-look"-like-youre-writing-an-argument-against-data
⑤Piper, "Why are Non-Data Driven Representations of Data-Driven Research in the Humanities So Bad?" .TXTLAB, 17 Sept. 2017, txtlab.org/2017/09/why-are-non-data-driven -representations-of-data-driven-research-in-the-humanities-so-bad/.
我讨论的是CLS的少数几个论点(选择的原因是其显著的布局、有代表性、作者愿意分享数据和脚本或至少其中一部分)。我选择的每一篇论文都有文学、历史或文化批评角度的概念缺陷,但这里我选它们完全因其自身情况--他们的样本(经常是唯一来自外人的争执点)、检验、代码、和真理宣称。我利用基本统计原则讨论这些例证,也会讨论文本挖掘的已知使用和应用,以及在哪些情况中,文本定量分析和信息的简化再配置会有用。我解释真正应用的简单方式对不住它们无边的复杂性(多半是由于我自己的局限),但我相信这些方式仍能捕捉这些应用的正当功能及局限。数字人文领域的批评家已经为他们的方法提供了配套的解释,但一般而言却因为他们让入门标准显得很低或为了让受众能跟上,引发更多人进入这个分支。我相信,用直观而有效的方式重新介绍这些方法论,就可以开始理解驱动它们的逻辑并更好地评价CLS的效用,识别对工具和方法的次优使用案例、或使用原因并非预先可见的事例。本文并不试图处理CLS工作中所有的错误和疏忽。执行中的疏忽;缺乏鲁棒性(robustness)、精度和召回率;不够理想的测量在数据挖掘中很常见。因此,虽然我仔细查看了技术议题,但对CLS的反对不会建立在技术细节上,一个人也无法承担这么多工作,要搜寻不完整的数据工作、调试损坏的脚本。对CLS实际从事的计算工作的清晰解释足以构成对我们其他人的刺激,让我们理解哪些环境中这种错误可容许、哪些不行。我的批判实质非常简单:我研究的论文分为无结果论文--数据上毫无结果可展示的论文--和的确产生了结果但结果错误的论文。我讨论的是数据的性质以及导致这些结果的统计工具。
CLS论文组织方式基本一样,以词语计数(即一元、二元、n元语法,一元语法的定义是两个空格隔开的事物)为基础探寻各种模式,做出六种论断中的一种:(1)某事物的相关性;(2)较大主体中某事物较多或较少;(3)某事物对其他事物的影响力大小;(4)某事物被分类的能力;(5)体裁是否一致或混杂;(6)某事物如何变化或不变。后面会很清楚,所有这六种基本是同一论证,相关性、影响力、关联性、连通性、体裁一致和历时变化,全都由同样的事物代表,也就是对重叠词汇的基础测量和统计表现--这些词是所有词汇中的很小一部分,因为必须有许多拣选,才有可能有任何统计学的可操作性。高维数的数据集用不同形式的数量缩减解压缩(往往通过单词矢量化),其结果用统计软件绘制成图标、图形和映射图。最后,这个模型(一种新推导出的工具,用于测量文学模式或辨别文学模式)用样本内或子样本检验。而论证本身往往是对数据挖掘结果的描述。最严格概念意义上的定量分析在这项工作中时常缺席。通常也缺席的还有用统计工具做假设检验并试着表现因果关系(或至少表现特异关联)、以及通过基本文学理论原则对上述因果关系/关联性加以解释。
不论统计转化多炫目,CLS论文的论据建立在x单词或语法出现的次数上。CLS对数据的处理和视觉化不是本身意义上的阐释和解读。如果相信它,那就是误以为基础数据工作就是文学阐释本身,而这项数据工作也许会、也许不会导向好的阐释和任何数据工作中都必须做的阐释性选择(也可能根本没有数据工作)。CLS数据工作中要决定哪些词语或标点要计数、如何表现这些计数。就这些。CLS研究的连续字(一元语法)的最高数字是3(三元语法)。马克·阿尔吉-休伊特查看了二元语法的概率(一个词语后面跟着另一个特定词的可能性),以计算语料库"熵",这只是换一个说法表达"两个同时出现的词语"(回头我会再讲到这篇文章)。让-巴蒂斯特·米歇尔和其他人的《用数百万本数字书做文化定量分析》追踪五元语法(一连串5个一元语法),但结果是为了词典学以及追踪大规模语法转移,不是为了文学史或文学批评。罗伯托·弗朗佐西号称用三元语法标记找到了"叙事事件"。⑥ 虽然这在领域内已经过时,但他是我知道的唯一尝试超越基础词频给自然语言处理加标记的案例。然而,"叙事事件"只是三元语法长度的主语+动词+宾语次序,而对 "时间"和"空间"的解释不过是已知的计时器和地理位置(从一个由文学角度缩减而来的编码角度来看,这极其困难)。⑦ 尽管存在相反的说法,但CLS无法超越三个词去研究任何像情节这种问题。这不只是让新生领域成熟的问题(文学语料库分析已经存在半个世纪左右),而且与其对象太少又太复杂有关。建议像克劳德·列维-斯特劳斯(Claude Lévi-Strauss)尝试用方程fx(a) : fy(b) ≅ fx(b) : f(a − 1)(y)界定神话结构那样,从早期实验性结构主义来定量文学,则完全不可操作,因为这些模式太过困难和抽象,无法编码并界定太少的文本,无法让机器学习成功地编码哪怕少量文本中的一个此种现象。⑧ 因此,CLS中出现的一切--网络分析、数字绘图、线性和非线性回归、主题模型、拓扑学、熵--都不过是以更炫的方式谈论词频变化。分析CLS的错误就能澄清为什么尽管20世纪70年代起就存在不同的语义学和句法学标记方法, CLS还往往坚持数字数,并在更加有限的意义上被迫通过调整终止字才找到许多显著性。
⑥Franzosi, Quantitative Narrative Analysis (Los Angeles, 2010), p. 5.
⑦这包括意大利党派出版物中关于罢工的5万篇文章或佐治亚州55年间关于私刑的的新闻 (1875-1930). Franzosi训练了一套SQL去查询从那些并不自动照此排序、但又距此排序不远的语言中找到正确的主语+动词+宾语;见Franzosi, Gianluca De Fazio, and Stefania Vicari, "Ways of Measuring Agency: An Application of Quantitative Narrative Analysis to Lynchings in Georgia (1875-1930)," Sociological Methodology 42 (Nov. 2012): 42.
⑧这个公式规定了因子a的函数x和因子b的函数y之间的数学比例(analogy),而且当因子颠倒(a的函数x变为b的函数x)时、以及二者中有一个的函数和项值颠倒时也成立。这个公式来自Claude Lévi-Strauss, "The Structural Study of Myth," Journal of American Folklore 68 (Oct.-Dec. 1955): 442.
统计结果并不等同于研究结果
我研究的CLS论文分为两类。第一类将统计上无结果的结果展示为一种研究结果;第二类论文得出的结论来自错误的研究结果。
我最早看的一篇文章展现了不是结果的结果,使用的测量方式太弱,无法捕捉确定的差异,这篇文章也能帮我们看到通过词频测量所谓同源性、重复性或自我相似性的问题所在。泰德·安德伍德的《体裁的生命周期》试图考察体裁是否随时间变化,他仅以词语同质性为基础,将侦探小说体裁做成模型,检验模型精确性靠的是看它能否以区分A(1941年前的侦探小说)和C(随机混杂的作品)的同样方式来区分B(1941年后的侦探小说)和C。⑨ 安德伍德将A同B相比,声称150年来侦探小说比文学学者宣称的要更一致。安德伍德想要主张,体裁并不随着每一代而变化,它们不只是在20世纪才巩固--其他人、也就是弗朗哥·莫雷蒂也这么说过--而是从19世纪20年代直到如今都多少保持一致。问题是,他的模型对他的目标毫无助益。安德伍德应该在1941年前的侦探小说(A)上训练他的模型,和1941年前的"乱炖"("random stew")相比较,再在1941年后的侦探小说(B)上训练,和1941年后的"乱炖"相比较,而不是在两组作品上用同一批"乱炖"作品,要这样去排除下述可能性:A和B之间的差异不足以说明一种较大趋势(既然所有文学都可能在1941年后发生了变化)。安德伍德用词频同质性将侦探小说和随机小说区分开,他在这其中显示的一切就是1941年前和1941年后侦探小说间的差异没有侦探小说和其他随机小说之间的差异那么大。这不是说同样的方法能捕捉不同侦探小说类型之间的差异。毕竟,统计学自动假定95%的时间里都没有差异,只有5%的时间里存在差异。寻找低于0.05的P值就是这个意思。可以这么想:如果每个人都同意有些事情在发生变化--甚至安德伍德也让步说体裁有进化--但是你设计的一种方式得到结论说并没有,这并不一定意味着你发现了点什么。这仅仅意味着你的测量工具可能太弱--你的方法可能太无力--无法捕捉到此种变化。
⑨Underwood, "The Life Cycle of Genres," Journal of Cultural Analytics, 23 May 2016,culturalanalytics.org/2016/05/the-life-cycles-of-genres/
用数据挖掘把自然发生的统计意义呈现为研究结果,这个问题在马修·乔科斯和嘉比·基里洛夫的论文《理解19世纪小说中的性别和角色能动性》里也能看到,该论文声称特定动词和数据集里的性别代词(他,她)高度相关。⑩ (性别是CLS里受青睐的解析,很可能是因为这是少数能提出清晰的二阶分类的内容--分为男性/女性。)这些作者们用语法分析程序在其数据中找到准确的代词-动词对,建了分类器,为给定的动词预测正确性别,号称81%准确率(比纯随机水平提高了30%)。他们找到了50个和男性最相关的动词和50个和女性最相关的动词,每组中有10个词是"机器发现在区分男性和女性代词时最有用的"("UG")。抛开依存句法分析和OCR辨识中流行的错误以及缺乏对否定联系的解释(当一个人不做某事时),有些结果显而易见;有些则不是。作者自己承认,这会构成一种落后的性别观念(二元的;女人哭泣/weep,男人拿取/take),但我将这留给别人讨论。
⑩参见Matthew Jockers and Gabi Kirilloff, "Understanding Gender and Character Agency in the Nineteenth-Century Novel," (《理解19世纪小说的性别和角色能动性》)Journal of Cultural Analytics, 1 Dec. 2016, culturalanalytics.org/2016/12/understanding- gender-and-character-agency-in-the-19th-century-novel/; 因此缩写为 "UG"(理解性别)。
首先,总是有前5个、前10个、前50个、前100个统计显著的代词-动词对。这就是找出所有代词-动词对、按关联度排列、根据个人选择截断排列的一个功能。在好的统计工作里,要显示自然发生的双重差分,负担极高。我们这么说,你用标准5%置信度在测量两组数据的特征重叠;n个可能的共同特征里,0.05n自动就是显著的。随便找点东西做数据挖掘,总会找到显著关联。他们所称的"19世纪角色性别和动词间存在强相关"是自然成立的,因为根据他们给关联下的定义,可以就任何世纪任何一组文学做出这一断言("UG")。这篇论文没有执行自助法,也就是说遵循这一体裁分类的文学史意见站不住。但我们就算它们站得住。只用找出每个性别的前10个动词--这个方法简单得多--在几乎相同的语料库上的代词-动词相关的单回归--每个动词的男性百分比在女性百分比上回归--就能产生同等结果。使用同等的语法分析程序做善意重复得到不同的结果。⑪ 那么,这里的附加值在哪里?实际代词类别是女性时,他们的样本内模型有22%差错率,实际类别为男性时,16%。作者解释高差错率时说,动词的性别化在用于女性时也许较不稳定--但你不能将预测的漏洞变成论点,除非你能证明你的预测的模糊性不是因为你的测量结果不够有力。为了将测量结果重塑为对小说体裁性别刚性的测量、从而增加扩展贡献,乔科斯和基里洛夫又说,他们的模型在为他们的6本成长小说、4本银汤匙小说和3本历史小说做正确性别分类时有58%、63%和67%的准确率。33本哥特小说有80%准确率;6本工业小说和2本纽盖特小说有100%准确率。这没有统计上的严谨,别介意,我们谈的是一批数量很小的书籍。不管你起步时的样本规模如何,你总是可以把它截断,让你能得到某方面的100%准确率。在纯属偶然的情况下准确率也会变动;这不意味着存在系统性变化或者在性别和模型的性别预测能力之间存在真正的模式。
⑪参见在线Appendix第1部分(section 1):https://www.journals.uchicago.edu/doi/suppl/10.1086/702594/suppl_file/2018054Appendix.pdf。
由于处理数据的方式问题,CLS可以做出统计上不提供信息的宏观历史断言。看看这个图,"3000本小说网络",描述了基于词汇的相似性,马修·乔科斯说这个图揭示了一段时间以来3000本小说的某些方面(图1)。⑫ 这个网络地图中"书籍根据其计算出来的风格相似性和主题距离被聚拢(以及分开)",按乔科斯说,这个图"不一般",因为它遵循年代顺序(基于写作时间之上的群集),而"年代校准显示:主题和风格确实随时间发生了变化。作者采用的主题和用来搭建主题框架的高频功能词几乎、但不总是受限的。" ⑬ 换句话说,乔科斯说的是:由于浅色点和深色点之间有分离、因为它们并没有全都混作一团、因为这个网络视觉化自身并不显示出版年份,他就证明了较老的作品彼此更类似、更新的作品彼此更类似:它们反映自身的年代。尽管有样本差错,这个网络图还是表现了数据中的很小一部分。你从这3%里了解的事是同义重复的。
⑫参见Jockers, Macroanalysis: Digital Methods and Literary History (Urbana, Ill., 2013), p. 166.
⑬同上, pp. 164–65.
图1 《19世纪小说网络日期渲染》
马修·乔科斯,《宏观分析:数字方法和文学史》,p. 165.
乔科斯计算了书籍间的相似性(欧式距离),基于578项特征--500项是从LDA主题模型(见下文)中抽取的主题,其余是常用词和标点。LDA主题和常用词往往会随时间过去而群集,这些特征有内置的时间关联。如果你采用类似数据集(一百年来的文本),将绝对欧式距离(基于类似确定特征)回归到时间上的绝对距离上,就会看到超级显著的正相关。⑭ 这并不独特,也没有洞见;你已经机械地保证会捕捉到一种体裁的时间趋势--及历来讨论的内容加上语言进化。
⑭参见在线附录第2部分(section 2)涉及此相关性的内容:https://www.journals.uchicago.edu/doi/suppl/10.1086/702594/suppl_file/2018054Appendix.pdf。
只有词频统计并不能带来有意义的研究成果
计算文学批评容易跌入错误的过度断言或对统计结果的错误解释,因为它常将自己置于纯粹根据词频的位置上做出断言,而不考虑位置、句法、语境和语义。词频和对其差异的测量,不管是历时的还是作品之间的,都被要求做大量工作,代替截然不同的事物。
派博的论文《小说信仰:皈依阅读、计算建模及现代小说》很好地示范了这个问题。论文用一个从历史和解释学来说都太过具体的论断将词频差异和结构差异等同。《小说信仰》提出两个论断:第一,奥古斯丁《忏悔录》最后3卷和前10卷显著不同、而后3卷之间彼此也显著不同。⑮ 换句话说,从第10卷就开始感觉不同,而且越来越不同。派博将此归因于第10卷中的皈依体验--他认为这一体验造成了词汇输出的真正差异。他说,就是这一点让《忏悔录》和受其影响的书籍以可测量的方式对读者产生影响,也让这些书"信仰"。第二,派博称英语和德语小说的结构和奥古斯丁《忏悔录》一样;这个文本的后半部分和小说的前半部分非常不同,其内部各部分之间也越来越不同。前半部和后半部之间词频(每个单词)方面的变化量、以及后半部内部不同数据块之间的词频变化量,都通过半部间和半部内分值分别测量,也就是对文本1和文本2(直至文本n)之间词频差异的平方和的平方根的欧式测量。派博导出半部内分值和半部间分值、捕捉这一词频变化,并用多维缩放(MDS)将结果视觉化,本质上就是将20维的关系集简化为2个,这样才能视觉化(图2)。
⑮参见Piper, "Novel Devotions: Conversional Reading, Computational Modeling, and the Modern Novel," New Literary History 46 (Winter 2015): 63-98. (中文版参见安德鲁·派博:《小说信仰:皈依阅读、计算建模及现代小说》,陈先梅译,《山东社会科学》2016年第11期--译者注)
这一研究有多处错误。任何读过《忏悔录》的人都知道,最后3卷不同于前10卷是因为奥古斯丁在用了10卷写自传之后,转向了对《创世纪》的讨论,那当然会开始出现不一样的词汇。这和皈依没有任何内在联系。他的半部内和半部间分值不一定代表这种变化模式,不应被当作拥有此种"信仰"结构的小说的基准。⑯ 更技术性的问题:派博没有将拉丁语文本作词干(提取将词语转为动词和名词词根),尽管他为英语和德语文本做了词干提取。⑰ 他将拉丁语的同源变位动词和词尾变化的名词计为不同单词,但在英语里计为相同单词。一旦拉丁文本被提取词干、距离矩阵为变量按比例恰当缩放,我们就得到了不同于他的分值,他的结果不再成立。我用已提取词干的文本再现了派博的图,恰当地缩放过(图3)。在我的解读中,书的第1卷和第2卷没有和前半部中其它部分群集,第13卷和前半部距离也不远。
⑯在线附录第3部分可见其他作品和笔记的半部内和半部间的缩放数值样本:https://www.journals.uchicago.edu/doi/suppl/10.1086/702594/suppl_file/2018054Appendix.pdf。
⑰这些词干提取器(stemmers)打包在Python里。现在仅有的拉丁词干提取器是Schinke Stemmer (Python里没有C 代码);参见Martin Porter, "The Schnike Latin stemming algorithm," Snowball, snowball.tartarus.org/otherapps/schinke/intro.html
图2《奥古斯丁忏悔录的13卷》,摘自安德鲁·派博《小说信仰:皈依阅读、计算建模及现代小说》,《新文学史》46(2015年冬季刊):第72页。
很容易看到结构主义论证根本上和词频相关的问题:其中出现词频差异的各种文本和情境都和你希望它们展现的内容不匹配。派博无法阻止文本后半部在他不需要的地方在定量上不同于前半部分。要将词频变化定义为变化本身(而且是通过皈依的概念滑移)既是同义反复,又有风险。没有理由将此过程神秘化;随着更多概念引入文本,更多词随之而来。例如《出埃及记》的多维缩放就显示了这一点(图4)。《出埃及记》的图显示的展布类似于派博在奥古斯丁《忏悔录》中发现的那种,前半部分彼此更接近,后半部分不仅比前半部分更远,数据点彼此相距也更远。除非派博准备提出希伯来圣经也遵循奥古斯丁的忏悔结构(如他定义的那样),否则他不得不承认这一模式不限于《忏悔录》。基督教的皈依叙事呈现此种现象并不说明非皈依的叙事不会呈现此种现象。关于宗教文本的这种有效论点需要更多证据和评论。同时,奥古斯丁《忏悔录》的一个中文译本产生的MDS(使用派博的方法)看来完全不像他的拉丁文《忏悔录》的图表(图5)。皈依体验在翻译之后是否并不继续存在?
图3 我的矫正图。
每个数字相关联的内容都和图2中那些一样:整个文本的1/20的数据块。
图4《出埃及记》英文译本的MDS,每个数字代表本书的一个1/20数据块。前10个数据块群集在一起,后10个则离得较远、彼此间也离得更远,和派博的《忏悔录》MDS一样。
图5《忏悔录》中译本。每个数字代表本书的1/20的数据块。前10个数据块并不密集,后10个数据块彼此相距也不遥远。
如果可能存在一种根本性解释,既能排除你的主张,又让你的模型变得没必要,那么,将相似和差异简化为词频差异就会迫使你制造研究成果。关于这个问题,李友仁关于不同类型中文作品差异的研究是现成例子。⑱ 作者声称,野史和小说这两种中文作品体裁,并不像文学史家认为的那样相似。他研究了3个很小的语料库(分别有14、126和524个文本),比较了其词频(一元语法的"字"的频率),使用分层聚类算法(HCA)做出基于"相似分值"和PCA(主分量分析)的树状图。由于他将每本书分为许多万字数据块,再从数据块中取出1000个最常用汉字(根据简单的词频确定),⑲ 他的PCA上的每个点代表一个万字数据块、而非整本书(图6)。在比较每万字段落中最常见的1000个字时,该作者已做出极为相似的数据点,并且让PCA看起来比实际要完善得多。也就是说,作者已经均质化了数据点,不必要地增加了它们的数量。如此一来,PCA上数据点的数量似乎提出了有力的论据,但实际上,来自每种体裁的数据点彼此非常接近,这只是因为作者处理数据的方式。更勉强的是维尔德勒用计算方法向我们证明,由于对正式语言的类似使用,中国的野史其实更接近正史。这一断言基于明显区分文言和白话的常见字符,但他以和主题及情节有关的常见字符为基础描述了一道正史和小说之间的桥梁。这一关系已经为中国古典文学读者所知晓。明清的野史和正史压倒性地由差不多同一批文人学者或官员撰写。野史的差异在于内容而非正式语言的使用,但小说主要以白话文(或倾向于白话文的混杂文字)写就,包含和野史一样的主题。如李友仁所言,如果说野史和小说传统上被归类到一起,那是因为二者往往都来自道听途说。要挑战这个分类是多余的,因为首先这个分类标准从未混淆过。
⑱见Paul Vierthaler, "Fiction and History: Polarity and Stylistic Gradience in Late Imperial Chinese Literature," Journal of Cultural Analytics, 23 May 2016, culturalanalytics.org/2016/05/fiction-and-history-polarity-and-stylistic-gradience-in-late-imperial-chinese-literature/.
⑲中文读者早都要挑战这一研究,因为不能将"字"看作意义的独立单元(contained units)。作者承认要确定中文文档中哪些是"词"(words)很困难,因为有无法克服的语法分析问题(一个字加上另一个字往往完全构成另一个词),还有点标点和断句问题(文言文通常看似并无标点,因此语义和语法必须从上下文推断),给一元语法(字)计数极其不精确。不过李友仁依然坚持认为,一元语法(字)频率还是有意义、具预测性的;见上条脚注。
图6 使用全文的MDS,没有分为千字数据块,依然使用词频,产生了类似的展布,但数据点少得多。三个野史文本位于右上角灰色部分。
霍伊特·朗和苏真的《文学模式识别:文本细读与机器学习之间的现代主义》着手测量东方对西方的形式影响,建立了朴素贝叶斯分类器,去找到不自认为俳句的俳句--部分提供一个分类工具,部分追踪那些未被明确为俳句的英语诗歌。⑳ 他们在400个俳句(译本及改编)和1900个非俳句短诗上训练分类器,再在未分类的联合数据集上跑分类器。贝叶斯定理是广泛应用的定理,随每次新观测更新概率分布;这个系统"朴素",因为各种特征应彼此独立。你并不告诉算法借以做出分类决定的准确标准;你告诉它要注意什么,它根据某些基本特征学习判断规则,每当新事物出现就改变概率分布,因此变得越来越聪明、越来越善于将下一事物分类。技术上,霍伊特·朗和苏真运用朴素贝叶斯(N-B)改进分类器,将检验样本中的每首诗看作一次新观测。但这两位作者没有让N-B自己辨别截断音节计数,而是将该判断规则编为硬码写进脚本(如果一首诗歌是译本,它是否在19个音节以下,如果是改编本,是否在30个音节以下)。分类器借以分类俳句的唯一其他依据是个体词语出现的简单可能性分值(例如sky这个词在非俳句中出现的可能性变成5.7倍)。他们最后得到一个过拟合模型,特征学得非常快。我在长度和意象相似的中文对联英译本和10世纪的《和汉朗咏集》(Wakan Rōei Shū,日本和中国歌谣选集)的200首中文短诗和非俳句日文短诗的英译本上(比俳句形式的整合早差不多700年)跑了他们的N-B分类器。由于其标准的原始,他们的分类器严重地错误分类了中文诗歌和前俳句诗歌;㉑ 实际上,随着减低阈值增加(去掉发生次数不足的特征,防止过拟合),精确度进一步降低。也就是说,如果你将俳句定义为30个音节以内、词汇在俳句中经常出现的诗歌,你实际上就瓦解了东亚诗歌诸多类型的多样性、将其都归于俳句形式。
⑳参见Hoyt Long and Richard Jean So, "Literary Pattern Recognition: Modernism between Close Reading and Machine Learning," Critical Inquiry 42 (Winter 2016): 235-67. (中文版参见霍伊特·朗、苏真:《文学模式识别:文本细读与机器学习之间的现代主义》,林懿译,《山东社会科学》2016年第11期--译者注)
㉑参见在线附录第4部分(section 4)有关错误分类的内容:
https://www.journals.uchicago.edu/doi/suppl/10.1086/702594/suppl_file/2018054Appendix.pdf。
文本数据挖掘应用于文学研究的困境
统计检验的力量来自有意义,建立的零/对立假设有信息并能解释一些与根本洞见相关的事。在数据中找到一个模式,拒绝了选得很糟糕的零假设,例如"多数常用词不变"/"多数常用词确实会变",这是不够的。检验可能极为有力,但检验的是个错误问题。它所做到的一切就是对结果的数据挖掘。科学和社会科学研究者非常警惕此类结果。统计工具设计出来是为了特定任务、解决具体问题;它们有特定效用,不应只是用来给词语计数乔装打扮。这么说完全不是主张文学分析必须有效用--实际上我相信的正好相反--如果我们所用工具明面的目标是功能性而非隐喻性的,那我们必须根据其实际功能来运用。
给叙事文本做定量、跑基于词频的算法、从形态上将文本数据视觉化,这些做法的理由不太好转移到本学科。文本数据挖掘的典型应用自带折衷:用速度换精确、用信息范围换细微差别。这样的方法对工业、行业和某些学科是有效的,比如要高速处理大量文本数据,无法(也不愿)全部阅读,或者要从大数据集提取相对简单信息段,要么是切实可行的,要么能迅速根据简单特征标注分类。不论人们对用确定算法处理世间万象怀着何等感情,数据挖掘在伦理上是中性的。在法律取证中,那些大部分内容相同的法律文件(例如合同)可以机器阅读,在标准术语和形式重复的句法模式中寻找错误的措辞或用字(包括误用的特定词语),快速识别问题或有意误导的条款。抽取出来的信息不应语义复杂。投资者用文本挖掘来确定一家公司发布的新闻报道或新闻稿调子是正面或负面,以便迅速做出交易决策。每一秒都有公司发出新闻--年报、季报、股市收益公告等等--没人想读这些;也没人有这个时间都读完。简单测量那些驱动特定可测定变化的条款,这是人们能够且愿意从这些调查模式中收集的;速度是最重要的考虑,因为相应的决策通常必须在数秒内做出,如果不是纳秒的话。我们从理论上可以单独验证每个报告--文本挖掘知道人类阅读可以捕捉更多细微差异、例外、歧义和限定条件--但为什么要这么做?你的电子邮件服务器使用的机器学习分类器是在之前用户标记为垃圾邮件的所有电邮上训练的,会决定新进文件是否垃圾邮件。有可能没什么正当理由就把一封电邮放到错误的文件夹或标记为重要,但分类器即刻出动、足够精确,你不会愿意自己来。
要在文学中寻找同源性,CLS必须清除许多高维数据,并统计显著变化的首要动因。这总是会有显著的信息损失;问题在于这种信息损失是否重要。一个很流行的解压缩高维数据的方法是因子化,这是一种特别俭省地解释数字数据中诸多差异的方法。以派博和李友仁用于论文中的PCA或MDS等工具为例,这些工具在CLS中广泛用于捕捉词法并呈现定量研究结果。PCA对数据做互不相干的转化,减少多元数据的位面量,但首先它并不确切知道要寻找怎样的相同和不同。PCA会将多元数据分为主成分,并基于其对共同矢量的荷载对数据条目间差异作定量描述。如果你有30万个多元数据的公制分布图(例如表现出某种或更多病症的病人和他们的染色体图),想知道他们有何共同点--但不是他们可能有的每个共同点,只需要三四个点,同时也并不知道那些共同点可能为何--PCA能用这些主成分帮你整理数据。它不会描述性地告诉你这些类别叫什么、或者共享什么主题,但会告诉你什么样的特征(不同的染色体图)可能导致了群集(都有心脏病的病人)。在文本分析中,这意味着一篇文章、一段文学作品或一本书和另一个之间的最大差异将是它们在少数几个共享矢量上的荷载--即定量信息、而非描述性信息。你不会想要走完所有矢量,因为那等于复制全部数据集(至于在哪里停则是专业选择);这样一来,就必须显著减少信息。从统计上确认医学疾病的共同驱动因素是一回事,要说康德的第三批判和黑格尔的《美学》之间的差异可以通过因为在两三个词汇表中有重叠而导出的两三个数字捕获,那是另一回事。有许多提取因子的不同办法,也有大量新技术用于奇怪的数据集,但这些都是非理论方法,意思是,严格来说你使用时不能希望它们能魔法般为你产生有意的解释,并含有由特定领域界定的意义和洞见。
想一想斯坦福文学实验室的这幅图(最初由迈克尔·维特摩尔和乔纳森·霍普制作),该图提出,也许"叙事体裁可以简化为两个基本变量",也许体裁之外的某些因素驱动了威廉·莎士比亚的喜剧、悲剧、历史剧和晚期戏剧间的差异("QF")(图7)。㉒ 但没人说过一致的词频是区分莎士比亚的喜剧和悲剧、悲剧和历史剧等等的因素--也没人会这么说,因为这种区分无法以词频捕捉。换言之,只有当词频确被认为驱动了体裁差异时,这个PCA图才能变得有意思。也就是说,如果第一和第二主成分能精确确定悲剧和戏剧因子。这也同样非常不可能,但可能统计上站得住。假设研究人员将每个范畴的所有作品都转为一个矢量,如此则PCA里只有4个数据点,每种体裁一个点。接着他们可以去查看词频矢量,看哪些词驱动着差异。那还真能教会我们一些东西,尽管它作为文学批评依然是简化论的。(其实,让CLS用户呈现其矢量是不错的实践--它去神秘化了该程序的很多内容,往往能揭示其中的概念缺陷。)《定量形式主义》的作者们确实这么试过,产生了多种PCA,却只是重复发现PCA无法捕捉体裁差异。然后他们研究了DocuScope 散点图,想发现哪些成分荷载(单词)最能驱动差异,结果发现多半是终止词;接着他们将此现象表现为文学评论观点:"你想不想写一个所有空间都会充满惊喜的故事?方位词、冠词和动词过去式必定接踵而至。"("QF")。不管我们是否觉得这种推断合乎逻辑,它并不是一种启示,而是一种尝试,想要从终止词问题中造出一些意义。
㉒见Michael Witmore and Jonathan Hope, "Shakespeare by the Numbers: On the Linguistic Texture of the Late Plays," in Early Modern Tragicomedy, ed. Subha Mukherji and Raphael Lyne (Rochester, N.Y., 2007), pp. 133-53.
用文本模式挖掘搞法医文体学的障碍在于,就算你应用这些简化了噪音和数据间非线性互动的模式辨认技术,能被捕捉到的文学风格差异也往往是被终止词驱动的--if(如果)、but(但是)、and(和)、the(这个、那个)、of(属于)。为何如此?
图7 霍普和维特摩尔的莎士比亚戏剧PCA,以体裁分类;见莎拉·艾莉森等人的《定量形式主义:一场试验》,载于《斯坦福文学实验室》,手册1,2011年1月15日。
马克·阿尔吉-休伊特和派博告诉我们,"终止词通常语义贫乏但风格上丰富……是迄今为止决定作者身份归属、将文本分为不同范畴的最佳方式。" ㉓ 实际上,风格差异归结为终止词,这毫不令人惊讶。要确定事件的统计差异,意味着首先要有足够多的事件作比较。如果蛋糕这个词在一个文本中只出现1次,在另一文本中出现4次,无法真正在统计学上比较这两者。严格来说,终止词是文本彼此间最共同的词语,这就是为什么其差异化的使用模式会产生最现成的统计差异,也是为什么不得不把它们从文本挖掘中拿走。
㉓Piper and Mark Algee-Hewitt, "The Werther Effect I: Goethe, Objecthood, and the Handling of Knowledge," in Distant Readings: Topologies of German Culture in the Long Nineteenth Century, ed. Matt Erlin and Lynne Tatlock (Rochester, N.Y., 2014), p. 158.
终止词的两难—保留,会产生你具有的唯一的一项统计意义;拿走,你就会没有真正的研究结果—在霍伊特·朗和苏真的《湍流:世界文学的计算模型》中能看到。这篇论文试图提出一个用于意识流(SOC)文学现象的预测性算法。论文认为,意识流在不同国家传播,这种"扩散"能够追踪。㉔ 霍伊特·朗和苏真基于其他学者讨论过是意识流段落的内容对比了300个包括1200个字符的意识流段落,并在60部现实主义小说中重复了这个过程(既然现实主义小说常被认为没有或不用意识流),建立了分类器,检验意识流特有的13个语言特征(字符/型符比、拟声词、词语创新、以名词结尾的句子)。他们声称能以95%的精度预测一段意识流文学(日语文学则是97%的精度)。在检验的13个特征里,作者认为字符/型符比(一个句子中单词的数量除以单词类型的数量)是预测意识流的最重要因素。这个概念学者们在20世纪70年代就提出了,但"从未有如此精度或规模"。㉕ 当霍伊特·朗和苏真的分类器在对付日语文学中的意识流不那么精确时,作者把这叫做"湍流"--当形式的影响并未一直贯通时。
㉔Long and So, "Turbulent Flow: A Computational Model of World Literature," Modern Language Quarterly 77 (Sept. 2016): 345.
㉕Long and So, "Turbulent Flow: A Computational Model of World Literature," Modern Language Quarterly 77 (Sept. 2016): 350.
但是,他们用于预测文章是意识流还是现实主义的最强预测器--字符/型符比--对作者们自己选择的非标准终止词太敏感。如果你不移除这些终止词,那么统计显著性就朝另一头颠倒(现实主义文本就有更高的字符-型符比)。移除终止词会让方程式颠倒,因为意识流段落中不同终止词和全部词汇的比率在统计上更高。这是因为意识流终止词是相似的,而现实主义终止词更多变,如果我们使用的是作者自己选择的终止词(就算移除专有名词,这个作者挑选的词汇表也比标准终止词列表多300个词)。㉖ 使用这个词汇表时,现实主义文本就会比意识流文本有多得多的终止词。这解释了为什么移除终止词会改变字符/型符比,足以让意识流段落的字符/型符比在统计上比现实主义更高。因此,作者为了区分现实主义文本和意识流文本唯一要做的一件事就是为终止词词频列表格--这是他们的最强指标,超过他们分离出来的四个指标中的任何一个;也就是说他们最强的解释特征是一个不必要的测量结果。我重新跑了一遍他们的编码,用的是标准终止词列表,一旦我们仅仅移除标准终止词,现实主义文本和意识流文本之间字符/型符比的差异就失去了统计上的意义。
㉖在线附录第 5部分可见他们的终止词和使用标准终止词的t检验:https://www.journals.uchicago.edu/doi/suppl/10.1086/702594/suppl_file/2018054Appendix.pdf.
在其他领域和应用中,终止词被移除的文本能进一步被分类--分为经济术语、政治术语、女性消费者,等等。必须要有简单又足够精确的另一层次的分类,这样才能对比各种范畴,而不是对比单个词频--这才能让词语的统计分析成为可能。CLS 试图这样研究文学,用不同方法将大型词语语料库简化为合理的分组,它意识到,在执行必要的维度简化后--挑出不寻常的词、移除终止词、不同单词组别被矢量化为空间中的单个的点--剩下的只是最初标榜要研究的内容的小部分,而这些内容聚集成的分组如此普通,以至于排除了有意义的阐释。
统计工具的有效性与有限性
为了应对二级分类问题,CLS通常用拓扑学数据分析(TDA)工具、网络分析工具、和主题模型工具,例如隐含迪利克雷分布(latent dirichlet allocation, LDA)和潜在语义分析(LSA)。这代表了CLS中对统计工具最成问题的应用之一。主题模型将每个文本看作主题分布,将每个主题看作词语分布(因此仍然将文本当作词语的无序集合处理),它被用来发现大量文本中无监督的主题。它对参数化极为敏感,容易过拟合,作为复杂文本的"相关性"探测器,它颇不稳定,因为你只需要稍微调整小细节就能发现全然不同的主题。既然LDA的召回率取决于要有通过人类决策而形成的真正主题类别,那就没有真正能测量已发现主题的精确性的方法。其效用在召回率和精度并不太重要的环境中最容易观测到,就和以内容为基础推荐系统情况一样。
如果没有富于意义的应用,主题模型看起来就像是用于文学批评的词云生成器。乔科斯和大卫·米默用LDA从文学实验室语料库提取主题,发现女性作者有两倍可能关注女性时尚(女性时尚的一个词云),男性作者更可能关注有关敌人的主题(与战争有关的词语另一个词云)。㉗ 与此相反,安德伍德认为,主题模型只有在它能找到"意义含糊"的群集、而非"直观"群集、也就是那些清清楚楚与战争、航海或贸易有关的词语时,才对文学研究有用。但这就意味着要依赖那些主题模型在其中该起作用时并没有起作用的事例。㉘ 真相是,"意义含糊"、意外词汇聚集的群集要么解释非常平庸,要么只是重复了作品中实际的词语出现顺序。乔科斯和米默在同一篇文章里试图延伸主题模型的用途,要找到那些将政治信息藏于宗教主题中的作者--围绕"修道院"的词语群集--却发现匿名语料库里的两个文本驱动了与修道院主题有关的大部分内容。㉙ 这只是因为置换现象--谈论猫的时候其实是在谈论某人的母亲--并非主题模型的设计目标,而模型是以可能同时出现的概率模型为基础的。安德伍德在1815-1835年的女性诗歌中发现了主题22,但因为它不是直观地一致--读起来像是用诗歌语料库最高频的词语拼起来的一首诗--要解释它是无意义的,这也是为什么他在讲解主题建模概率时不见解释。㉚
㉗参见Jockers and David Mimno, "Significant Themes in Nineteenth-Century Litera- ture," Poetics 41 (Dec. 2013): 755, 759.
㉘Underwood, "Topic Modeling Made Just Simple Enough," The Stone and the Shell, 7 Apr. 2012, tedunderwood.com/2012/04/07/topic-modeling-made-just-simple-enough/.
㉙Jockers and Mimno, "Significant Themes in Nineteenth-Century Literature," p. 763.
㉚主题22 包含 “thy, where, over, still, when, oh, deep, bright, wild, eye, yet, light, tis, whose, brow, each, round, through, many, dark, wave, beneath, twas, around, hour, like, while, away, thine, those page, hath, lone, sky, spirit, song, oft, notes, home, mid, grave, vaine, again, though, far, mountain, shore, soul, ocean, and night” (Underwood, “Topic Modeling Made Just Simple Enough”).
主题模型还被用于一种新型学术监视,学界人士就他们一直掩盖的事互相质问,彼此看穿。伦理考虑不提,还存在这种模型能否有效确定研究领域这个问题。安德伍德和安德鲁·戈德斯通的调研《文学研究的无声转变:13000名学者能告诉我们什么》,要找出1889-2016年间差不多13000篇学术文章中学者们都在"谈论"什么,并发现许多主题变得越来越流行(图8)。㉛ 例如,他们发现话题80--围绕"力量"一词群集的10个词语--有所增加,这是一种"文学研究特有的趋势",在20世纪80年代达到顶峰。㉜ 如果作者想要在期刊文章中不武断地跨时研究主题的变化,本来可以直接看期刊摘要,还能节省时间。将一年内发表的文章当作单独样本(没有将文章数据集分离为训练集和测试集),也没有用先验概率拟合后验概率,这意味着算法倾向于形成基于语料库中连续年份的主题。他们想论证说,有些主题在增长而其他主题在减少,但是用这种方式操作主题模型会机械地产生随着时间增加和减少的主题。
㉛参见Andrew Goldstone and Underwood, "The Quiet Transformations of Literary Studies: What Thirteen Thousand Scholars Could Tell Us," New Literary History 45 (Summer 2014): 363.
㉜参见Andrew Goldstone and Underwood, "The Quiet Transformations of Literary Studies: What Thirteen Thousand Scholars Could Tell Us," New Literary History 45 (Summer 2014): 363.
图8 安德伍德和戈德斯通《无声的转变》主题-年份分布
如果学术研究文献增长,就会涌现更多文献。所发现的主题(词语同时出现)由更新近的学术研究驱动,因为新近的研究更多;因此,回采这个主题较早的学术研究很显然会显示该主题随时间有增长。作者发现主题80随时间增长了、但个体词语没有增长(使用google n-元语法),并认为这反直觉,但如果话题80在全部时间段都存在、但主要由学术研究的近期时段驱动,那么从定义上看,主题80中的词语确实出现了,但在较早时段中并没有共同移动。㉝ 在讲述研究结果时,作者最终为他们发现的主题展示了年份-主题缩放,但这并没改变这一事实:首先他们还是用全部样本找到的这些主题。理想情况下,一项研究要么事先就选择合理的词语列表,一个主题相关联,只寻找全部样本中这些词的趋势,或者,这项研究将更多新近文章降低权重,避免群集效应。如果像安德伍德和戈德斯通那样使用全部样本来找主题,一位作者就无法就时间序列变化提出论证。
㉝谷歌n元语法包含完全不同的样本集,用它对主题80做出结论就是错的。尽管主题80中的个体词语同时期在谷歌n元语法中没有上升,但它们很大程度就在原来的数据集里。
用合理正确的方式使用主题模型时,只有在其他已发现主题(比如说50个主题中的47个)通过气味测试时才会辨别出有趣且意外的主题。这一研究并非如此;基本的鲁棒性检验也失败了。为了看清文章长度能如何影响发现的主题,我执行了两个鲁棒性检验。在部分双重测试(double test)中(在所有其他参数不变的情况下随机将30%的文档长度翻倍并且不应影响LDA,因为它是基于词袋模型),所有主题都改变了。当我随机移除仅仅1%的原始样本时,所有主题都改变了。这篇论文也没有通过还原性检验;如果方法是有效的,有过类似训练的人应能用同样参数获得基本一样的结果,而不用在改过的编码和隐藏的过滤器中劈波斩浪。我用Python LDA脚本(缩放每个文档长度)从他们的数据集中找了150个主题,每个主题10个词,完全像他们那样。㉞ 我生成的主题全然不同。㉟ 这不是说我们当中有人没有尽力,但确实说明主题模型就像万花筒,稍微一动,就会将某些事物变得完全不同。
㉞在线附录第6部分可见这些测试产生的主题vs我的主题:https://www.journals.uchicago.edu/doi/suppl/10.1086/702594/suppl_file/2018054Appendix.pdf。
㉟他们的词语列表参见Underwood and Goldstone, "List of Stop Words Used in Topic Modeling Journals, Summer 2013," IDEALS, www.ideals.illinois.edu/handle/2142/45709.
这些日子,辅助机器学习的炫目统计工具并不缺乏,计算相对容易且廉价;工具存在是为了让你跑遍每条路径、沿途每一步都做出决策,并提供许多方法可以稍微改变模型以便识别不同模式。最后,统计学事关在可定量的数据中确定高阶结构;如果结构并不存在(或者从本体论上来说不同),统计数据无法变魔法造出一个。例如文本挖掘常用到拓扑学,但如果它不能维持拓扑学的功能,即有意义地简化复杂事物、做出更快、更直观、非随机的计算,就失去意义了。在对图论很根本的数学问题"哥尼斯堡七桥问题"里,必须决定是否存在一条路径,能在特定的河流和地块形态配置中一次只通过一条桥(图9)。你可以手工计算,但如果我们要处理有更多道路交叉、桥梁和奇形怪状地块的更大区域或者处理整座城市,就会变得很费劲。莱昂哈德·欧拉提出的按比例复杂性规约,将每块地块重新规划设为一个节点(第三个图像上的蓝点),每个通往另一块土地的穿越路径作为一个关系线,产生了一幅只记录节点和关系线的图。这幅图并不是地图的正式重新排列,而是对地图信息的根本转化。河流如何蜿蜒、岛屿多大或什么形状、它们彼此位置如何(这都是局部的),都不再紧要。你能拿起任何区域,数出地块及其退出节点的数量。如果其中0个或2个节点的关系线是奇数,这么走通就是可能的。如果不是,那就不能(所以在原始问题中,走通是不可能的)。
在此情况下,简化复杂性是必要的,因为你不想穷尽所有路线组合就为了了解市政规划的答案。拓扑学从这个问题中生发出来,依赖于从实际布局到图示的复杂性简化,在持续变形中保持了两点间的关系。地铁示意图这种拓扑学地图将复杂而随机的地理信息转化为基本节点(这个地图不必反映实际地图里迷宫般的拓扑学细节,甚至完全不必按比例反映--唯一重要的是交换点)。这些例子阐明了判断拓扑学转化是否有用的标准。
图9 "通往哥尼斯堡的七座桥",拓扑学转换
CLS理解拓扑学术语宏观和局部的方式不再充满图论的理论涵义--在其实践中网络绘图和拓扑学可以互换--并倾向于重新配置信息,以便视觉化低维同源性(相似性并非基于全部文本而是基于非常有限的文本层面)。㊱ 语料库绘制成矢量图,通过测量每个术语的相对权重压缩文档,让每个矢量代表一个文档。这个矢量空间模型生成非欧坐标系中的数据点集合,CLS继而将其展现为拓扑学信息。例如,拓扑学模型被用来计算文学景观中的社会性和社会互动,采用的是对拓扑学关系线极具隐喻性的阐释。文学社会学家艾伦·刘所说的"隐性社会网络",或者"核心环线",只是连接的视觉化,使用的是功能上简化的"联系"的定义。㊲
㊱关于将计算拓扑学应用于高维数据的局限性,见Herbert Edelsbrunner and John L. Harer, Computational Topology: An Introduction (Providence, R.I., 2010), 以及Hubert Wagner, Pawel Dłotko, and Marian Mrozek, "Computational Topology in Text Mining," in Computational Topology in Image Context: 4th International Workshop CTIC 2012 Proceedings (Bertinoro, 28-30 May 2012), pp. 68-78.
㊲Liu, "From Reading to Social Computing," Literary Studies in the Digital Age: An Evolving Anthology, ed. Kenneth M. Price and Ray Siemens, dlsanthology.commons.mla.org/from-reading-to-social-computing/.
CLS网络分析很容易就能成为推荐系统文学社会学,其中,客户和话语关联被视觉化,而不考虑语调、语境、重点、修辞等等--完全就是推荐系统的作用方式。在这里,词频重叠构成了空间连接,而网络意味着对这些连接中的很小一部分的简单视觉化。这样的图表往往呈现为"为其他目的而造的现成社会计算工具和平台"。㊳ 但这些现成工具是有用的,比如Facebook Friend Wheel(好友轮),如果你希望通过绘制网络促进社会化或创业机会,你的网络的复杂多变不在于所讨论的连接的本质,而在于其数量级和其中嵌入的拓扑学信息数量。网络地图用来计算基于方向矢量的节点的中心性;因此,比如谷歌知道如何转入最相关的搜索,因为它计算了网络中和另一网址相连的节点(网址)数量,这样就能计算一个网址的相对中心性。网络地图无法用其他形式的数据表现替代。由于规模和连接(以2n的速率增长),它变得复杂:为婚礼上的500位宾客安排座位--有些人不能和某些人坐在一起而所有人都有个邻近偏好递减的名单--在宾客数升至500万时要复杂得多得多。捕捉到这种复杂情况--或通过研究一个其中节点对链接的度数分布既非任意、也非有规律、而是遵循其他数学法的网络而捕捉到网络复杂性--不等于说,关于莎剧中谁和谁说话了的网络图就能捕捉到莎士比亚或人物话语中连接的复杂性。我们处理的是对复杂情况和复杂性根本不同的几种定义。
㊳Liu, “From Reading to Social Computing,” Literary Studies in the Digital Age: An Evolving Anthology, ed. Kenneth M. Price and Ray Siemens, dlsanthology.commons.mla.org/from-reading-to-social-computing/.
如果给小批量数据做网络图能帮我们理解用其他方式无法理解的事物,那就不是无意义的活动,但这种视觉化往往并无此类回报。艾德·芬为朱诺·迪亚兹作品《奥斯卡·沃的奇妙生活》亚马逊页面做了个网络地图,用"书评和网站推荐……为链接"、"书名为节点",为了将顾客和话语关联视觉化,㊴ 芬使用的是递归地收集推荐的脚本,为了做出网络地图,他绘制了几个月内的(从2010年12月到2011年3月)前10条"买了这本书的顾客也买了"链接和每条链接里的前10个推荐(图10)。但这个图里的网络分析在哪里?中心性分值在哪里?同配性测量在哪里?统计推断呢?
㊴Ed Finn, "Revenge of the Nerd: Junot Diaz and the Networks of American Literary Imagination," Digital Humanities Quarterly 7, no. 1 (2013), www.digitalhumanities.org/dhq/vol/7/1/000148/000148.html.
图10 "亚马逊推荐,迪亚兹,2010年12月下旬"。
恰当地定义节点在此并无可操作的目的,形成对比的是国家安全局(NSA)调查最多三个连接节点就在社交媒体上追踪恐怖分子网站。㊵ 对芬来说,每提到另一个作者(不管是何性质),不管是在亚马逊推荐系统里还是这些杂糅的评论中,都证明奥斯卡·沃是"从少数族裔文学体裁通往主流获奖者正典的文学出入口",或者证明了"文学逆向殖民化过程、故意用另一种话语的符号去污染一种话语语言的过程"。这些想法很吸引人,但芬并没有做网络分析(他让奥斯卡·沃这本书成了图中实际的中心),因为只有11个条目及其彼此的连接。这并不是网络地图,而是网络地图非常、非常小的一片--很容易用表格表现。在第一本被推荐的书和第二本之间可能存在数量级差异,但亚马逊不对客户透露这一信息。芬平等地权衡那些推荐,因为他只能接触到亚马逊的项目到项目协作过滤算法的一部分(全部接触意味着芬只用复制亚马逊的已有信息)。
㊵Ed Finn, "Revenge of the Nerd: Junot Diaz and the Networks of American Literary Imagination," Digital Humanities Quarterly 7, no. 1 (2013), www.digitalhumanities.org/dhq/vol/7/1/000148/000148.html.
拓扑学洞察力和用于词频论证的拓扑学结构的视觉化工具:这不是一回事。派博将他的拓扑学运用描述为"当地的"和"协议逻辑的",是一种拉图尔的"准客体"网络、德勒兹的"非关系的关系",对"限度的氛围"的巴迪欧式质问,㊶ "关于远处的另一种思维",由贾德-莫瑟瑞启发的"激进的交替行为",让我们"以能动的方式更多地思考语言(它所做的事)"的事物,㊷ 一种福柯式的"规则的场域",㊸ 某种"经过话语本体论"、但也"允许细微得多的话语存在感"。㊹ 这些受启发的对比很难和他对拓扑学实际应用相符。例如他和马克·阿尔吉-休伊特的项目《维特效应》,是一系列拓扑学的视觉化,捕捉歌德的《少年维特的烦恼》(1774)对其后期作品(以及歌德之后其他英语和德语作品)的影响。"影响"的意思是追踪《少年维特的烦恼》里的91个代表性词语以及它们在x部其他作品中的频率,这一测量被认为很重要,因为歌德在宣布放弃《维特》之后的写作应该不同,也因为众所周知《维特》影响了后来的作品,但我们不知道如何影响、何等程度上影响。派博和休伊特取了词频测量结果的欧式距离,用来测量各种作品的词汇相似度,接着,为了将矩阵视觉化,尝试并发现了将矩阵信息折叠为照片的最好办法,因为这个距离矩阵很大,信息不容易抓取。他们选择了沃罗诺伊图,一种非常有用且直观的数据视觉化形式,能让你从几何上按比例看到一部作品和其他每部作品距离有多远。㊺ 拓扑学在这里是作为视觉化词频差异矩阵的最佳方式;它不是我们如何从视觉上解读的再现,不管它是如何隐喻地应用的。在生成沃洛诺伊图之外(在这种数据类型情况下的应用并非论文作者的原创贡献),这些距离测量--现在可以一下子全都看到--代表的是91个词在歌德全部作品中其他部分出现(不管位置、顺序、语境、句法、说话人、声音、语调、彼此的接近程度)的方式。㊻ 最终,那91个词语的重复指出了《维特》对其他文本的影响。在另一个论坛,作为文学批评家,我们必须决定,测量影响的精确指标时有多少授权,A中的一组词汇也在频繁出现在B中是否意味着A影响了B; 此处足以看到,这就是我们在每篇论文里看到的那同一种论证:部分重叠的最常用词汇即表示影响,当A并不完全是B时,从定义上说B已经逐步影响了A。
㊶Piper, "Reading's Refrain: From Bibliography to Topology," English Literary History 80 (2013), pp. 386, 384, 381, 386.
㊷Piper and Algee-Hewitt, "The Werther Effect I," pp. 162, 157.
㊸Piper, "Novel Devotions," p. 71.
㊹Andrew Piper, "Reading's Refrain," p. 381.
㊺见在线附录第7部分(section 7):https://www.journals.uchicago.edu/doi/suppl/10.1086/702594/suppl_file/2018054Appendix.pdf。
㊻见在线附录第6部分的英文和德文列表:https://www.journals.uchicago.edu/doi/suppl/10.1086/702594/suppl_file/2018054Appendix.pdf。
计算文学研究没有能力捕捉文学的复杂性
定量的视觉化是打算将复杂的数据输出简化为其基本特征。CLS没有能力捕捉文学复杂性。马克·阿尔吉-休伊特想要超越词频计数,测量文学的熵,也就是一部作品的冗余水平,这貌似一种复杂性测量。他给斯坦福实验室的供稿、多位作者的《正典/档案:文学场域大型动力学》要论证非正典文本比正典文本更少熵(更冗余),他们用查德威克-希利公司语料库的260本书作为正典语料库,用同期的949本书作为非正典语料库。他测量了其中词语的连续像对数量和概率,基于这一推想:文学作品熵越高、就越少冗余、包含的信息就越多。㊼ 熵测量听起来很复杂精巧(而且看似和文学复杂性相似),但它实际做的是测量不同词对的数量以及它们在二元语法对总数量中的分布。㊽ 这不是一个神秘属性,而是与词语多样性(2000个、2万个、200万个不同的词会有巨大区别)和词语偏差(一对词是否那些总是出现的词、或者其中一个词是否只出现一次)直接相关。在二元语法对多样、但没有具有优势的特定二元语法的情况下,熵的水平最高,并导致文本中的更多信息,就像华伦·韦弗说的:这"一定不要和意义相混淆。”㊾ 即使我们同意休伊特说的,更多数学上的熵在某种意义上意味着更多文学的新鲜风格或更少文学冗余,他的计算仍然是错的。我使用356本书的档案语料库(因此规模接近他们的查德威克-希利公司语料库的260本书),重新计算了二者的熵(按比例熵值分别= 0.796391 和 0.793993),鲁棒性检验后并未发现二者有何统计学差异。㊿ 阿尔吉-休伊特从查德威克-希利公司语料库中得到的更大的熵,是由其档案语料库的规模(263vs 949)所驱动的,这产生了查德威克和档案的不同二元语法数量间差异的大小,导致档案熵值下降。他的发现,也就是《正典/档案》中很大部分内容的基础,只不过是定标的疏忽。
㊼2016年12月以前通过斯坦福文学实验室发表的文章的脚本和元数据无法获取。(中文版参见马克·阿尔吉-休伊特等:《正典 / 档案:文学场域大型动力学》,汪蘅译,《山东社会科学》2017年第9期--译者注)
㊽休伊特的测量是香农-韦弗模型(the Shannon-Weaver formula)的改编。
㊾Claude E. Shannon and Warren Weaver, The Mathematical Theory of Communication (1949; Urbana, Ill., 1998), p. 8.
㊿见在线附录第7部分:
https://www.journals.uchicago.edu/doi/suppl/10.1086/702594/suppl_file/2018054Appendix.pdf。
CLS在解释类似同指涉或者语句处理方面没有跟上语料库语言学,语句处理等问题关心的是嵌入语言结构中的词语(局部话语)。CLS确实用了自然语言处理(NLP)来标注词类和音素,看起来超越了概要统计,要以语义学上更有意义的方式抓住词语,但这些努力是半心半意的,除了因为NLP是近来才发展的,还另有理由。词类标注对文学文本来说极其不精确。词法、句法和语法的歧义让算法很难知晓一个词是分词还是动名词、是形容词还是名词、整个短语是否只是作为单个词性起作用。据说NLP有93%到95%的准确率,但这取决于你拿它做什么以及你需要的分类级别(因此,正式评价非常难)。建造在线聊天机器人或者95%准确率的基础翻译非常不同于从一段文学作品中挑出所有的词性。用于叙事性词性标注的NLP软件也不太用户友好,因为它要求手动注解训练集。
和文学打交道,你很快就会碰上数据不足和数据复杂性问题。有多少不同的文学数据集--你能够并愿意手工注解--足够大到让你能够精确地在数据集的其他部分运行NLP?你给一个文本标注后做什么?假设有一天所有的文学事物(包括同形【同音】异义词、比喻表达、一词多义、反语、移情)都能精确标注--这假设挺大的了。研究人员仍然会有一张标注及频率列表,不得不大大缩减其维数才能有任何可提取的统计学意义。这种情况下,语义学或基本情节仍被忽视(除非我们愿意接受其前提,即统计上与其他词语同时出现的词语可以有效地反映语义、主题性或情节)。在其他研究领域,有命名的实体识别任务可以用来提供第二层的分类,将标注的词语分为预定义范畴,例如人名、机构、位置、时间表达、数量、金钱价值、百分比,等等。但是为了得到可用的类别而用这种方式拓宽,只在你有真正大型的数据集、想要迅速提取可用信息时,才有意义。NLP中的标注错误和不精确不会充分降低其他诸多语境中的信息提取,但对文学就会。
甚至在用于最适合它的文本类型时--NLP尤其适合那些丰富但相似的数据报道 (51)—弗朗佐西花了30年时间用报刊文章手工训练标签器("有经验的程序员用颇为复杂的编码方案,每一页文档10-15分钟"),以确定基本史实的简化版本。(52) 马丁·保罗·伊夫也试图超越终止词词频,他转向NLP,想要证明大卫·米切尔的《云图》是体裁的杂烩。(53) 这是个典型案例,因为伊夫只用了所需的统计工具,解释了测量结果的相对简单,将这些测量说成编码包已有的内容而不是他从零开始设计的。伊夫在移除终止词之后,并没有计算同源性,而是确保能够通过对常见终止词(the, a, I, to, of, in)的词频测量而得到一个简单得多的分类器,能够精确分类《云图》中的所有部分,除了一个用能给所有部分分类的20个常用终止词,他还取了5000个最常用词语(或两个词)的标准分数的曼哈顿距离及树状图,来预测《云图》中的不同部分是由同一位作者所写的可能性。然后伊夫借助NLP显示,《云图》中路易莎·雷的部分中,标注的三元语法NNP+NNP+VBZ(专有名词单数+专有名词单数+第三人称单数现在时动词)的出现有统计意义。但最后的解释却彻底乏味。伊夫所做的一切就是证明了米切尔的各个部分彼此截然不同,就像它们和使用停止词的其他作者之间截然不同一样。NLP并未提出任何额外见解。要真正解释不同的三元语法频率的主题基础,他还得去找到副词+形容词+名词的例子,并区分"hopelessly uneven gunfire"(让人无奈的不平衡的枪战)和"mostly empty wine" (酒差不多空了)。(54) 由于英国的版权法,伊夫将这部小说手动打字出来。要明确知道一章书将角色全名和行动配比另一章更多,这是大量工作。
(51)参见Franzosi, De Fzio, and Vicari, "Ways of Measuring Agency."
(52)Roberto Franzosi, Quantitative Narrative Analysis (Los Angeles, 2010), p. 149.
(53)Martin Paul Eve, "Close Reading with Computers: Genre Signals, Parts of Speech, and David Mitchell's Cloud Atlas," SubStance 46, no. 3 (2017): 76-104.
(54)Eve, "Close Reading with Computers," p. 101.
有个更清楚的例子,霍伊特·朗和苏真的俳句分类器的问题不在于它的准确率,甚至也不是它的参数化,而是其功能性。当然,这个分类器不必百分百准确--不能仅仅因为发现了错误分类的情况就拒绝它。如果对霍伊特·朗和苏真来说,(1)"译本和改编本",(2)自称俳句的事物,和(3)别人分类为俳句的事物实际都是同一种东西--俳句(不管差异为何)--那么,朴素贝叶斯分类器分类为英语俳句的东西无论为何,按照他们的定义,就是英语俳句,既然他们一开始就没有严谨的定义。但我们有没有讨论足够多的涵义含糊的案例(或者非常短的诗歌的总数)来为这个错误正名?我们面对的情况是不是数百万短诗出版但我们不可能有时间去读?这两位作者,事先不了解去哪儿找,自己也没有好办法去找到并一点点积攒所有存世短诗,因此在这件事上他们完全没有替我们节省任何时间。就不能有在诗歌上训练有素的人去寻找、阅读、分类?
CLS的支持者提出,用很长时间去做我们已经了解的事情,这无关紧要,既然创新在于一台电脑居然能够进行基本阅读(一条支持人工智能的论点)。但这其实很重要,因为计算在这里被用作一种调查工具,告诉你注意哪里、或者对什么内容随意发表意见,而CLS作者们一路上只是拿起影响、历来的变化、历来没有变化、体裁一致、或体裁差异等论点,因为他们已经将这些等同于他们唯一会做的那种数据处理,以便用到这些特定工具并好歹得到统计推断。这不是人工智能,而是人类在做汇总统计。
CLS还求助于一种折衷,原谅了自己的方法缺陷和论辩缺陷:谁能把现存所有文学文本都读完呢?机器阅读不完美,但比什么都没有强,它还能告诉我们一些任何一个读者都看不出来的潜在模式。文学批评家,尤其是那些研究当代文学的,往往会用数字人文来帮自己解释那些他们感觉正在指数增长的文学对象。他们很自然地假设计算方法能帮他们更快、更综合且不武断地解决这个规模。如上所有例子证明的,这是个错觉。对"大量未读作品"的寻找、获取版权、积攒、并戏剧性地将其简化为统计上可操控的一堆堆数据,再用替代方案检验模型能力,这些所需要的时间和武断(无意义和错误的几率也高得多)几乎和实际阅读它们一样多,如果不是多得多的话。CLS的方法论、前提和用于专业领域的那些类似(虽然更原始),但它们对文学、文学史和语言学复杂性的极端简化缺少经济或数学的正当理由。在其他那些领域里,我们是真正在处理大型数据集,对幽微之处、词汇变化和语法复杂性等特征的有目的的简化是可取的(为了该行业的标准和目标)。文学研究中,这种简约论没有基本理由;事实上,这个学科是关于减少简约论的。就算常量分析结果本身也不会是简约论思维的产物。
至于过剩的说法,要记住,许多关键例证来自那些已经读过的语料库或文本,这很重要。CLS处理的数据量和复杂性并没到(能为他们使用的工具正名的级别),实在不如作者们乐意相信的那么多。基础数学此处也有助益:100万单词差不多相当于10本小说;15亿单词代表15000本小说,1个月读1本小说,只用1000人读1年。到最后,过剩宣称就其本身而言并非正当说法。在科学和社会科学里,也有无法估量的文本、数据集和方案未触及。有许多事物我们不了解,许多问题尚未回答。这不意味着在那些未知数据中找到的任何模式、任何之前未提出的问题的任何回答、或任何问题,都自动值得关注。基本标准应该总是:不要将机械地发生的事混淆为深刻的见识、不要无必要地将统计工具用于简单得多的操作、要提出统计上合理、论证上有意义的推论,并且确保只要有人读过文本,函数运算就不会更快、更精确。(55) 可能计算文本分析有个最优效益门槛,而文学--特别是好好地解读文学--就是那个最优效益门槛的界限点所在。
(55)在线附录第9部分对这些基本标准有详述:https://www.journals.uchicago.edu/doi/suppl/10.1086/702594/suppl_file/2018054Appendix.pdf。
版权声明
英文原文“The Computational Case Aagainst Computational Literary Studies”刊于《批评探索》(Critical Inqiury)2019年第3期,609-639页,doi: 10.1086/702594,出自芝加哥大学出版社。中文译文发表于《山东社会科学》2019年第8期,感谢主持人及《山东社会科学》授权。
END
主编 / 陈静、徐力恒
责编 / 李瑞芳
美编 / 李瑞芳