对撞机丨安德鲁·派博:所研究案例的选择不能代表计算文学研究
《批评探索》杂志在2019年春季期刊出了笪章难的《以计算的方法反对计算文学研究》一文,这篇文章对计算文学研究领域提出了若干挑战。文中第一句话评论道:“本文意在从实证层面找出一个日益流行的文学研究分支的一系列技术问题、逻辑谬误和概念缺陷,该分支有各种名称:文化分析学、文学数据挖掘、定量形式主义、文学文本挖掘、计算文本分析、计算批评、算法文学研究、文学研究的社会计算、计算文学研究等。”文章刊出后,在数字人文计算文学研究领域引发了广泛的讨论。为了继续这一对话,《批评探索》邀请了几位数字人文和比较文学研究从业者和批评家对此作出回应。讨论围绕笪章难的计算方法和理论预设展开,并就数字人文文学研究对人文学发展的意义展开积极的回应。这是一次难得的既有统计技术方法,又有历史和理论意义的关于数字人文文学研究及其与人文学关系未来发展方向的学术讨论,会继续推动数字人文文学研究的朝着有利于人文学研究的方向发展。
本期讨论文章由汪蘅翻译,姜文涛审校。
安德鲁·派博(Andrew Piper),麦吉尔大学语言、文学和文化系教授。
笪章难发表于《批评探索》的研究文章加入了横跨几个学科的新潮流,可以归在“重复”的主题下。[1] 这方面,她的文章遵循了其他领域的主要做法,例如开放科学合作联盟(OSC)的“重复性项目”,该项目寻求重复心理学领域过去的研究。[2] OSC作者写道,如果做得好,重复的价值在于它能“在发现结果被复制时增加确定性,在不能复制时促进创新。”
但是,尽管她的研究做出了关于整个领域的影响广泛的结论,却未能遵循任何由OSC等项目创立的程序和实践。虽然提到了重复的认知论框架——也就是证明或驳斥单个文章和整个领域的有效性——她的实际做法却遵照了文学批评领域的古老的选择性阅读传统。笪章难的研究归根结底有价值,但不是因为它提出的以计算的方法反对计算文学研究(这项工作还待做),而是它突出了传统文学批评模型被拿来做大规模证据性结论时伴随而来的诸多问题。好消息是这篇文章让归纳问题、也就是如何同选择性阅读作斗争的问题,进入了本领域面对的中心议题。
以所选的证据开始说。OSC在做重复项目时,生成的样本有100个研究,取自出版1年内3个不同期刊,以接近合理的本领域抽样。笪章难却选择了“少量”文章(我数了下是14篇),来自不同年份、不同期刊,没有清晰的理由说明为何这些文章能代表整个领域。问题不是所选的数量,而是我们无法知道为什么选择这些文章而非其他文章,因此无法知道她的发现结果是否可延伸至她样本之外的其他研究。唯一的联系似乎是这些研究按她的标准都“不成立”。想一下如果OSC发现百分之百的样本文章都不能重复。我们会不会认为他们的结果可信?而笪章难则相反,永远正确,令人惊讶。
笪章难对这些文章的关注表现出更深程度的无代表性。OSC在重复项目中建立了清晰可辨的标准,可以宣布一项研究无法重复,也能承认做出这一结论的困难。相反,笪章难则每篇文章用不同标准,做出有争议的选择,并犯下彻底的错误,明显是特意设计的,为了突出差异。
她把文章作者名字弄错、引用版本弄错、论证所引用的书弄错、还在一些基本数学问题上出错。[3] 但是每一个论断加起来总是得到同一个肯定的结论:不能重复。在笪章难的手里,部分总是整体的完美代表。也许笪章难的文章最大的局限在于她对统计推论和计算模型极为狭窄的(也就是无代表性)的定义。在她看来,使用数据唯一恰当的方式是做显著性检验,也就是用统计模型去检验给定的假设是否“成立”。[4] 解释性数据分析、理论建构或预测性建模在她对本领域的理解中没有位置。[5]考虑到笪章难自己就没有做此类检验,这特别讽刺。她要别人按标准来,自己却不用据此负责。她也没有引用那些明确做了检验的文章[6]、或者引用质疑此类检验的价值的研究,[7] 或引用那些探讨词频和人类判断之间关系的研究,她是认为这一关系很成问题的。[8] 笪章难的研究工作的选择性和更广阔的研究景观深深脱节。这些实践突出了一个更普遍的问题,文学研究领域中太长时间以来都未审查这个问题。对于世上万物,要如何可靠地从个体观察转移到普遍信念?涉及归纳个体研究或整体领域时,笪章难的文章是选择性阅读问题的杰作。处理负责的、可信的归纳问题,将是未来本领域面临的最大挑战之一。数据和计算建模会和宇宙中其他学科一样,在此过程中扮演不可或缺的角色。
参考文献:
[1] Nan Z. Da, “The Computational Case Against Computational Literary Studies,” Critical Inquiry 45 (Spring 2019) 601-639.
[2] Open Science Collaboration, “Estimating the Reproducibility of Psychological Science,” Science 28 Aug 2015:Vol. 349, Issue 6251, aac4716.DOI: 10.1126/science.aac4716.
[3] 她把Mark Algee-Hewitt 写作Mark Hewitt, 把G. Casella当作 Introduction to Statistical Learning 的作者,实际上作者是Gareth James, 在附录中把我和Andrew Goldstone当作共同作者,实际上不是。
[4] 像下面这种说法也表明,就算统计学的这个方面,她也远远不够做可信的向导:“毕竟,统计学假定95%的时间里都没有差异,只有5%的时间里存在差异。寻找低于0.05的P值就是这个意思。”这不是寻找低于0.05的p值的意思。p值是零假设成立时得到观测数据的估计概率。原假设成立的情况下,p值越小,就越应该拒绝原假设。前面提到的5%门槛对于出现“差异”的频率(或者说,零假设不成立的频率)并无影响。相反,它的意义是:“如果我们从数据得出结论认为存在差异,我们估计我们在5%的时间内是错的。”“统计学”也不会“自动”假设0.05是合适的临界点。这取决于领域、问题和建模的目标。这些都是很严重的过分简化。
[5] 关于对文学模型的反思,见Andrew Piper, “Think Small: On Literary Modeling.” PMLA132.3 (2017): 651-658; Richard Jean So, “All Models Are Wrong,” PMLA132.3 (2017); Ted Underwood, “Algorithmic Modeling: Or, Modeling Data We Do Not Yet Understand,” The Shape of Data in Digital Humanities: Modeling Texts and Text-based Resources, eds. J. Flanders and F. Jannidis (New York: Routledge, 2018).
[6] 参见Andrew Piper and Eva Portelance, “How Cultural Capital Works: Prizewinning Novels, Bestsellers, and the Time of Reading,” Post-45(2016); Eve Kraicer and Andrew Piper, “Social Characters: The Hierarchy of Gender in Contemporary English-Language Fiction,” Journal of Cultural Analytics, January 30, 2019. DOI: 10.31235/osf.io/4kwrg; and Andrew Piper, “Fictionality,” Journal of Cultural Analytics, Dec. 20, 2016. DOI: 10.31235/osf.io/93mdj.
[7] 讨论显著性检验的价值的文献非常多。见Simmons, Joseph P., Leif D. Nelson, and Uri Simonsohn. “False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant.” Psychological Science 22, no. 11 (November 2011): 1359–66. doi:10.1177/0956797611417632.
[8] 参见Rens Bod, Jennifer Hay, and Stefanie Jannedy, Probabilistic Linguistics (Cambridge, MA: MIT Press, 2003); Dan Jurafsky and James Martin, “Vector Semantics,” Speech and Language Processing, 3rd Edition (2018): https://web.stanford.edu/~jurafsky/slp3/6.pdf; 关于交流和信息理论的关系,参见M.W. Crocker, Demberg, V. & Teich, E. “Information Density and Linguistic Encoding,” Künstliche Intelligenz 30.1 (2016) 77-81. https://doi.org/10.1007/s13218-015-0391-y; 关于与语言习得和学习的关系,见Erickson LC, Thiessen ED, “Statistical learning of language: theory, validity, and predictions of a statistical learning account of language acquisition,” Dev. Rev. 37 (2015): 66–108.doi:10.1016/j.dr.2015.05.002.
END
主编 / 陈静、徐力恒
责编 / 刘双双
美编 / 刘双双