查看原文
其他

对撞机 | 我文章中的一些错误

笪章难 零壹Lab 2022-10-08



《批评探索》杂志在2019年春季期刊出了笪章难的《以计算的方法反对计算文学研究》一文,这篇文章对计算文学研究领域提出了若干挑战。文章刊出后,在数字人文文学研究领域引发了广泛的讨论。为了继续这一对话,《批评探索》邀请了几位数字人文和比较文学研究从业者和批评家对此作出回应,讨论围绕笪章难的计算方法和理论预设展开,并就数字人文文学研究对人文学发展的意义展开积极的回应。这是一次难得的既有统计技术方法、又有历史和理论意义的关于数字人文文学研究及其与人文学关系的学术讨论,会继续推动数字人文文学研究的发展。


本期讨论由汪蘅翻译,姜文涛审校。

笪章难(Nan Z. Da),美国圣母大学英语系教授。


1. “毕竟,统计学自动假设”(p.608)这个说法是不对的。更正确的说法应为:在标准假设检验中,95%置信度意味着,当零假设成立时,95%的情况下无法拒绝。


2. 将不同的文本挖掘/机器学习应用描述(p.620)为“伦理上是中性的”,措辞不够小心。我显然并不认为其中有些应用在伦理上是中性的,例如用算法追踪恐怖分子。论文中的意思是,这些工具有无数种应用:为了好的、坏的、或其他的目的。总的来说很难给它们分配一个意识形态的位置。


3. 泰德·安德伍德说我在讨论他的文章《体裁的生命周期》时,将“令人不快的乱炖”和他用于预测性模型中的随机控制集混淆了,他是对的。安德伍德也没有犯我在文章中提到的他犯下的基本统计错误(“安德伍德应该在1941年前的侦探小说上训练”)[p.608])。


有关错误陈述的指控:一篇论文“仅有的中心思想……是说我们称为‘体裁’的东西也许是不同种类的实体,有不同的生命周期和文本连贯度”,要释义这篇论文是困难的。此处安德伍德的论点涉及侦探小说、哥特小说和科幻小说随时间过去的相对连贯性,以1930年为截断点。


我关于这篇文章的其他说法依然成立。该文引用了不同文学学者关于体裁变化的定义,但它隐含的体裁定义是“10000个常用词随时间过去的一致性”。它无法“拒绝弗朗哥·莫雷蒂关于体裁有代际循环的推测”(多数人应已发现这个推测太过于简化论),因为它所用的不是同样的可检验的体裁定义或变化定义。


4. 主题模型:我的观点不是说主题模型不能重复(non-replicable),而是说,在这个特定应用中,它们不鲁棒(robust)。各种证据中的一个:如果我从一百个文档中移除一个文档,主题就变了。这就是问题。


5. 关于霍伊特·朗和苏真的论文《湍流》,我需要比这个格式容许的更多一点时间,负责地重新跑一下其他方案。霍伊特·朗和苏真建立的工具有13个特征,用于预测两个体裁间的差异——意识流和现实主义。他们说:大多数特征单独不怎么有预测性,但合起来就非常有预测性,而那种能力被集中在单独一个特征中。我表明那一个特征不鲁棒(robust)。修正一下他们令人困惑的隐喻:就好像如果有人声称一架钢琴弹奏起来很优美而大半声音来自一个键。我按了那个键;没用。


6. 苏真和霍伊特·朗辩称,因为我证明他们的分类器错误地分类了非俳句——如他们指出的,我不仅使用了中文诗歌的英译,还用了俳句之前久已存在的日文诗歌——我就犯了“误入歧途的抉择,有东方主义的气味……它完全抹去了语境和历史,提出一个实际不存在的本体论关系。”这一点值得搞清楚。他们的分类器缺乏力量,因为它仅能以非常不同于俳句的诗歌为参照分类俳句;说白了,它会把包含和俳句很接近的重叠关键词的同样短小的文本分类为俳句。重叠的关键词是他们的预测特征,不是我的。我不确定为什么指出这一点就东方主义了。至于他们的模型,如果不得不说,我会说,它只是轻微东方主义,如果不是决定性的东方主义的话。


7. 霍伊特·朗和苏真提出,我的“数字无法信任”,我的“批判充满技术和事实错误”;结尾也同样断定我的论文不“怎么鼓励信任”。我承认在这篇文章中犯了一些错误,但不是在我对霍伊特·朗和苏真论文的分析中(错误基本在第3部分)。我希望用印刷出版或在线附录这种更正式的回复中列出所有这些错误。说了这些,一个错误不等于似是而非含沙射影地说证明了某人模型无效就是东方主义、冥顽不化,诸如此类。

END


主编 / 陈静、徐力恒

责编 / 任苗青

美编 / 任苗青



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存