城读│当文学遇到统计学:用数字揭示写作中隐藏的秘密
213
当文学遇到统计学:用数字揭示写作中隐藏的秘密
文字和数字世界不应相互分离。
Ben Blatt, 2018.Nabokov's Favorite Word Is Mauve: What the Numbers Reveal About the Classics, Bestsellers, and Our Own Writing, Simon & Schuster.
Source: https://www.simonandschuster.com/books/Nabokovs-Favorite-Word-Is-Mauve/Ben-Blatt/9781501105395
https://www.npr.org/2017/03/31/521836700/nabokovs-favorite-word-is-mauve-crunches-the-literary-numbers
https://www.forbes.com/sites/kevinknudson/2017/04/30/book-review-nabokovs-favorite-word-is-mauve/#f29295ee0593
豆瓣关注的一位友邻杜森最近发广播说他翻译的一本书《纳博科夫最喜欢的词》即将出版,我看了简介,感觉是我的菜——统计学家和记者本·布拉特运用数字解剖经典和当代流行文学作品,收集成千上万本文学著作构成数亿个单词的数据库,探索其中隐藏的大量有趣现象。
等不及中文版,立刻找了原著来读,题目直译《纳博科夫最喜欢的词是紫色:数字揭示经典著作、畅销书和我们自己写作的秘密》(Nabokov's Favorite Word Is Mauve: What the Numbers Reveal About the Classics,Bestsellers, and Our Own Writing)。主标题应该是作者有意向纳博科夫致敬,紫色是纳博科夫写作中最常用的词,而纳博科夫又以通感知名。
本书每一章都以聊天似口吻,提一个看似简单然而非常有启发的问题:我们最喜欢的作家是否遵循关于使用陈词滥调、副词和感叹号的传统写作建议?男作家和女作家写作有不同吗?最受欢迎的作家最喜欢哪些词语?算法是否可以从行文风格中识别作家的身份?哪个畅销书作家使用最多的陈词滥调?什么构成了一个伟大的开篇句?哪些作家使用最短的开篇句?哪些作家使用最长的开篇句?我们怎样根据封面来判断一本书?……引起读者兴趣,接着列出解答问题的方法步骤,然后给出分析的结果,用紫色的图表加以呈现(回应书名),结果中既有符合刻板印象的意料之中,也有很多意料之外,读得兴趣盎然,不想去睡,实在是一本很好玩、有新知、又极富启发的书。
文如其人
引言从美国建国历史的一桩公案讲起:《联邦党人文集》中的12篇文章到底是谁写的?(《联邦党人文集》是1780年代美国政治家在制定美国宪法的过程中所写有关美国宪法和联邦制度的评论文章的合集,以笔名普布利乌斯出版)。可能的作者有三位,分别为詹姆斯·麦迪逊、亚历山大·汉密尔顿和约翰·杰伊。麦迪逊和汉密尔顿都声称过各自的作者身份,150多年来,历史学家一直在争论谁是真正的作者,试图从每篇文章的政治倾向中找到答案,但没人能给出令人信服的结论。
直到1963年,这桩公案才终于由两位统计学家弗雷德里克·莫斯特勒和大卫·华莱士解决。他们采取如下步骤:(1) 计算出已知为每个人所写作品中常用词的频率;(2) 计算这些常用词在有争议的论文中出现频率;(3)比较。
当时还是前计算机时代,文学作品并没有电子化,也没有软件可以轻点鼠标完成。两位统计学家人肉统计不同词语的使用频率,进行对比分析。例如,while和whilst的使用,麦迪逊在所写过半的文章中使用whilst,从来不用while;而汉密尔顿在所写三分之一的文章中使用while,从来不用whilst。连同一系列其他常用词的使用对比,证实麦迪逊才是未名手稿的作者。
答案就藏在文字当中——但是为了找到答案,学者们需要的不是仔细阅读文字,而是仔细计算文字。
男女写作用词大不同
女作家对男性和女性的描写基本对等,但男作家写的绝大多数是男性。经典文学作品中,平均而言,男作家笔下每写一个“她”,就有三个“他”;而女作家笔下“她”与“他”出现的比率大致为1:1。
经典文学作品中,男作家写“她打断”的可能性是“他打断”的三倍。在当代通俗小说和严肃文学作品中,这一比例虽然小一些,但仍然存在。
作家的文学指纹
布拉特的核心问题之一是“检验知名作家是否存在文学指纹”。他像一个文学侦探,检视作家作品之后发现“作家最终的确以一种独特和一致的方式写作,就像每一个指纹都是独特和不变的一样”。
布拉特寻找使用频率远高于其他书面英语对这些单词使用频率的特定单词。布拉特使用由杨百翰大学语言学家汇编的英语文学作品大样本,包括1810-2009年的英语文学作品,总共约3.85亿个单词。
布拉特判断作家最喜欢的词的标准:
(1) 必须出现在至少一半的作者的书中;
(2) 必须以每十万字至少一次的频率使用;
(3) 不能是过于晦涩的词(在杨百翰大学汇编的英语文学作品大样本中的使用率不到百万分之一);
(4) 不是专有名词。
如下是布拉特的运算结果:
简·奥斯汀:礼貌、虚荣、轻率
丹·布朗:圣杯、共济会、金字塔
杜鲁门·卡波特:杂乱无章,动物园,天竺葵
阿加莎·克里斯蒂:验尸,不在场证明,可怕
斯科特·菲茨杰拉德:开玩笑、混乱、疗养院
伊恩·弗莱明:厕所,裤子,闪闪发光
欧内斯特·海明威:礼宾部,紫苑,干邑
托尼·莫里森:混乱,肚脐,溅出
弗拉基米尔·纳博科夫:紫色、平庸、双关语(布拉特指出,纳博科夫是个通感狂人,他可以将各种颜色与字母和单词的声音和形状联系起来。“紫色(Mauve)”是他最喜欢的词,他使用这个词的频率是杨百翰书面英语样本的44倍。)
阿伦·兰德:跨洲、同志、无产阶级
J.K.罗琳:魔杖、巫师、药水
谭恩美:葫芦、花生、面条
马克·吐温:心地善良,胡说八道,撒旦
弗吉尼亚·伍尔夫:脸红、墨渍、壁炉台
少用副词
一个广为人知的英文写作规则:副词不是你的朋友,要尽量避免使用。
海明威写作极简著称,有人传最知名最短的短篇小说就是出自海明威之手。仅有六个词:“出售:婴儿鞋,从未穿过”(For sale: baby shoes, never worn.),可谓少就是多的典范。
斯蒂芬·金也说:“通往地狱之路由副词铺就”。
布拉特想检验作家们写作时是否真的贯彻这一写作原则,统计作家作品中出现副词(仅包括以-ly结尾的副词)的频率。
他发现除了少数例外(D.H.劳伦斯除外),伟大的作品的确使用-ly副词也越少。海明威的确非常节制使用副词,但他还不算最节制的,福克纳有三部作品副词使用率比海明威更低。
布拉特在结语中说,“成功的作家一生中会写几十万字。在其他任何具有数十万个数据点的领域,我们可以通过挖掘这些数据来分析人类的行为和心理。我认为同样可以像挖掘数据那样挖掘文字……文字和数字的世界不应该相互分离”。
布拉特的话让我想起物理学家理查德·费曼与他一位艺术家朋友关于科学与艺术的争论。艺术家朋友拿起一枝花说,“我作为一个艺术家,可以看到一枝花是多么美丽。可你们科学家总是把它分解枝离,弄得干巴、枯燥无味。”
费曼不同意,反驳道:“他(艺术家)所领略的美也同样能被我和其他人看到。尽管在艺术美学上我不如他那么训练有素、品味细致……其次,我从这朵花里领略的比他要多的多。我能想见花里边的一个个细胞,它们也很美。美不仅存在于肉眼可观的度量空间,而且也存在于更细微的度量空间……科学只会增加并丰富美,绝不会减少它”。
借用费曼的话,数字只会增加并丰富文字的美,绝不会减少它。
城读相关阅读:
16.城读│史蒂芬·金的写作课
23.城读│怎样用地图撒谎?
35.城读│统计数据会跳舞
81.城读│伊尔德方斯•塞尔达:城镇化之父与现代巴塞罗那的缔造者
96.城读│亚历山大·冯·洪堡:用旅行与科学测量世界,定义自然
117.城读│纪念汉斯·罗斯林(Hans Rosling):用跳舞的统计数据教我们认识世界
127.城读│人人都会撒谎!互联网大数据: 诊断人性的“豪斯医生”
135.城读│博尔赫斯谈话录
144.城读│人人都能学好数理化(即使你自认没有数理化天分考试总是不及格),如果你学会如何学习
148.城读│《核心经济》开放课程用全新方式教你理解真实的世界
165.城读│幂律:隐藏在细胞、生物、城市、公司等复杂系统背后的简单规律
167.城读│诗歌里的城市和城市生活
173.城读│现代女权主义奠基人玛丽·沃斯通克拉夫特的《女权辩护》
174.城读│原来你是这样的乔治·奥威尔
200.城读│谭抒真:一个中国小提琴家传奇的一个世纪
211.城读│学习21世纪统计思维
212.城读│英国工业城市景观最杰出画家劳里笔下的现代城市生活
(点击文章标题,或进入公众号回复标题前的数字获取文章 )
城读 ∣城市阅读的记录
微信公共订阅账号“城读”,每周推送城市阅读笔记
关注我们,请搜索账号 CityReads
或长按上方图片,识别二维码关注