你写的每个“的地得”,都可能成为呈堂证供
The following article is from 果壳 Author 圆的方块
上世纪,美国出现了一位神秘的炸弹客。
从1978年到1996年被捕,17年里,他寄出了16枚炸弹,造成了3人死亡,23人受伤。在这期间,FBI出动了500多名特工,花费了数百万美元,也没抓到这位“炸弹客”(Unabomber)。
看起来,这是一位行事谨慎的高智商犯罪者:随机选择袭击目标,并且几乎没有在现场留下任何可以追溯的证据,比如指纹、头发或其他纤维,包括制作炸弹的材料,也无从追溯购买地址,比如用到的木头看起来就像是路边捡来的垃圾。
1987年炸弹客制造的一次爆炸后的炸弹碎片丨FBI
破案的线索,最终落到了“炸弹客”的语言风格。
1995年,FBI收到一封信。寄信人说,那些炸弹都是自己寄的,并且以“停止炸弹攻击”为条件,要求刊登他的一篇论文,题为《论工业社会及其未来》(Industrial Society & Its Future)。寄信人声称,这篇论文可以解释他的作案动机以及对社会弊病的看法。
当年的论文原件丨FBI
经过“要不要屈从于恐怖分子”的辩论,FBI决定将这篇论文公开发布,希望有人能认出作者。
这篇论文宣称现代技术与工业化严重侵蚀了人类社会,因此需要有人站出来阻止技术进步,从而拯救全人类。这些极端言论引发了广泛讨论,“炸弹客”因此被很多极端分子和无政府主义者视为“英雄”;同时,也引起了民众的注意。
很快,一位名叫大卫·卡辛斯基(David Kaczynski)的群众通过律师联系了警方,说发现这篇论文的观点和写作风格都很像自己的兄弟泰德·卡辛斯基(Ted Kaczynski),并提供了一些旧的信件和文章素材。
FBI专家对这些材料进行了语言学分析,发现,除了“科技有罪”的论点,还有很多写作风格都和公开的炸弹客的论文相符,比如,格式、标点和独特的拼写(炸弹客的论文发布之前,FBI就注意到,论文里的“analyse”一词采用了英式拼写)——但这些证据不足以让他们签署搜查令。
关键证据来自一封信,里面有一句“you can’t have your cake and eat it, too”,在炸弹客的论文第185段,也使用了同样的措辞。以此为突破口,警方最终在美国蒙大拿州一处偏远的小木屋中找到并逮捕了炸弹客本人,也就是泰德·卡辛斯基。
“you can’t have your cake and eat it, too” 丨参考文献[5]
资料显示,泰德·卡辛斯基的智商高达167,16岁就被哈佛大学数学系录取,25岁就成为加州大学伯克利分校历史上最年轻的数学系助理教授——这样一位疯狂的高智商反社会炸弹客,最后败露于自己的行文风格。
“炸弹客”泰德·卡辛斯基(Ted Kaczynski)丨FBI
“去目的地得打的”
在刑侦工作中,能够追溯一个人身份的方法有很多,比如指纹、虹膜、DNA等,都是独一份儿的身份标识。
其实,语言和写作风格也能够用来确认身份,比如,上文中的炸弹客就是被自己兄弟辨认出了写作风格。调查这宗案件的FBI调查员曾说:“没有两个人会写得一样(No two people write alike)。”
一个人在书写或者打字时,会形成一些特定的词语用法,而这点小线索,就像文字上的指纹,可以让我们分辨这篇文字到底出自谁手。这种将文章书写特征作为“指纹”来判断作者的技术,叫做“作者识别”(Author Verification)。有一门叫做“刑侦语言学(Forensic Linguistics)”的学问,就是专门研究书写或语言的表达方式,来分析案情中嫌疑人或被害者的身份信息。
2018年,《纽约时报》刊登了一篇匿名文章《我是特朗普政府中的一名抵抗者》,作者自称是白宫的工作人员,对当时的美国政坛一顿批评。这可把时任总统特朗普气得不轻,表示一定要揪出这个“内鬼”。这时,作者识别就有了用武之地。有人发现,在这封匿名信中出现了“北极星(lodestar)”,而当时的副总统彭斯就特别爱用这个词。后者当然赶紧出来否认。
《纽约时报》发表的匿名文章 丨《纽约时报》发表的匿名文章
作者识别有很多流派和技巧。比如,特定年代的用语可以判断书写者所处的年份(“你是GG还是MM”,“你妈喊你回家吃饭”,“神马都是浮云”这些当年爆火的流行语如今已经成了时代的眼泪);一些特定词汇的使用也可以体现作者的职业(比如,总是把闭环、抓手、赋能这些词挂在嘴边的,很大可能是互联网从业人员)。
这些流派在分析时,大多以实词作为依据。实词,比如名词、动词、形容词之类,一般会用来表达具体的意思。但是,使用实词分析会面临一个问题:作者在撰写不同的内容时,会用到不同体系的实词。比如,一个生物学家兼职写作言情小说。在工作时,他会用到大量的生物术语;而在夜班码字时,可能会用到很多情情爱爱的词汇。所以,用实词来判断作者时,容易被不同文体间的转换干扰。
作者在撰写不同的内容时,会用到不同体系的实词 丨Giphy.com
比起实词,副词、介词、连词等虚词通常就没啥确定的含义,即使写不同题材的文章,虚词的使用频率也大体不变。有人做过统计,在汉语文章中,“的”字的出现频率大约是每10字出现0.45次,是所有人都最常用的汉字之一 。同样,“地”、“得”、“吗”、“呢”之类虚词的出现频率,也几乎不受文章内容的影响,更能反映作者的写作习惯。
容易混用的“的地得”三兄弟
在中国,最知名的作者识别案例,当属“《红楼梦》后40回作者悬案”。《红楼梦》全书120回,目前公认的说法是曹雪芹写了前80回,高鹗续写了后面的40回。1970年,红学家赵冈,就用 “的”、“了”、“在”、“儿”、“著” 这五个字的出现频率来研究红楼梦的作者问题,得出了前80回和后40回确实出自不同人之手。
这项研究中用了5个字,其中3个都是虚词。
用算法在文学圈证明“你是你”
与曹雪芹类似,国外也有那么几个大作家,需要后世学者来给其名下的作品掌掌眼,比如英国文豪莎士比亚。
威廉·莎士比亚丨John Taylor / Wikimedia Commons
很多文学研究者认为莎士比亚的一些作品其实也是他人续写的,其中就包括名作《亨利八世》。
《亨利八世》是莎翁晚期的作品。晚年的莎士比亚一直担任King’s Men剧团的剧作家,他去世后,约翰·弗莱彻接替了这个职务。因此,有人“合理”怀疑弗莱彻续写、甚至修改了《亨利八世》。
亨利八世和家人 丨Unknown author / Wikimedia Commons
1850年,文学评论家詹姆斯·斯派丁(James Spedding)提出了一些证据:在《亨利八世》书稿中,有时会用ye代替you,或用em代替them,而这些都是弗莱彻的行文习惯。
当然,相关的说法一直存在争议。即便是二人合著,也没法判断到底这部作品中,莎翁和弗莱彻各自贡献了多少。
然而,随着技术的进步,特别是机器学习算法的成熟,有人就想用新方法来解开《亨利八世》的谜题。
2019年,一位名叫彼得·普莱查(Petr Plecháč)的研究员说自己有了答案。这位来自捷克科学院的学者,使用机器学习算法来识别剧本的每一行文字,然后让机器来判断作者是谁。
为了训练算法,得出优化模型,彼得先是翻出与《亨利八世》同时期的其他莎翁著作,包括《冬天的故事》、《暴风雨》等。然后,他将这些著作变成一行行数据,喂给了算法,再让程序能识别莎士比亚的单词和语句模式。同样,彼得也找来了不少弗莱彻所写的剧本,让算法进行学习。最后,这个经过训练的算法就可以成为一名裁判,来分辨《亨利八世》的内容到底出自谁人之手。
S代表莎士比亚,F代表弗莱彻,带下标的数字表示给定段落的最后一行丨参考文献[8]
人工智能的分析结果证实了斯派丁的猜测——弗莱彻确实参与了《亨利八世》的撰写。而且,根据算法的分析,弗莱彻贡献还不小,有一半左右的剧本都出自他笔下。甚至,算法还能精确地指出哪些段落是莎士比亚自己写的,而哪些是弗莱彻所写。比如,算法分析了第二幕第三场,前1261行是莎士比亚所写,而1261~1299行的作者则是弗莱彻,随后又转回莎士比亚。
当然,真相早已埋没在历史洪流之中,现代学者能做的,只是基于概率来做出合理的推测。对于成名的作家来说,即使部分作品存在捉刀人,也不能撼动其文学地位。
不过,有些作家面临的状况就更窘迫些了,因为有后人怀疑其所有作品都不是自己写的——法国剧作家莫里哀就遭到了这样的全盘否定。
莫里哀画像丨Pierre Mignard / Wikimedia Commons
写出过《吝啬鬼》、《伪君子》等名作的莫里哀,在法国人民心中的地位和莎士比亚在英国人心中的地位差不多。
然而,几百年后,有人开始怀疑莫里哀并没有写过剧本,说他其实是个欺世盗名之徒,理由包括:首先,根据历史记载,莫里哀是当时的知名演员,一辈子几乎都在旅行和巡演,哪有时间写剧本?再者,人们从没发现过莫里哀亲笔签名的原稿。
还有评论家列出了几位可能的“枪手”人选,其中呼声最高的,是一位名叫皮埃尔·科尼耶(Pierre Corneille)的剧作者。有人甚至据此脑补了一出“代笔大戏”:受过良好教育的科尼耶,写了这些剧本,然后签上莫里哀的名字,这样可以利用莫里哀的明星效应,让剧本更受欢迎。
“代笔疑云”中的这些当事人早已长眠地下,没法出来对证。于是,探案工作又交到了机器手中。
“Why Molière most likely did write his plays” 丨参考文献[9]
2019年,两位法国学者在学术期刊《科学进展》 (Science Advances)上发表了一篇论文,题为“Why Molière most likely did write his plays(为什么说莫里哀很可能写了他的剧本)”。
看论文标题,就知道这项研究一定十分严谨。
研究者收集了莫里哀、科尼耶以及其他10位同时代作家的作品,将这些作品输入计算机程序,并统计了每个作者对虚词的使用频率。为了力求准确,他们还分析了词汇、词缀、语法等方方面面,最终提炼出了每个作者的行文特征。
经过海量的数据收集、复杂的统计学分析,配合优化的机器学习算法,这两位法国学者心满意足地敲下了论文的结论:
“These conclusions strongly substantiate the idea that Molière indeed wrote his own plays。”
(这些证据强烈表明:莫里哀的剧本确实是莫里哀写的)。
参考文献
[1]Jankowska, M., Milios, E., & Keselj, V. (2014, August). Author verification using common n-gram profiles of text documents. In Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: Technical Papers (pp. 387-397).
[2]https://www.fbi.gov/history/famous-cases/unabomber
[3]https://www.fbi.gov/news/stories/the-words-of-a-killer-the-unabomber-case-25-years-later-040221
[4]https://www.fbi.gov/news/podcasts/inside-the-fbi-the-unabomber-case-040821
[5]Kaczynski, B. T. . INDUSTRIAL SOCIETY AND ITS FUTURE (1995).
[6]孙晓明, & 马少平. (2001). 基于写作风格的作者识别. In 见: 中国中文信息学会二十周年学术会议论文集. 北京: 清华大学出版社.
[7]赵冈、陈钟毅,《红楼梦新探》,1970
[8]Plecháč, P. (2019). Relative contributions of Shakespeare and Fletcher in Henry VIII: An analysis based on most frequent words and most frequent rhythmic patterns. Digital Scholarship in the Humanities.
[9]Cafiero, F., & Camps, J. B. (2019). Why Molière most likely did write his plays. Science Advances, 5(11), eaax5489.
作者:圆的方块
编辑:麦芽杨
本文来自果壳,未经授权不得转载.
如有需要请联系sns@guokr.com
本期责编:李欧丽
往期回顾
2021-06-04
2021-06-03
2021-06-02
2021-06-01