其他
AI 插手!用文本分析鉴定《红楼梦》、《亨利八世》实际作者
By 超神经
场景描述:《红楼梦》、《亨利八世》都是经典的文学名著,许多历史和研究都暗示这些名著有不止一位作者,但文学界对此众说纷纭无法给出定论。而最近,基于人工智能和数据科学的研究发现,则是从数据分析的维度上,去区分一部作品的具体作者。
关键词:文学名著 文本分析
编译、作者:神经小刀校对、编辑:神经星星
人工智能又来插手文学界了,只不过这一次是用来「找作者」。
对于一部分文学作品来说,倘若创作者并不确定,再加上年代久远,没有详细的史料记载,作者问题往往就会成为众说纷纭的谜团。
想要发现事实的真相,需要后世的研究学者们,花费大量的精力去查找资料,进行研究对比。即便如此,也常常因为一些局限性而得不到最关键的证据。
不过,在人工智能的介入之下,似乎又多了一条拨开迷雾的道路。
用数据科学求证《红楼梦》的作者
对于《红楼梦》,普遍都认为是曹雪芹创作了前八十回,高鹗整理续写了后四十回,胡适、俞平伯、周汝昌等文学家也都赞同这一说法。
但文学界也有很多不同的声音,包括鲁迅、林语堂、王国维、白先勇等多位大师都认为:全一百二十回都是曹雪芹一人完成。
1. 1980 年发表的统计学研究
早在 1980 年的首届国际《红楼梦》研讨会上,就有研究者使用计算机的统计方法,尝试找出它的实际作者。
美国威斯康星州立大学的华裔学者陈炳藻先生,发布了一篇《从词汇上的统计论〈红楼梦〉的作者问题》的论文,引起了国际红学界的注意。
陈炳藻将《红楼梦》一百二十回本按顺序编成三组,每组四十回。还将另一部小说《儿女英雄传》作为第四组进行对比研究。
从每组中任取八万字,分别挑出名词、动词、形容词、副词、虚词这五种词,通过当时的计算程序对这些词进行编排、统计、比较和处理,进而找出各组相关程度。
统计学的结果发现《红楼梦》前八十回,与后四十回所用的词汇正相关程度达 78.57%,而《红楼梦》与《儿女英雄传》所用词的正相关程度是 32.14%。
由此陈炳藻教授作出推断,前八十回与后四十回的作者均为曹雪芹一人所写。
2. 现代 SVM 算法研究
近年来就有一位工程师,利用简单的算法分析,去研究红楼梦的作者问题。他使用了 Python 工具,通过小说中用词的频率等特点进行了训练,以区分不同部分的风格问题。
如果说对《红楼梦》的作者分析只是小试牛刀,那么最近一位科学家对名著《亨利八世》的作者研究,则准确和严谨了许多。
作者成谜的《亨利八世》,AI 出手了
和《红楼梦》一样,英国著名的戏剧文学《亨利八世》,也遇到了同样的问题,它被称为是莎士比亚的最后一部作品,但它的实际作者却可能不止一位。
因为人物本身的话题性和传奇性,关于他的文学及影视作品一直层出不穷,比如小说及改编的同名电影《另一个波琳家的女孩》、电视剧《都铎王朝》等。
由「黑寡妇」斯嘉丽约翰逊和「黑天鹅」娜塔莉波特曼出演
剧本《亨利八世》创作于 1612 年,它是基于亨利八世的相关事件进行的改编和演绎,曾被多次搬上舞台,取得了很大社会反响。
有人质疑它是旁人所作,或者是合作的产物。直到 1850 年,有研究者具体地指出另一位剧作家弗莱彻可能是《亨利八世》合作者。
他的理由是:在《亨利八世》中找到了大量弗莱彻独有的写作风格。
接下来的一个世纪里,关于作者的争论一直没有停息,甚至有一些观点里,认为第三位剧作家马辛格也参与了创作。
这个谜团,因为最近的一项研究而变得明朗起来。一位数据科学家,利用 AI 算法,更细致地找出了戏剧《亨利八世》的原作者,而且具体到了文中的每一个小节。
机器学习显身手,判定谁是真的作者
布拉格捷克科学院的研究员普列查奇(PetrPlecháč) ,最近使用了机器学习技术,来识别《亨利八世》中的作者问题,并取得具有说服力的结果。他的成果被写成论文,传到了 arXiv 上。
地址:https://arxiv.org/pdf/1911.05652.pdf
最终,机器学习给出的作者划分,符合此前某一项主流研究的观点,并且还取得了一些突破。
从词汇和节奏入手,辨别文本的来源
具体来说,要先将剧本细化到多个小的场景,并使用支持向量机对《亨利八世》的各个场景,进行归因分析,并进行分类。
其中,以 500 种最常见的节奏类型的频率,以及 500 个最常见单词的频率作为分类器的功能集。
最终收集了 53 个莎士比亚训练样本,90 个弗莱彻训练样本和 46 个马辛格训练样本。为了估计模型的准确性,还通过交叉验证的方式进行检验。
最后的结果证明,这是区分两位作者风格的非常可靠的判据。尤其是使用常用词和常用节奏的组合模型,在三位作者的风格鉴定上,准确率高于 96%。
当应用于《亨利八世》的分析时,结果清楚地表明两位作者都参与其中。另一位传闻的剧作家马辛格,则在算法的层面上表明他和剧本无关。
新方法细化出每个小节的作者
滚动归因判断两位作者其他作品的作者组成
和实际中的情况高度符合
结果表明,结合了词汇特征的滚动归因方法是非常可靠的:在区分莎士比亚和弗莱彻时,估计滚动归因的准确性高达 0.9977。
使用这种方法,最后具体确定了每个章节归属于某个作者的可能性,在上图中,可以清晰地看到莎士比亚和弗莱彻各自完成的章节。结论就是:莎士比亚和弗莱彻各完成了近一半的内容创作。
AI 在文学领域摩拳擦掌
当然,类似的 AI 方法除了应用于作者鉴定,代笔或者抄袭判断,还可以结合 GPT-2 之类的技术,生成某一风格的作品,这对那些在历史长河中遗失的著作,或许能够进行更好的还原。
如果借鉴到音乐和绘画等方面,不仅可用于确定作者身份,还能利用已知作者的风格来创作出新的作品。
这么想想,AI 成为大文豪的日子似乎也可以提上日程了呢。
扫描二维码,加入 AI 讨论群
获得更多优质数据集
了解人工智能落地应用
关注顶会&论文
回复「读者」了解更多