AI 插手！用文本分析鉴定《红楼梦》、《亨利八世》实际作者

From: 神经小刀 HyperAI超神经 2019-12-24

By 超神经

场景描述：《红楼梦》、《亨利八世》都是经典的文学名著，许多历史和研究都暗示这些名著有不止一位作者，但文学界对此众说纷纭无法给出定论。而最近，基于人工智能和数据科学的研究发现，则是从数据分析的维度上，去区分一部作品的具体作者。

关键词：文学名著文本分析

编译、作者：神经小刀校对、编辑：神经星星
人工智能又来插手文学界了，只不过这一次是用来「找作者」。

对于一部分文学作品来说，倘若创作者并不确定，再加上年代久远，没有详细的史料记载，作者问题往往就会成为众说纷纭的谜团。
想要发现事实的真相，需要后世的研究学者们，花费大量的精力去查找资料，进行研究对比。即便如此，也常常因为一些局限性而得不到最关键的证据。
不过，在人工智能的介入之下，似乎又多了一条拨开迷雾的道路。

用数据科学求证《红楼梦》的作者

对于《红楼梦》，普遍都认为是曹雪芹创作了前八十回，高鹗整理续写了后四十回，胡适、俞平伯、周汝昌等文学家也都赞同这一说法。
但文学界也有很多不同的声音，包括鲁迅、林语堂、王国维、白先勇等多位大师都认为：全一百二十回都是曹雪芹一人完成。

1. 1980 年发表的统计学研究
早在 1980 年的首届国际《红楼梦》研讨会上，就有研究者使用计算机的统计方法，尝试找出它的实际作者。
美国威斯康星州立大学的华裔学者陈炳藻先生，发布了一篇《从词汇上的统计论〈红楼梦〉的作者问题》的论文，引起了国际红学界的注意。
陈炳藻将《红楼梦》一百二十回本按顺序编成三组，每组四十回。还将另一部小说《儿女英雄传》作为第四组进行对比研究。

《红楼梦》作者的相关研究已经持续了数百年
从每组中任取八万字，分别挑出名词、动词、形容词、副词、虚词这五种词，通过当时的计算程序对这些词进行编排、统计、比较和处理，进而找出各组相关程度。
统计学的结果发现《红楼梦》前八十回，与后四十回所用的词汇正相关程度达 78.57%，而《红楼梦》与《儿女英雄传》所用词的正相关程度是 32.14%。
由此陈炳藻教授作出推断，前八十回与后四十回的作者均为曹雪芹一人所写。

2. 现代 SVM 算法研究

但如果用机器学习去判断，又会得出怎样的结论呢？
近年来就有一位工程师，利用简单的算法分析，去研究红楼梦的作者问题。他使用了 Python 工具，通过小说中用词的频率等特点进行了训练，以区分不同部分的风格问题。

他将全书进行分词，并进行词频统计，找出其中的高频词汇后，在每个章节中对其进行次数统计，以此得到了不同章回用词习惯的区别。

然后使用 SVM 算法搭建了一个模型，从前 80 回和后 40 回中，各选一部分章节喂给模型来学习写作特点，并把剩下的章节作为输入，让计算机来判断它们属于哪个部分。

最终模型能够以 95% 的准确度来进行预测判断，从而侧证了前 80 回和后 40 回在算法模型中，具有很明显的写作风格差异，属于不同的作者。

前 80 回（红色）和后 40 回（蓝色）用词习惯统计

这个项目也有缺点，比如选取的特征太少，最终选择作为指标的词汇只有 278 个，而且训练的内容局限于一本书中，没能严谨地说明问题。
如果说对《红楼梦》的作者分析只是小试牛刀，那么最近一位科学家对名著《亨利八世》的作者研究，则准确和严谨了许多。

作者成谜的《亨利八世》，AI 出手了

和《红楼梦》一样，英国著名的戏剧文学《亨利八世》，也遇到了同样的问题，它被称为是莎士比亚的最后一部作品，但它的实际作者却可能不止一位。

历史上的亨利八世是一位极其暴虐的君主，堪比更暗黑的秦始皇，仅在 1513-1547 年间，他就下令处决了约 72，000 名政治犯，甚至还将六任妻子中的两位送上了断头台。
因为人物本身的话题性和传奇性，关于他的文学及影视作品一直层出不穷，比如小说及改编的同名电影《另一个波琳家的女孩》、电视剧《都铎王朝》等。

《另一个波琳家的女孩》讲述了亨利八世的暴戾薄情
由「黑寡妇」斯嘉丽约翰逊和「黑天鹅」娜塔莉波特曼出演
剧本《亨利八世》创作于 1612 年，它是基于亨利八世的相关事件进行的改编和演绎，曾被多次搬上舞台，取得了很大社会反响。

但很多人在研读了文本之后，发现它的写作风格，都和沙翁的其他作品有太大出入。
有人质疑它是旁人所作，或者是合作的产物。直到 1850 年，有研究者具体地指出另一位剧作家弗莱彻可能是《亨利八世》合作者。
他的理由是：在《亨利八世》中找到了大量弗莱彻独有的写作风格。

弗莱彻（左）在莎士比亚（右）退任后成为了国王剧团的主剧作家
接下来的一个世纪里，关于作者的争论一直没有停息，甚至有一些观点里，认为第三位剧作家马辛格也参与了创作。
这个谜团，因为最近的一项研究而变得明朗起来。一位数据科学家，利用 AI 算法，更细致地找出了戏剧《亨利八世》的原作者，而且具体到了文中的每一个小节。

机器学习显身手，判定谁是真的作者

布拉格捷克科学院的研究员普列查奇（PetrPlecháč），最近使用了机器学习技术，来识别《亨利八世》中的作者问题，并取得具有说服力的结果。他的成果被写成论文，传到了 arXiv 上。

地址：https://arxiv.org/pdf/1911.05652.pdf

在这项工作中，普莱查从数据科学的维度，确定了《亨利八世》每一部分究竟是出自谁的手笔，并且给出了具体的论据。

他通过分析文本作品的内容，确定出不同作者的写作风格的某些特征，以此对作品进行辨别，并进行细致的划分和归类。

算法最后将《亨利八世》的某些章节归功于莎士比亚，而另一些则判给了弗莱彻，两个人对著作的的贡献几乎相等。不仅如此，算法还细化出了具体每个小节的作者。

1623 年首次出版的《亨利八世》首页

最终，机器学习给出的作者划分，符合此前某一项主流研究的观点，并且还取得了一些突破。

从词汇和节奏入手，辨别文本的来源

他具体是怎么做到的呢？

一旦了解了作者的风格和常用的字词和样式，便可以用来辨别新作品中的文本习惯样式，以判断它是不是出自同一个作者。

在这项研究中，让算法模型对文本常用词、以及常用语句节奏模式，进行学习分析，以使算法学会辨别这些特征。

对语句节奏（rhythmic types）和常用词进行综合分析并在其他作品上验证的模型准确度接近于 1

具体来说，要先将剧本细化到多个小的场景，并使用支持向量机对《亨利八世》的各个场景，进行归因分析，并进行分类。
其中，以 500 种最常见的节奏类型的频率，以及 500 个最常见单词的频率作为分类器的功能集。

鉴于作者在不同时期可能出现的风格差异，研究者采用了同时期其他戏剧的场景（如《暴风雨》、《科里奥拉纳斯》）作为训练样本。对于可能的作者，也同样收集了训练样本。
最终收集了 53 个莎士比亚训练样本，90 个弗莱彻训练样本和 46 个马辛格训练样本。为了估计模型的准确性，还通过交叉验证的方式进行检验。

完成训练学习后，将模型在《亨利八世》的文本上运行，结合词汇和多功能化的综合分析，确定哪些作者参与了剧本的写作，以及他们的具体贡献。
最后的结果证明，这是区分两位作者风格的非常可靠的判据。尤其是使用常用词和常用节奏的组合模型，在三位作者的风格鉴定上，准确率高于 96%。

分类器对不同章节 30 个样本的分类结果结果比公认最权威的作者划分（最后一栏）更细致
当应用于《亨利八世》的分析时，结果清楚地表明两位作者都参与其中。另一位传闻的剧作家马辛格，则在算法的层面上表明他和剧本无关。

新方法细化出每个小节的作者

为了更可靠地了解具体作者承担的份额，超越特定场景的简单归因，普莱查奇采用了叫做滚动归因（rolling attribution）的分析方法，确定具体文本片段的属于某位作者的概率。

滚动归因是一项针对涉及混合作者身份的案例的技术。在滚动归因中，不对整个文本或其逻辑部分（章节，场景等）进行分类，而是对其固定长度的重叠部分进行分类任务。

滚动归因判断两位作者其他作品的作者组成

和实际中的情况高度符合

该方法使用移动窗口的概念，并与标准的监督分类技术相结合。旨在评估离散文本样本之间的样式差异，以测试其文本样式的一致性。
结果表明，结合了词汇特征的滚动归因方法是非常可靠的：在区分莎士比亚和弗莱彻时，估计滚动归因的准确性高达 0.9977。

具体到每个章节的作者划分和可信度
使用这种方法，最后具体确定了每个章节归属于某个作者的可能性，在上图中，可以清晰地看到莎士比亚和弗莱彻各自完成的章节。结论就是：莎士比亚和弗莱彻各完成了近一半的内容创作。

AI 在文学领域摩拳擦掌

通过 AI 算法，去破解名著的作者之谜，对于文学研究者和爱好者来说，都是一件很有价值的事情。同时也提供了一个数据维度的视角，去看待此类问题。
当然，类似的 AI 方法除了应用于作者鉴定，代笔或者抄袭判断，还可以结合 GPT-2 之类的技术，生成某一风格的作品，这对那些在历史长河中遗失的著作，或许能够进行更好的还原。
如果借鉴到音乐和绘画等方面，不仅可用于确定作者身份，还能利用已知作者的风格来创作出新的作品。
这么想想，AI 成为大文豪的日子似乎也可以提上日程了呢。

—— 完 ——

扫描二维码，加入 AI 讨论群

获得更多优质数据集

了解人工智能落地应用

关注顶会&论文

回复「读者」了解更多

更多精彩内容（点击图片阅读）

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

林志玲终于晒娃，3岁儿子也太帅气了！网友：有孩子的，都来学学

毕业论文辅导| 你又不是伞，硕士论文|毕业论文|博士论文|课题论文不行就被硬撑了,靠谱的辅导机构才是晴雨伞！

爆火！59.9元入「普陀山福绳」！非遗编织...品牌直发