查看原文
其他

数学家的追星技能:用统计学分析,解开披头士歌曲的作者之谜

科研圈 2018-10-19

论追星,数学家可是相当专业的。两名披头士真爱粉合作起来,用统计学找出歌曲真正的作者。


来源:AMERICAN STATISTICAL ASSOCIATION

翻译:阿金

审校:戚译引


图片来源:www.thebeatles.com


计量文体学(stylometry)是一种使用统计学技术来确定作者的方法,最著名的案例就是确定“大学炸弹客”的真身是泰德·卡辛斯基(Theodor Kaczynski),还发现莎士比亚和克里斯托弗·马洛(Christopher Marlowe)合作完成了《亨利四世》的剧本。在文本分析的过程中,暴露“幕后主笔”的并非那些不寻常的用词,而是最常用的词汇——常用词汇(如介词)的反复出现,标志了一个人可能的身份。


在爱德华王子岛的某次科学大会上,哈佛大学的统计学高级讲师马克·格利克曼(Mark Glickman)和戴尔豪斯大学的数学教授杰森·布朗(Jason Brown)意外发现对方也是披头士乐队(Beatles)的“真爱粉”,他们都想知道计量文体学的方法能否回答那个争议不休的问题:这些歌到底是谁写的,是列侬还是麦卡特尼?


格利克曼解释说,对于大部分标着“列侬-麦卡特尼”的歌曲,大家都清楚,也白纸黑字地写明,这是两人中的谁写的歌。然而,有数量惊人的歌曲(或者歌曲中某些段落)的作者尚存争议。例如,没人知道是谁创作了《In my Life》,这首歌出自 1965 年的专辑《橡皮灵魂》(Rubber Soul),在《滚石》(Rolling Stone)评选的“史上最伟大的 500首 歌曲”中排名第 23 位。列侬和麦卡特尼对这首歌的记忆完全不同。“所以,我们想知道是否能够使用数据分析技术,试图解开这首歌的创作之谜,看看它到底出自哪位之手。”格利克曼讲道。


约翰·列侬(左)和保罗·麦卡特尼(右),1964 年。| 图片来自维基百科


在哈佛统计学专业学生宋瑞安(音译,Ryan Song)的帮助下,格利克曼和布朗按照五个特征维度“解构”了披头士从 1962 年到 1966 年的所有歌曲。每个特征维度统计表示歌曲中某一音乐性特征出现的频率。“因为很难通过任何直接的方式将歌曲的音乐内容量化出来,所以我们方法背后的主要思想就是将歌曲转为一套不同的数据结构,通过定量方法给歌曲打上‘标签’,从而进行检验。”格利克曼继续说道,“试想一下,我们可以将某一种颜色解构成红、绿、蓝三种颜色按一定权重的组合。我们用同样的方法来处理披头士的歌,当然其中的成分不止三种。总之,我们的方法将歌曲分解为 149 种成分。


“歌曲的第一类特征就是不同常用和弦的使用频率,以及不常用和弦的集合,”格利克曼解释说,“我们确定了 11 种和弦类别。”然后,他们将旋律音符的特征提取出来,也就是主唱所唱的音符。接下来,他们记录下和弦转换的频率,即一个和弦接着另一个和弦出现的频率。在这里,他们再次将不常用的和弦转换归入单独的分类中。第四步,他们记录连续旋律音符对出现的频率。


最后,他们将歌曲分解为由四个旋律音符组成的“等高线”。格利克曼介绍,“等高线”就是四个旋音符旋律走向的排列顺序,分为“上升”、“下降”和“保持不变”。换言之,如果四个音符的走向是音调逐渐上升,那么其“等高线”就是“上升-上升-上升”,即每两个连续音符之间的音调是上升关系。格利克曼说,通过研究四音符等高线,能够获得额外的细节,有助于区分旋律创作的风格。


约翰·列侬 | 图片来自 www.johnlennon.com


在这里,格利克曼指出,这五个分类维度之所以能够作为不同音乐创作风格的“标签”,是因为大家都非常熟悉披头士的作曲风格:列侬写的歌通常旋律线起伏变化不大。


“想想列侬的《Help!》,它基本上是这样,‘当我更年轻的时候,比今天要年轻得多的时候’(When I was younger, so much younger than today),音调的变化不大。旋律会重复停留在同一个音符上,只在某些短乐句中出现变化。而保罗·麦卡特尼的歌,比如《Michelle》,‘蜜雪儿,我的美人,这几个字母组合起来多么动听’('Michelle, ma belle. Sont les mots qui vont très bien ensemble.),这一句的音调真是迂回曲折。”


保罗·麦卡特尼 | 图片来自 Wiki Commons


通过音乐性特征来解决未知或者争议作者问题,我们可以从以下三个步骤了解他们的方法:


首先,他们的模型假定一首歌中 149 个音乐性特征的每一个出现频率都取决于歌曲作者。以“基音”(tonic,一首歌的主调和弦)为例,列侬歌曲的基音会有一定的出现频率,而麦克特尼歌曲中基音出现频率可能与之不同。


其次,他们使用概率论的一种常用工具“贝叶斯定理”(Bayes rule)来反转概率。换言之,他们先统计作者明确的歌曲中 149 个音乐性特征的频率,由此建立一个概率模型,再利用这 149 个特征频率判断一首歌的作者是列农或麦卡特尼的概率。然后,他们使用 70 首已确定作者的列侬-麦卡特尼合作歌曲或者歌曲段落训练这个模型。


最后,他们用经过训练的模型判断作者有争议的列侬-麦卡特尼合作歌曲或歌曲段落,预测它的作者是某个人的概率。


《In my Life》出自 1965 年的专辑《橡皮灵魂》(Rubber Soul)。| 图片来自 Wiki Commons


“所以,《In My Life》这首歌是麦卡特尼作曲的概率为 .018,也就意味着,列侬才是真正的作者。”麦卡特尼记错了。但是《The Word》这首歌,格利克曼曾认为它肯定是列侬作曲,但是模型预测结果告诉他作者几乎肯定是麦卡特尼。


除了做一个音乐版《谁是真凶》(Whodunnit?,一档娱乐节目)之外,这个模型还能有更多的用处吗?“当然,”格利克曼肯定道,“这个技术可以被推广到其他地方,我们可以回顾一下流行乐发展史,把风格流变的影响用图表显示出来。”


原文链接:

https://www.eurekalert.org/pub_releases/2018-07/asa-lom072718.php



更多论文解读及推荐,点击👉关注领研网论文频道



阅读更多


▽ 故事

· 收入达到预期的科研人仅有15%,但多数人并不后悔读研/读博

· 只有高中文凭的NASA科学家:被他闻过,才能上天 | 周末趣谈

· 韩春雨回应撤稿论文处理结果:实验研究有缺陷不严谨,回应质疑不冷静,感到歉意并表达感谢

· 历时30年,中国学者测出迄今最高精度万有引力常数

▽ 论文推荐 

· 你吃下去的“天然食物”,真是天然的吗?

· 这种新型神经元,能解释人脑的独特性吗?| Nat Neurosci 论文推荐

▽ 论文导读

· Nature 一周论文导读 | 2018 年 8 月 23 日

· Science 一周论文导读 | 2018 年 8 月 24 日


内容合作请联系

keyanquan@huanqiukexue.com

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存