查看原文
其他

复联好cp:口头禅揭秘漫威基友情

数据冰山 数据冰山 2022-04-11

(题图来源:漫威官网)

【剧透预警:请注意,看过《复3》的请直行,尚未观影的请走右边出口。】

《复仇者联盟3:无限战争》的14,000,605的可能结局中,为什么偏偏弄死了那几个呢?

答案就在人物关系中。

现在有这么一张没标名号的英雄人物关系图,情智双高的你一定能猜出谁是谁。

下图中每个圆圈表示复联中的一个人物,箭头表示谁喜欢呼叫谁,从叫人者指向被叫者,呼叫别人越多的,圆圈颜色越深。呼叫与被呼叫的连线,近似人物之间的影响关系。


这张图如果让灭霸他老人家拿到,肯定会先深后浅:上来先灭了那个深绿色的社交大蝴蝶A,然后拳打眉来眼去的B和C,脚踢自娱自乐那位D,最后再收拾那几个单向呼叫和孤苦伶仃的,多么按部就班啊!


在填名字之前,先交代一下这张图怎么来的。

首先得感谢有位数据女扫了前面三部漫威电影的剧本。

话说2018年4月,Elle O'Brien作为女漫威迷,焦急地等待着《复3》的公映。她在Medium.com的签名档是「计算机科学家、软件开发者和科技作家」。为了提高预习效果,她找来了前面三部展现复仇者们群像的电影的英文剧本,进行了文本分析。这三部电影是:

《复仇者联盟》(2012),

海报来源:时光网


《复仇者联盟2:奥创纪元》(2015),

海报来源:时光网


和《美国队长3:英雄内战》(2016)。

海报来源:时光网

O'Brien文本分析的目的是:找出每一位人物的台词中什么词汇的使用频率显著比别的人物高。这里她采用的量化指标是「对数优势比」(log odds ratio)。

这是地球人衡量「某人的某特征是否比其他人突出」的一个小套路:对于某位人物A,一个词的优势比,就是「A说这个词的概率」与「别人说这个词的概率」之比。然后再取自然对数,得到一个无量纲的指标叫「对数优势比」:

  • 指标如果是0,表示A同学说该词的概率跟全班其他同学没什么不同;

  • 指标如果是1,表示A说该词的概率是其他同学说该词概率的2.718...倍。

对了,这个无理数2.718...就是「自然对数的底」,咱们地球人管它叫「e」,在漫威宇宙各星球上可能叫别的,但肯定也是这个数儿。(不信查资料:张戎:数学里的 e 为什么叫做自然底数?是不是自然界里什么东西恰好是 e?

用这个方法,O'Brien真的发现:复男复女们每位都有自己的招牌台词!比如谁爱吐脏字,谁老是支支吾吾卖萌,谁老害怕,谁老装。O'Brien有一个特别长的大表总结了他们各自最爱念的台词。

但是数据表太啰嗦颜值又低。这样,咱就拣重要的,把每位最爱碎碎念的五个词儿挑出来,来张复联众神口头禅一览图。

幸好有一位可视男已经帮咱把口头禅一览图做好了。

这位可视男叫Matt Winn,他用一个叫R的东西,把O'Brien的结果和我们熟悉的那十几张脸,组合成这张一目了然的口头禅图。

翻译成中文后是这个画风:

Elle O'Brien数据,Matt Winn制图,张戎国产化。

你仔细看,发现什么秘密了吗?

对!他们爱说的词儿里,有好些都是同伙的名字啊!而且有的叫得不嫌肉麻,有空可以对照一下英文原版。比如黑寡妇,别人都叫她娜塔莎,就鹰眼个别,呼唤她「Nat」!鹰眼叫美队也不好好叫,直呼「Cap」。

甭管肉麻不肉麻,咱要的东西就在这儿了。谁经常叫谁,暴露的就是这帮人的关系!

根据口头禅数据中的呼叫关系,我们提取了复联团伙的关系图。

数据来源:Elle O'Brien。Gephi可视化:张戎。

瞧瞧这个队形是不是很明显?

  • 最绿的社交大蝴蝶是美队,喜欢叫人也常被人叫;

  • 黑寡妇和鹰眼关系不一般;

  • 绿巨人除了叫寡妇就是跟自己的双重人格较劲,大便干燥即视感;

  • 钢铁侠自命不凡,最常叫的是自己管家;

  • 雷神对兄弟洛基不错,可惜没得到回报;

  • 红女巫看样子要撩幻视...

那么看完电影的你,觉得灭霸掌握了这张图吗?


在谈结局之前,先回答剧本迷、编程迷、做图迷们的问题吧。

Q1. 「三部影片的英文剧本哪里找?」

这里,拿走不谢。

Q2. 「口头禅一览图的英文原版在哪?看看你翻得靠不靠谱。」

不靠谱。反正只要名字、小名、昵称能找准,关系图就有了。其它那些口头禅的翻译,英文原版在这里,看看有没有更地道的翻法?

英文原版口头禅一览图。来源:mattwinn.com


另外,O'Brien的英文原文在这:I analyzed Marvel movie scripts to learn what each Avenger says most。这是Elle O'Brien的头像。

Elle O'Brien。来源:mattwinn.com

Q3. 「做这种带照片的条形图都用到R里的哪些包?」

R我也没玩过。你可以去看可视男Matt Winn写的配方。他说就用了八个包:

library(dplyr) library(grid) library(gridExtra) library(ggplot2) library(reshape2) library(cowplot) library(jpeg) library(extrafont)


完整配方的链接在此:

Winn口头禅图谱可视化:Avengers: What do they talk about?

可视男Matt Winn。来源:mattwinn.com

Q4. 「哪里有优势比的严谨定义?要带公式的!」

维基百科凑合能看吗?优势比:Odds ratio - Wikipedia

Q5. 「哪里有漫威世界中英对照表?」

这有一个:帮助:译名对照表 - 漫威电影宇宙资料站 - 灰机wiki

Q6. 「人物关系网图用什么做的?」

一个叫Gephi的免费工具。这里可以下载:The Open Graph Viz Platform

这有一个快速上手的说明:derekgreene.com/slides/derekgreene_gephi_slides.pdf

Q7. 「做Gephi人物关系网图需要准备什么样的数据?」

这种简单的Gephi图有两张CSV表就可以。一个叫节点表(Nodes),就是那些圆圈;一个叫边表(Edges),就是那些连线。

这里的节点有20个:

节点表


这里的边有16条,从源(Source)指向目标(Target),用节点表中的人物编号标明呼叫者和被叫者:


能坚持看到这儿的,是不是只剩下彩蛋强迫症患者了?

刚才聊攻略这会,有灵感的数据工作者@刘超-YM同学打印了一张关系图,用红笔勾了勾,转身默默地离开了。

原来,他虽然手无时间原石,却用这张图就发现了那个惊天大秘密:14,000,605的可能结局中,为什么偏偏是这一个?

大家看,这是他勾过的图:

刘超标记的《复3》结局

你看到了什么?

打红框的都是灭霸1/2「随机」湮灭弄死的英雄。

而这根本就不是随机的!

被弄死的英雄都是颜色最浅和次浅的圆圈。

死谁都没有死核心,联盟战队必然能卷土重来。

奇异博士肯定看到了这个的结局,才那么痛快交出时间原石。

无限手套肯定是复仇者联盟一伙安插的。


看来灭霸并没有事先掌握这张图,所以我们后面还有《复4》看!


点击查看历史文章,揭开冰山水面下更多的数据秘密!



知乎专栏:数据冰山

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存