复联好cp:口头禅揭秘漫威基友情
(题图来源:漫威官网)
【剧透预警:请注意,看过《复3》的请直行,尚未观影的请走右边出口。】
《复仇者联盟3:无限战争》的14,000,605的可能结局中,为什么偏偏弄死了那几个呢?
答案就在人物关系中。
现在有这么一张没标名号的英雄人物关系图,情智双高的你一定能猜出谁是谁。
下图中每个圆圈表示复联中的一个人物,箭头表示谁喜欢呼叫谁,从叫人者指向被叫者,呼叫别人越多的,圆圈颜色越深。呼叫与被呼叫的连线,近似人物之间的影响关系。
这张图如果让灭霸他老人家拿到,肯定会先深后浅:上来先灭了那个深绿色的社交大蝴蝶A,然后拳打眉来眼去的B和C,脚踢自娱自乐那位D,最后再收拾那几个单向呼叫和孤苦伶仃的,多么按部就班啊!
在填名字之前,先交代一下这张图怎么来的。
首先得感谢有位数据女扫了前面三部漫威电影的剧本。
话说2018年4月,Elle O'Brien作为女漫威迷,焦急地等待着《复3》的公映。她在Medium.com的签名档是「计算机科学家、软件开发者和科技作家」。为了提高预习效果,她找来了前面三部展现复仇者们群像的电影的英文剧本,进行了文本分析。这三部电影是:
《复仇者联盟》(2012),
海报来源:时光网
《复仇者联盟2:奥创纪元》(2015),
海报来源:时光网
和《美国队长3:英雄内战》(2016)。
海报来源:时光网
O'Brien文本分析的目的是:找出每一位人物的台词中什么词汇的使用频率显著比别的人物高。这里她采用的量化指标是「对数优势比」(log odds ratio)。
这是地球人衡量「某人的某特征是否比其他人突出」的一个小套路:对于某位人物A,一个词的优势比,就是「A说这个词的概率」与「别人说这个词的概率」之比。然后再取自然对数,得到一个无量纲的指标叫「对数优势比」:
指标如果是0,表示A同学说该词的概率跟全班其他同学没什么不同;
指标如果是1,表示A说该词的概率是其他同学说该词概率的2.718...倍。
对了,这个无理数2.718...就是「自然对数的底」,咱们地球人管它叫「e」,在漫威宇宙各星球上可能叫别的,但肯定也是这个数儿。(不信查资料:张戎:数学里的 e 为什么叫做自然底数?是不是自然界里什么东西恰好是 e?)
用这个方法,O'Brien真的发现:复男复女们每位都有自己的招牌台词!比如谁爱吐脏字,谁老是支支吾吾卖萌,谁老害怕,谁老装。O'Brien有一个特别长的大表总结了他们各自最爱念的台词。
但是数据表太啰嗦颜值又低。这样,咱就拣重要的,把每位最爱碎碎念的五个词儿挑出来,来张复联众神口头禅一览图。
幸好有一位可视男已经帮咱把口头禅一览图做好了。
这位可视男叫Matt Winn,他用一个叫R的东西,把O'Brien的结果和我们熟悉的那十几张脸,组合成这张一目了然的口头禅图。
翻译成中文后是这个画风:
Elle O'Brien数据,Matt Winn制图,张戎国产化。
你仔细看,发现什么秘密了吗?
对!他们爱说的词儿里,有好些都是同伙的名字啊!而且有的叫得不嫌肉麻,有空可以对照一下英文原版。比如黑寡妇,别人都叫她娜塔莎,就鹰眼个别,呼唤她「Nat」!鹰眼叫美队也不好好叫,直呼「Cap」。
甭管肉麻不肉麻,咱要的东西就在这儿了。谁经常叫谁,暴露的就是这帮人的关系!
根据口头禅数据中的呼叫关系,我们提取了复联团伙的关系图。
数据来源:Elle O'Brien。Gephi可视化:张戎。
瞧瞧这个队形是不是很明显?
最绿的社交大蝴蝶是美队,喜欢叫人也常被人叫;
黑寡妇和鹰眼关系不一般;
绿巨人除了叫寡妇就是跟自己的双重人格较劲,大便干燥即视感;
钢铁侠自命不凡,最常叫的是自己管家;
雷神对兄弟洛基不错,可惜没得到回报;
红女巫看样子要撩幻视...
那么看完电影的你,觉得灭霸掌握了这张图吗?
在谈结局之前,先回答剧本迷、编程迷、做图迷们的问题吧。
Q1. 「三部影片的英文剧本哪里找?」
这里,拿走不谢。
Q2. 「口头禅一览图的英文原版在哪?看看你翻得靠不靠谱。」
不靠谱。反正只要名字、小名、昵称能找准,关系图就有了。其它那些口头禅的翻译,英文原版在这里,看看有没有更地道的翻法?
另外,O'Brien的英文原文在这:I analyzed Marvel movie scripts to learn what each Avenger says most。这是Elle O'Brien的头像。
Elle O'Brien。来源:mattwinn.com
Q3. 「做这种带照片的条形图都用到R里的哪些包?」
R我也没玩过。你可以去看可视男Matt Winn写的配方。他说就用了八个包:
library(dplyr)
library(grid)
library(gridExtra)
library(ggplot2)
library(reshape2)
library(cowplot)
library(jpeg)
library(extrafont)
完整配方的链接在此:
Winn口头禅图谱可视化:Avengers: What do they talk about?
可视男Matt Winn。来源:mattwinn.com
Q4. 「哪里有优势比的严谨定义?要带公式的!」
维基百科凑合能看吗?优势比:Odds ratio - Wikipedia
Q5. 「哪里有漫威世界中英对照表?」
这有一个:帮助:译名对照表 - 漫威电影宇宙资料站 - 灰机wiki
Q6. 「人物关系网图用什么做的?」
一个叫Gephi的免费工具。这里可以下载:The Open Graph Viz Platform
这有一个快速上手的说明:derekgreene.com/slides/derekgreene_gephi_slides.pdf
Q7. 「做Gephi人物关系网图需要准备什么样的数据?」
这种简单的Gephi图有两张CSV表就可以。一个叫节点表(Nodes),就是那些圆圈;一个叫边表(Edges),就是那些连线。
这里的节点有20个:
节点表
这里的边有16条,从源(Source)指向目标(Target),用节点表中的人物编号标明呼叫者和被叫者:
能坚持看到这儿的,是不是只剩下彩蛋强迫症患者了?
刚才聊攻略这会,有灵感的数据工作者@刘超-YM同学打印了一张关系图,用红笔勾了勾,转身默默地离开了。
原来,他虽然手无时间原石,却用这张图就发现了那个惊天大秘密:14,000,605的可能结局中,为什么偏偏是这一个?
大家看,这是他勾过的图:
刘超标记的《复3》结局
你看到了什么?
打红框的都是灭霸1/2「随机」湮灭弄死的英雄。
而这根本就不是随机的!
被弄死的英雄都是颜色最浅和次浅的圆圈。
死谁都没有死核心,联盟战队必然能卷土重来。
奇异博士肯定看到了这个的结局,才那么痛快交出时间原石。
无限手套肯定是复仇者联盟一伙安插的。
看来灭霸并没有事先掌握这张图,所以我们后面还有《复4》看!