其他

分析近3千部电影数据,用关联算法,我们发现了.....

2017-05-19 阳春白雪 数据挖掘与大数据分析

作者:阳春白雪     来自:朝阳35处  已获授权


究竟谁导的电影好看?谁写的剧本有趣?谁的演技出神入化?或者说哪些演职员们的组合就意味着很可能看到一部买票时应该避开的“烂片”?为了满足好奇心,也为了自己的腰包(心疼自己),处座决定利用大数据算法,多维度对国产电影分析分析。


以下从豆瓣的“中国电影”分类下选取了三千多部电影,经过数据清理(去除动画、纪录片等)后,保留了1913年以来的共2415部电影数据。



近年获得高评分的国产片比例越来越低



从时间来看,如图所示,中国每年上映的电影数量整体趋势上涨。特别是改革开放以来,每年的新映电影数量几乎以指数式增长。即便考虑到年代过于久远的部分作品随着时间推移而遗失的影响,中国电影市场在近些年还是明显的的迅速膨胀。



然而遗憾的是,中国电影的口碑却没跟上电影数量的脚步,每年新映电影的平均分整体呈下降趋势,在2016年甚至低于5.5分。(也有部分原因是由于早期作品只有优秀的才保留下来)。


为了进一步探究电影质量的情况,我们把电影划分为“8-10分”、“6-8”、“6分以下”三个区间,依次对应为“好、中、烂”三个档次。



从面积图可以发现,近20年中国电影获得高评分的比例越来越低,而6分以下的“烂片”比例似乎翻了几倍。



关联规则算法是个什么鬼




经过描述性统计后,怎么才能找到烂片的“黄金组合”,避免浪费电影票呢?处座想到了关联规则算法


关联规则,顾名思义,就是“有关联的规则”,反映的是一个事物与其他事物之间的相互依存性和关联性。


例如,电商通过分析顾客购买记录的数据,发现客户购买习惯的一些规则,例如,购买产品A的同时购买产品B的意愿往往比较强,据此调整货架布局、设计促销组合可提高销量的提升。这里的关联规则就是A→B


但是购物订单千千万万,每个人的需求也不尽相同,如何知道哪些商品组合是满足大部分人需求的呢?关联规则中用3大关键词来分析规则的有效性,分别是:支持度(Support)、置信度(Confidence)与提升度(Lift)



支持度(Support)



支持度是两件商品(A∩B)在总销售笔数(N)中出现的概率,即A与B同时被购买的概率。支持度越高,说明越多人会同时购买商品A与商品B。



置信度(Confidence)



置信度是购买A后再购买B的条件概率。置信度大说明购买A的客户很大期望会购买B商品。


提升度(Lift)



提升度表示先购买A对购买B的概率的提升作用,用来判断规则是否有实际价值,避免出现“伪规则”。如果大于1,说明规则后商品在购物车中出现的次数高于商品单独出现在购物车中的频率,规则有效;小于1则说明规则无效。


总的来说,支持度度量了商品出现的频次,置信度度量了规则的可靠性,提升度度量了独立性。三者互相牵制影响,一起说明了规则的有效性。通过对三个角度的数值限制,可筛选出有价值的“规则”。


说白了,关联规则其实就是找到哪些商品篮子的组合最普遍受到欢迎。于是处座脑洞一开,一部电影的演职员组合不就是一个“商品篮子”嘛!是不是也可以用关联规则探究探究其中的规律呢?


用关联规则算法挖掘烂片“黄金法则”



正如上面提到,国产电影的烂片比例越来越高,究竟是谁在其中做了贡献?要怎样避开烂片呢?我们根据6分以下的528部电影的数据,对演员、编剧、导演分别挖掘关联规则,结果如下。



演员和烂片的关联度



可以看到,出演烂片数最多的演员竟是“大名鼎鼎的配角”林雪——今年刚凭借《树大招风》获得亚洲电影最佳男配角;作品量较为丰富的他拍过的好片烂片都不少,从他的经历我们或可以推测,电影的质量受到配角的影响是有限的,必须要考虑到导演、剧本以及主演等问题。


林雪之外,其他人的烂片作品量并没有明显差异。不过涉及到古天乐、曾志伟等人,人家作品丰富,至少还有几部拿得出手的电影作品,譬如《窃听风云》、《无间道》等,而以包贝尔、黄晓明、杨颖为首的明星艺人们,其参加的综艺节目评分似乎都高于电影作品,有点说不过去吧?

对于关联规则,我们去重后发现烂片电影演员帮主要由三部分组成——“小时代姐妹花”、“四大名捕组”与“东北小分队”。神奇的地方在于,组合的第一部电影明明得分不高,却接连推出了四部,为“辣眼睛”事业奋奋斗不息的你们难道不会心痛吗?



导演和烂片的关联度



上图中,左侧是导演作品总数,右侧是各导演在烂片中的作品量。可以看到,在烂片中贡献最多的就是王晶大导演啊!


而产量丰富的大导演也有失手的时候,比如张艺谋;而另一方面,郭敬明、钟少雄等人的作品则几乎每部都是烂片,阿甘的烂片率也不低。他们或向我们展示了什么叫做“隔行如隔山”,或身体力行地展示了一位导演(对烂片)“持之以恒”的坚强毅力,令人深感佩服。


此外,一般导演都有各自擅长的影片类型和风格,为了改变和创新,会与其他导演合作拍片。那么哪些人的合作往往会为烂片家族的增砖添瓦呢?接下来看看这些数据的关联规则结果。


具体来看,组合{庄文强,麦兆辉}、{邓超,俞白眉}、{陈嘉上,秦小珍}位列榜首,以{邓超,俞白眉}为例,他们的《分手大师》和《恶棍天使》)可不是让人一言难尽?另外,在豆瓣电影中单独去查钟少雄,发现他和王晶合作的9部作品中出现了5部烂片,其余的四部最高分也只有6.4,如果说一个巴掌拍不响,他和烂片量丰富的王晶又究竟是谁影响了谁呢?



编剧和烂片的关联度




和导演类似,左侧是编剧的作品量,右侧是烂片中的作品量。其中又出现了王晶、郭敬明等人的名字,因为不少导演都会自己参与编剧工作。除此之外,我们发现张炭、谭广源等人编的作品中一大半都低于6分,这可以是帮我们在选择电影时做出明智的选择。



至于编剧组合,可以看到{杨梅媛,文隽}、{冯勉恒,谷德昭}、{王芸,赵梦,徐静蕾}与{陈嘉上,谭广源,温瑞安,王思敏}的烂片作品较多。令人唏嘘的是,当年文隽也有过《阳光灿烂的日子》、《风云》这样的经典作品,影响力深远,但后来其作品质量日渐下降,而与杨梅媛合作的《京城81号》、《绣花鞋》等恐怖片更是惨不忍睹。


用关联规则算法挖掘佳作“黄金法则”



令人欣慰的是,在烂片洪流中依然有一些优秀作品让我们对国产影片还愿意抱有希望。下面对好片(>=8分)的498部电影数据进行类似的分析。



演员和好片的关联度




而在演员中,“哥哥”张国荣的作品评分很高,张曼玉、姜文等人作品评分也较为稳定,而天王“刘德华”的作品虽然数量丰富但评分却参差不齐。



在关联规则中,支持度最高的就是刘晓庆、傅艺伟的“红楼梦系列”演员团队,一个系列、6部电影的数量对我们的算法结果确实起到了很大影响;而在{罗家英,李健仁,周星驰}的组合中,“唐僧”和“如花”让我们看到配角与主角默契配合、对立衬托为电影带来的闪光点的能力;其余的梁朝伟、林青霞、陈慧琳等香港演员的组合大都出自王家卫、徐克、刘伟强的作品,可见有导演的态度与能力对于电影的影响不可忽视,一位有想法的导演与尽职尽责的演员搭配后,将有无限美妙可能。在这里也不禁令人感叹,香港电影对于华语片的重要影响。



导演和好片的关联度




从导演“琅琊榜”来看,李安导演简直一股清流,作品不多,却部部经典。而王家卫、侯孝贤等大导演则凭借自己独特的风格紧随其后,质量稳定;杜琪峰、徐克等也在丰富的作品两种贡献了不少佳作。有趣的是,登上了烂片榜的张艺谋在好片榜上同样位列前茅,作为“第五代导演”的代表人物之一,他在输出中国文化方面的努力虽然不一定有效(譬如《长城》),也算是有自己的想法和导演应有的态度。



从关联规则的结果来看,能合拍出好片的导演组合主要是90年代的老导演们,比如《小叮当》等经典儿童故事片的导演{陈方千,谢添},连拍六部红楼梦系列的{赵元,谢铁骊}等等。此外,单独观察在烂片榜也出现过的麦兆辉,可以发现其与刘伟强的合作电影分数较高,而与庄文强的合作作品分数较低,差异明显,耐人寻味。



编剧和好片的关联度




由编剧数据可得,谢逢松、谢铁骊为代表的老一辈占据了榜单不少篇幅;当下还比较活跃的编剧中,王家卫、贾樟柯等人的优秀作品率较高。有趣的是,可能是作家老舍的作品简练且故事性强,被成功翻拍成不少电影呢。



在关联规则中,不少编剧组合都是拍了优质的系列电影成为经典,比如{庄文强,麦兆辉}的无间道系列,{吴承恩,刘镇伟}的大话西游系列,还有{谢逢松,谢铁骊}的红楼梦系列等;也有如{曾瑾昌,周星驰}这样多次合作的老搭档,质量稳定,时不时留下几部经典好片。


综合来看,我们得到了这样一个重要的电影购票TIPS——



“天王”、“最佳男配角”等演员的荣誉称号并不能保证电影的质量,因为电影的导演、编剧也起到很重要的作用。“明星”不等于演员,群星荟萃也可能是一锅乱炖。但若就是喜欢“小花”、“鲜肉”的颜,看真人秀性价比更高!



必须要肯定香港电影曾经的辉煌时代。遗憾的是从香港来大陆发展的导演编剧们却不断令人失望。撇开高产出品烂片的王晶导演不谈,以女导演黄真真为例,她曾以处女作《女人那话儿》获得金像奖提名,来大陆发展后却只有《闺蜜》这样不及格的片子,令人扼腕。



但愿华语片的妖魔鬼怪越来越少,低调的小成本精制作电影也能有更广阔的空间~




备注


本文数据获取自豆瓣中国电影,由于分类问题,数据可能出现遗漏,但经人工检验,不影响整体分析结果。


由于作品总量相较于导演、编剧、演员的数目较小,所以本文关联规则中支持度的设置限制也较小。


关联规则不一定是分析电影数据最合适的算法,在此作为一个小探究。实际上也可以把导演、编剧、演员放在一起挖掘关联规则。



    阳春白雪

❖本文作者介绍:


阳春白雪,爱笑爱生活,爱数爱科学。一个在数据科学家的成长道路上奔跑着的元气少女!



数据挖掘与大数据分析

(datakong)

传播数据|解读行业|技术前沿|案例分享

2013年新浪百强自媒体

2016年中国十大大数据影响平台

荣誉不重要,干货最实在

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存