电影评分真的会影响大众吗？| 政见CNPolitics

Original 2016-12-29 聂可、于灵歌 政见CNPolitics 政见CNPolitics

摘要

打分系统与电影票房没有直接关系，但是网络口碑确实会对电影的收入产生间接影响。

聂可 / 政见观察员
于灵歌 / 政见团队成员

这两天，豆瓣从文艺青年的 “精神角落” 一跃登上主流媒体的舞台中央——只不过这一次，它不是以互联网公司创业典范、或大型虚拟交友类网站的形象出现，而如同一个悲剧英雄般的叛逆者。12 月 27 日，《中国电影报》刊文，抨击豆瓣、猫眼等电影评分网站对部分国产电影打分过低，对中国电影产业造成负面影响。该文随后被央视电影频道做了同题报道，也被人民日报客户端转发，引来大量网友的不满。仿佛当大家早就习惯了观影前参考评分、观影后掏出手机打星星时，突然有人跳出来告诉你：傻瓜，你不应该这样打分！

那么，电影评分到底是怎么影响观众的呢？社科研究告诉你，这件事其实没那么简单。

评分能影响人们的看法吗？

《中国电影报》文章的核心观点在于，豆瓣的评分实际上影响了人们对于电影的看法，进而影响人们消费电影的意愿。那么，评分真的会影响人们对电影的看法吗？

Cosley（2003）等研究者利用电影评分网站 MovieLens 展开了相关研究，这个网站也是以五星制来给电影评分，研究其时拥有 7 万名注册用户，5600 部电影，以及超过 7 百万个评分。研究者邀请了一些用户，对他们很早以前看过的电影重新打分，或者对一部新看的电影进行打分。这些用户被分为实验组和控制组，有一些在观影前能看到电影在该网站上的真实平均分，有一些看到的平均分是被研究者故意调高或者调低的，还有一些看不到任何评分。

研究发现，无论是对看过的电影重新打分，还是对新看的电影进行打分，用户都会明显受到之前看到的评分的影响。当看到低评分电影时，用户倾向于给低分；当看到的高评分时，用户倾向于给高分。尤其值得注意的是，对于同一部电影来说，如果用户看到的评分是被故意调低了的，他对这部电影的评价会比看到正常评分时要低。尽管故意调高的评分也会带来更高的用户打分，但故意调低造成的低评分的意愿和广泛程度都比调高时要更强烈。这也许就是为什么电影制作方不愿意看到低评分的原因：它会造成坍塌式的连带效应，所谓好事不出门，坏事传千里。

除了打分外，打分页面的影评也会影响其他潜在的观影者。Tsang（2009）等研究者在对香港影评的研究中发现，影评会深刻影响人们的观影倾向，这种影响程度比打分还要厉害。影评和打分还会相互作用：如果两者都是正或负，其结果显而易见；如果两者相反，尤其是一个评分很高的电影下面都是负面的影评，观影者可能会放弃对这个评价体系的信任。

由此可知，无论是评分系统，还是页面上的影评，都会潜在地影响人们对影片的判断。可以理解为，最近三大国产影片在豆瓣上的低评分，会使得其他的吃瓜群众先入为主地认为他们是烂片。

大众还是专家，你会相信谁？

在这次《中国电影报》的狙击中，另一个中枪的是猫眼。这个网站将部分资深观影者和影评人对最终评分的贡献看得更重。在评价电影时，人们会更相信大众的口味，还是会更看重专业人士的点评？

Flanagin（2013）等研究者做了一个实验：他们设计了一个模拟的电影评分网 “票房之选”，上面有对最新电影的评分，并让 1207 名成年实验参与者随机分成两组。他们告诉其中一组，这部电影的评分来源于已经看过电影的观众；又告诉另一组，评分是来自于专业影评人。同时，研究者对评分人数的多少也做了控制。观众浏览过电影评分页面后，即通过问卷回答他们对评分结果的信赖程度。观影后，观众再相应做出自己的评分。

结果显示，评分人数越多，观众对大众评分的信赖度就越高，同时自己观影后的评分也会趋于从众。当评分量较少时，人们往往认为专家的意见比业余观众的意见更为靠谱。另外，观众也会受到信息性社会影响（Informational Social Influence），即把从别人那里接收的信息作为现实依据。在缺乏一手经验时，人们往往相信别人的想法比自己的更加正确。在电影评分过程中，对那些习惯使用社交分享工具的人而言，获得的评分信息越多，他们就越容易被带走。

换句话说，在更小众的艺术电影领域，资深影评人的意见会更有影响力。这也不难理解，因为只有资深影评人才会去看 “文艺片”。相比之下，近期三大国产片都属于面向大众的影片，潜在观影者对于影片的评价更容易受到大众舆论的影响。

五星制评分系统合理吗？

也许有人会质疑：为什么打分时是五星制，不是三星，或者十星，或者干脆百分制？人们在打星的时候，除了受到外界信息的影响，还要考量影片的制作、画面、音效、演员演技等诸多因素，尤其是打分的时候心情如何也很重要，分成 5 个星级，够吗？

Sparling（2011）等研究者研究了不同评分系统的实用程度。除了五星制，在网络中广泛应用的还有一元制（点赞或无操作）、二元制（点赞或点灭）、滑块式评分（拖动一个水平滑块来表示喜爱程度，普遍为百分制）以及各种各样其他奇葩的模式。他们邀请了 430 位网民使用不同的打分方式对电影打分，并获得了 12847 个采样。

研究发现，设置的评价层级越多，用户评分所花费的时间也越多。比如，用滑块式评分所花的时间要比用一元制多 30%。花的时间越多，用户也就越烦躁，评分反而越容易失衡。比如说，当评分系统是滑块式的时候，用户更容易打出两头的极端分数，而使用五星制则相对较为平和一些。总的来说，相比五星制，一元制和二元制显得过于极端，而滑块制显得过于繁琐，五星制成为了大多数用户认可并且喜爱的评分系统。

当然，根据上文 Tsang 等人的研究，如果评分系统能够辅以影评作为参考，则会显得更有效、更有说服力，因为恶意刷评的行为将会非常明显。一个靠口碑维持的网站，通过 “评分+影评” 的方式，更能够深化自己评价系统的说服力和影响力。

差评真的会影响票房吗？

如果 “烂片” 在评分网站上被骂，那不就没人去看了？你想多了。以电影《小时代》第一部为例，这部影片在豆瓣上收获了超过 23 万次的评分，评分低至 4.7，有 30%的人都给了最低分一颗星，但据称仍然收获了接近 5 亿元的票房。这些票房不完全是狂热粉丝贡献的：你身边难道没有听说电影奇烂特意去一睹真相，或是毫无想法单纯想放松一下就随便去看了的人吗？太多了。因此，就算许多人给片子差评，未必就意味着这部电影会亏。

这一点由 Duan（2009）等研究者通过对美国电影票房与网上口碑的研究证实了。他们指出，打分系统与票房没有直接关系，就算有人刷分，人们也会对这些水军感到警惕，该干嘛干嘛。但是，网络口碑确实会对电影的收入产生间接的影响。如果一部影片收获了好口碑，会进而刺激到更多的人乐意去分享自己愉快的观影体验，并进一步推进它的好口碑，进入良性循环。而好口碑不仅能通过票房来变现，更能够通过广告、周边、商业合作等其他方式来变现。

此外，Basuroy（2003）等人的研究也表明，好的影评确实能够给最终的电影收入带来积极影响，而差影评带来的消极影响则更为强烈。不过，如果有明星加盟，一部电影再差，也还是有相当的票房号召力的。然而，烂片究竟是因为明星的出场费太高、使得电影压缩了其余部分的预算过低而导致烂片，还是因为片子本身就烂，而明星的加盟让烂片成为了广为人知的大烂片——这只能交给电影从业者去解答。

评分网站该负责吗？

当烂片被打低分时，评分网站真的有 “误导观众” 的嫌疑吗？这就好比问，如果非诚勿扰的男嘉宾被 24 位女嘉宾全灭了灯，男嘉宾应该去找主持人孟非干架吗？这个答案似乎是显而易见的。

从 Flanagin 等人的研究结果可以看出，当打分人数（注册用户而非水军）足够多时，电影的评分结果对于观众而言是可信的，因为它确实反映了群众的心声。同时，专业人士的意见仍然是值得参考的重要指标。但这不意味着，观众做出的评价就是被评分网站操控和误导的。相反，研究者指出，这正符合了传播中的 “保障性原则” 理论和 “信号理论”：前者是指人们对网上信息作出判断的时候，不易被评价对象操控的线索更有保障价值；后者则是说，如果网上的信源有确定的信号——尤其是难以造假、被法律和社会规则所支持，且模仿或获取成本很大时，这些信源就更加可信。因此，一部电影上映时，不被片方操控的独立评分网站及其难以被水军克隆的活跃用户和专业影评人，正是观众做出评价的重要依据。

当然，无论是影评人还是普通观众，我们无从得知事关每个人好恶的评价标准到底是什么，是否真的 “任性” 和 “恶意”。按照豆瓣 CEO 阿北的解释，电影评分是按照豆瓣的标准得出的，是豆瓣标准下的公正，只不过有些人不同意这是公正罢了。

问题的关键在于，无论是谁的公正，至少要听听群众的呼声。不管是影片制作方、电影院线、广告商、明星，他们能够挣钱，归根结底都是因为老百姓在埋单。我们且不去评价所谓大众 “是不是傻”，但至少埋单的人理所应当有个出声的地方。如果花了钱还不让人说，为什么要花这个钱呢？还不如去洗桑拿。

参考文献

Basuroy, S., Chatterjee, S. & Ravid, S.A. (2003). How critical are critical reviews? The boxoffice effects of film critics, star power, and budgets. Journal of Marketing, 67, 103-117.

Chintagunta, P.K., Gopinath, S., & Venkataraman, S. (2010). The effects of online user reviews on movie box-office performance: Accounting for sequential rollout and aggregation across local markets. Marketing Science, 2, 1-34.

Cosley, D. et al. (2003). Is seeing believing? How recommender interfaces affect users' opinions. Proceedings of the SIGCHI Conference on human factors in computing systems, 585-592

Duan, W., Gu, B., & Whinston, A.B. (2008). The dynamics of online word-of-mouth and product sales-An empirical investigation of the movie industry. Journal of Retailing, 84(2), 233-242.

Flanagin, A. J., & Metzger, M. J. (2013). Trusting expert- versus user-generated ratings online: the role of information volume, valence, and consumer characteristics. Computers in Human Behavior, 29(4), 1626-1634.

Sparling, E.I., & Sen, S. (2011). Rating: how difficult is it? Proceedings of the fifth ACM conference on Recommender systems,149-156.

Tsang, A.S.L., & Prendergast, G. (2009). Is a "star" worth a thousand words? The interplay between product-review texts and rating valences. European Journal of Marketing, 43, 1269-1280.

文字编辑：张跃然

微信编辑：方然

图片编辑：王婧雯