查看原文
其他

热点 | 为什么常见的评分系统不靠谱?从《流浪地球》的差评说起

马振江 鹈鹕体验live 2020-02-18
↑ 点击上方“鹈鹕体验live”关注我们


春节档期的国产科幻电影《流浪地球》已经成为了今年最大的爆款电影,上映仅一周,就获得了“中国科幻拓荒之作”“中国科幻元年”“流浪地球一小步,中国科幻一大步”的各种褒奖,票房持续走高。



评分下滑引起的反弹


于此同时,其豆瓣电影评分出现下滑。此前,《流浪地球》在豆瓣电影的评分一度高达 8.5 分,而目前已经跌至 7.9 分。


在超过 62 万人的评分中,给 5 星评价的占 32%,但有大约 2.2% 的人给了 1 星评价,有人表示“流浪地球是一部不及格的电影”,主要原因是“科学设定不及格”、“剧本不及格”等等,同时,这些 1 星评价中,也存在不少恶意评价,只因不喜欢某个演员等等。

部分粉丝也因为过分狂热而为电影本身带来了负面舆论。譬如有用户因为打了 3 星而遭到粉丝谩骂,并在抵触情绪下改为 1 星,最后甚至直接注销帐号。



与通常电影评分的自然波动不同,《流浪地球》评分的快速变化,引起多方关注。被豆瓣评分变化激怒的影迷们,便纷纷转战至 App Store 及其他应用商店,给豆瓣 App 打 1 星,表达对豆瓣平台的不满。目前,豆瓣 App 的评分跌至 4.8 分,恶意差评还在不断增加。



你给《流浪地球》打 1 星,我就给你豆瓣打 1 星。


这些评价内容大致分为以下几种:认为豆瓣 app 评分太高,打 1 星“平衡一下”;认为豆瓣用户不客观,恶意黑;希望以差评的方式倒逼豆瓣做出改变,如用户修改星级评分之后,原有高分清零、要求用户看过电影买过票才能评分等。


事实上,这些负面评价本身也已不再客观,具体的建议也毫无操作可行性。但这并不重要,粉丝们出于各种理由,直接上升到道德绑架、民族自豪的价值观层面上,重点只是要表达自己的立场,而对产品的评星行为早已与产品的质量无关。


当评分变成一种态度


绝大多数的反馈和评论,其实是缺少思考和理智的评价的。这个过程本应当花费更多的时间来斟酌和回复,而不是留下一个简单的分数。英剧《黑镜》中,描述了一种每个人都能实时互相打分的未来图景。



这个故事的结局并不美好。人生被社交评分掌控,生活将充满虚伪和偏见,导致整个社会体系的崩塌。


给《流浪地球》打 1 星的观众,并不一定真的认为这部电影多差劲,甚至到评分要低于《小猪佩奇过大年》的程度。他们只是用 1 星来表达自己的态度:我不喜欢主演 / 高分观众的情绪 / 某种群体行为……


给豆瓣 app 打 1 星的用户,尽管在评价内容中可能写上了“垃圾软件”,但也不代表真的厌恶豆瓣到如此地步。这些 1 星所代表的可能仅仅是:我不喜欢给我所喜爱电影打 1 星的平台用户。


人们只是通过打分这种方式,来表达自己的喜好和观点,而打分这种机制设计之初的本意是否就是用来发泄情绪的,人们并不关心。


另一方面,在需要表达喜好的场景下,用星级评分的方法反而无法达到目标。


著名流媒体巨头 Netflix 公司早已发现了这一问题,他们在 2017 年彻底革新了用户评价体系,将原有的 5 星评分系统改为“赞”和“踩”的剧集评分机制。


公司高管曾接受采访表示,5 星评价机制的问题在于,它使人们下意识的采取一种批判的态度。当用 1 星到 5 星的评价标准给一部剧集或节目评分的时候,用户总是尝试保持客观性去评价“剧集的质量”,而不是用打分的星星数量去反映他们从电影中“获得了多少乐趣”。


举个例子:假设你刚刚看完了一部很有意思的烂片,尽管这确实是一部烂片,但是你从中却获得了很多乐趣。即便如此,你可能依然只会给这部电影打出 2 星的评价,因为你知道,这并非一部“好的影片”。这也就给 Netflix 公司带来了问题,因为根据现行的评分机制,他们会认为“你讨厌这部影片”,从而无法准确的给你推荐喜欢的内容。改为简单的“赞”和“踩”的方式,而不是传统的评分,似乎更加合理。


“标准化”的误区


有这样一个案例,有一个哥们给 Uber 司机打分时,服务再到位也只会给 4 星。原因是什么呢?根据他的说法:「只有当司机在我的生命面对极端威胁的时候(比如重大车祸和恐怖袭击),将我拯救出来,我才会给 5 星好评。所以这些普通的司机我只会打 4 星,因为他们不值得我打 5 星。」



心理学家 Dan Ariely 在他的博客上讲述了一个开锁匠的工作经历:“以前,锁匠开锁需要花费很多时间开锁,甚至不得不将整个门破坏掉,那个时候,顾客通常会很满意的付给锁匠报酬,甚至是优厚的小费;但现在,开锁的设备更加先进了,锁匠开锁花费的时间越来越少,锁匠能够做到在三、四分钟内将锁打开,然而顾客却变得越来越吝啬,锁匠再也收不到优厚的小费了,而且还常常被抱怨要价偏高,他们认为锁匠并没有花费太多的功夫就将锁打开了。”


作为旁观者,我们知道锁匠的技艺和效率提高了,但却得到更少的报酬和更多的抱怨。顾客权衡价值的标准并没有和开锁所需要的时间积极的关联起来。他们衡量价值的标准是锁匠在开锁时究竟花费了多少功夫。


是的,每个人对“好”的标准就是如此不同。每个人都是基于自己的标准和感受来做出评价。


但另一方面,评星系统却是标准化的,它试图将大家千差万别的评价转换成一种统一的数字分数,然后用这些分数(而不是用户真正的感受)来衡量产品或服务的好坏。这看上去非常不合理。


我们将人类情感转化为原始粗糙的数据,比如数字评分和星级,然后希望从这些原始数据中挖掘出改进产品的合理答案。也许真实的人类情感比这些数字还要更合理。——Eugen Eşanu ,产品设计师


「您对我们的产品和服务有什么样的看法?」得到的回复是 3 颗星,这是否意味着产品需要改进?是单个产品还是整个产品线都需要改进?如果是 4 颗星又意味着什么?它和 3 颗星的评价,在程度上有多大的差别?


这些数字是否如此可靠?从数学角度看,是的。但当你试图用数字量化人类情感时,就不那么靠谱了。


评分系统的缺陷其实是人性的缺陷


用户不总是对的。大部分情况下,用户说的和做的完全不同。


我们总说,要打造伟大的产品和服务,观察用户的行为比听他们说话更有启发性。看他们在做什么,而不是听他们说。问卷调研中也存在类似的问题。面对问卷,很多用户所给的答案简单而直接。


「你是一个慷慨的人吗?」很多用户的回复是「当然是!」,无论问卷的形式是「是/否」选项,还是采用数字1~10 评级,或者 5 星制,结果大抵如此。人们都倾向于正面的答案,而且高估自己的重要性。


稍加反思,我们会意识到,其实很多时候这类评分呈现出来的是一种简单粗暴的反馈,它并不适宜每一个人。为什么?


因为人类原本就是情绪化、非理性的动物。大部分时候,我们都无法保持客观。


如果我们改进评分系统,细化问题,让用户在打分的同时进行深入评论,详细描述自己的感受,效果会不会好一些呢?


比如:阿迪达斯的多层评价系统,你可有对你所购买的鞋的舒适度,材料质量、设计等多个维度进行评价。还有一些评价系统,用户需要提供具体图片才能进行更加深入的评价。



看上去这种评价方式确实更有价值。但是,它可能很快就遭遇另外一个源于人性的缺陷。人们是很懒惰的。用户不会也不愿意在繁复的评价操作上花费太多时间。现实中,人们有更重要的事要做,所以越是需要细致评价的地方,获得真实有价值的反馈反而更少。


此时,如果采取奖励的方法来促进用户评价,那么很可能导致相反的结果:用户仅仅是为了获得奖励而去做评价,反馈的真实性和质量都无法控制。购物网站上大量的刷好评返现的方式都是如此。


我们为何还要使用评分系统?


既然评分系统存在如此多的问题,那么我们为什么还要用它们呢?


最主要的原因是,评分系统是一种社会性的参考和证据。评分系统最初建立的出发点,在于通过大量用户评价来呈现出总体的客观状况,并为厂商和其他用户提供参考。这里的重点是“大量”:只有评价数据规模足够大,才能覆盖少数非理性、非正常的评分,避免它们的影响;只有研究对象足够多,才能站在更高维度评判整体情况。但是,遇到《流浪地球》这种针对一个对象的群体性刷分行为,评分系统就会出现误差。


另一方面,我们仍然使用 5 星制评级系统,因为人类天生的惰性,这种评级方式足够简单,正好迎合需求而已。



用户表达立场或威胁的“误用”方式,让评分机制原有的客观受到了挑战,也让我们不得不承认这样一种变化:分数不再是体现产品好坏的标准。


一个明显的标志是,我们已经越来越频繁地用作品评分来说明其受欢迎程度,而非质量。


如果我们能够解决这个问题,并且创建能够正确激励用户行为的系统,也许我们能够让评分系统真正给我们带来更好的生活体验。



参考资料:

打一星者,虽远必诛

https://www.huxiu.com/article/280232.html

The Problem With Online Reviews

https://uxplanet.org/the-problem-with-online-reviews-818834f0ffa2

当“打一星”成为表明立场的手段

https://www.pingwest.com/feed/rss_link_url/a/183463

Netflix将推出全新剧集评分系统

https://www.jiemian.com/article/1181225.html


推荐阅读
 体验专题:体验 | 纽约时报+谷歌地图擦出的用户体验火花
体验 | 产品设计:期望和现实有多大差别?体验 | 谷歌翻译产品设计师:产品改版的三大用户体验设计原则体验 | 为什么星巴克的员工都不太热情?背后这4点值得深思三火观点:三火观点 |三款APP突然“宣战”微信,网友炸了!三火推荐 | 《联体》科幻小说独家连载,引爆AI科幻未来
三火观点 | 喝咖啡时我们喝的是什么?
三火观点 | 酒店体验做好这些就够了!MOT排名篇依点故事:依点故事 |“写作很难吗?”“不……很难。”依点故事 | 我是怎样完成100天写作打卡的?依点故事 | 从决定改变到改变需要多久?
依点故事 | 21天改变了我的写作习惯鹈小鹕看热点:鹈小鹕看热点 |《啥是佩奇》该片引起极度舒适,可以反复观看!
热点 | 很多商场出现了“体检神器”,实测后有惊人发现
其他专栏:鹈鹕开讲啦 | 《瞬间的力量》解读:体验是可以设计的营销 | 如何把“降价”玩得高级,我只服无印良品读书 | 我是如何在200天背10000单词的?读书 | 15本书,全面了解客户体验管理的前世今生更多精彩文章,关注我们,阅读更多。

鹈鹕体验live

专注体验,专注生活,专注分享

鹈鹕全面客户体验管理

国内最专业的研究客户体验管理媒体平台

点击【好看】分享


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存