数据分析师的算法推荐是否会陷入“真实的谎言”?
这是傅一平的第269篇原创
作者:傅一平
个人微信:fuyipingmnb
在这个时代,推荐引擎成了很多公司获得用户流量的利器,那请问一下,在机器学习进步如此神速的背景下,你收到的网站或APP的推荐,是否效果更好了呢?
人们一度认为千人千面的算法推荐能让电影电视剧越来越精确地符合观众口味,甚至曾经有传言说《纸牌屋》这个电视剧也是用数据分析编出来的。
那请问,为什么今天的市场仍然充斥着这么多不好看但很热的影视作品呢?
我们强调千人千面,但诸如爱奇艺、优酷等网站的首页影视推荐内容的选择,全是热点爆点,哪需要什么精准推荐?
现在只要是赵丽颖的新片子,必定大卖,数据分析师的算法还有多大的用武之地?
为什么会这样?
笔者列三个原因,大家看看是否有道理。
1、大多时候我们并不是独特的人,共性是普遍的,个性是偶偶的
你打开一个新闻网站,看到上面有铺天盖地的翟天临的大事件,你就点击了。这能说明什么呢?说明你是一个关心明星八卦的时尚人士吗?不能!事实上大多数人都对这种新闻感兴趣。
最近浙江阴雨连绵,每个人都会关心这个雨什么时候才是个头啊?只要天气预报出个新闻说最近一周天气有变化,相信浙江的每个人都会点击打开这个天气预报新闻看看,这能说明你是一个关心天气预报的气候偏好人士吗?不能!事实上大多数浙江人在这个时段都会对这种新闻感兴趣。
精准推荐的基础是关于人偏好的理解,但人的偏好大多时候却是有共性的,这个是进化带来的,所谓食色性也。
我们关注流行,关注八卦,关注隐私,关注灾难,关注健康,关注名人,关注娱乐等等,各种新闻网站给我们明星八卦,其实跟感情一样,属于人性的基本需求,只不过明星八卦可以直接浏览而已,大多时候每个人的所谓个性,都被淹没在了众人的共性之中。
因此,视频网站需要精准推荐吗?也许大多场景只要有个好的编辑就行了,谁是流量明星,哪个题材最火,直接首页推荐,不需要数据分析。
你在视频网站上大多时候看到的是最热的电影电视推荐,你甚至也只是在最热的推荐列表里来回巡游,哪有什么时间去关注猜你喜欢?
很多真正算法推荐的东西,对于商家其实是非常鸡肋的功能,除非你是脱离了大众趣味的人,你是个特立独行的人,但这个对商家并不重要。
Netflix曾经组织过一次推荐算法大赛,轰动一时,的确选出来一个更好的算法,但是,Netflix并没有使用那个算法,现在的Netflix已经都不用推荐算法了。
2、选择越多决定了赢者通吃,“偏好”可以被算法驯化
罗伯特·弗兰克的《成功与运气:好运与精英社会的神话》这本书提过一个问题:如果有A和B两种类型的产品,A的性能、价格综合起来比B高5%,那么请问A的销售额会比B产品高出多少?答案不是5%,也不是500%,而是A将占有全部市场,B将出局,今天的信息极度透明化的市场是一个胜者通吃的市场。
2017年2月11日出版《经济学人》有个关于大众娱乐的特别报道,也提到了推荐算法和胜者通吃。
咱们先来猜一个小问题:现在我们能随便买到的、已经数字化放在网上的歌曲,一共有多少首?
Spotify,一共提供了超过2000首不同的歌曲(只查到2016年数据),不是20万,200万,2000万首,苹果公司的iTunes,一共有2600万首音乐,我们熟知的QQ音乐,笔者查到了至少有超过1500万首歌曲。
而Spotify的这2000万首歌曲中,有400万首,从来都没有被用户播放过,有20%的歌曲完全没人听过,这是一个音乐家太多,听众不够用了的时代,如果统计至少卖出过100次的歌曲,仅仅35万首。
2015年,排在前1000名的最流行歌曲占据了歌曲总流量的18.8%,而在2016年,这个数字变成了23%,这是急剧增长的胜者通吃,长尾效应虽然有,但相对于胜者通吃,太非主流了。
音乐,视频可选择的内容越多,排在最前面的内容反而收入越多了?难道不是更多的选择应该分走它们的流量吗?这可能是因为消费者面临太多选择的时候感到无所适从,索性选择个自己听说过的、熟悉的、排名高的。
谁都不愿意冒风险!
就好比你走进一家书店,如果店里有10本书,2本你听说过,8本没听说过,你大概会去翻一翻那8本书,它们多少能获得一点流量,可是如果书店有一万本书,原本那8本书现在连被认真翻阅的机会都没有了。
今日头条有很多的视频关联推荐,笔者往往只点击最多播放次数的关联视频,你说我到底是真的偏好这个视频,还是我已经被驯化了,只点击人家觉得好的视频,诸不知也许几个视频起步的时候,只是运气的差异导致初始点击量的不同而已。
也许推荐算法不需要理解人的偏好,只要遵循胜者通吃的原理做就行了,当然这也叫推荐算法,但这种算法早就忘了初心。
以前没有推荐,创作者可以根据个人喜好任意探索一些内容,现在有了推荐,用数据说话的声音越来越强,你就越来越得听数据的。
数据推荐基本上就相当于是“人性测试”,你越测试就越觉得人性是黑暗的,但是殊不知黑暗本来就是你给测出来的,在数据推荐的作用下,我们看到的影视作品会不会越来越大众化,越来越依赖流量明星、越来越俗套呢?
3、引导用户进行搜索、点赞、好看的产品设计,让推荐算法相形见绌
现在人工智能可以通过分析你的浏览和购物习惯、你的性别、年龄、居住地址、收入水平和教育程度,你的家人和朋友都有谁,各种信息,然后根据这些信息分析出你喜欢什么,然后向你精准投诉广告。
但有数据是一回事,能从数据分析出什么东西是另一回事,面对数据孤岛,面对赢者通吃,面对复杂的人性,也许我们很难还原出用户的真实偏好。
用户偏好这个东西是是如此复杂,而浏览,查看等的信息对于用户动机的感知力还是太弱了,我有时在想,再好的算法,还不如一个好的按钮设计呢!
为什么百度的“搜索框”这么值钱,为什么FB的”点赞”功能作用如此巨大,为什么腾讯的微信文章推荐要采用”好看”这样的产品设计?
因为有人已经意识到,浏览过的并不能代表你赞成它,我们得对抗胜者通吃,要让好的内容涌现出来,否则未来不就是谁比谁更俗吗?
张小龙完全可以用大众的品味来决定“看一看”的内容,相信短时间内能带来海量的流量,但他选择了特立独行,否则,微信的推荐就成了另一个今日头条。
为什么用户的主动输入和主动点赞才是最佳的推荐方式呢?
因为用户需要付出成本,有成本就会变得认真,而这个需要用产品的方式来解决。
这个时候,推荐算法又有什么用呢?
数据分析师也许将越来越多的走向前端,数据需要跟产品紧密的结合才能爆发出巨大的能量,数据分析师不再是简单的研究推荐算法,也许更多的是做产品推荐功能的评估和建议,比如按钮这么放好,还是那么放好呢?
数据分析师要能给出产品设计的建议。
以前有同事到互联网公司去做数据分析,说总是在捣鼓页面的AB测试,我就有点不理解,大材小用嘛,现在想来是我的视野小了。
笔者想到了亚马逊,为什么它的书籍推荐不错?难道是它的推荐算法真的很厉害?我们也许可以从另一个角度去思考这个问题。
1、看书不是人的天性,粉丝效应不大
2、愿意买书的群体相对理性,赢者通吃的影响小一点
3、书籍的评论和评分较为客观的表达了偏好
4、在前面的基础上,它的关联推荐的确显得很不错
希望于大家有启示。
完
作者:傅一平 (微信号:fuyipingmnb)
好书或文章推荐(每周我会挑选出1-2本好看的书或文章进行推荐)
《一个比王阳明更实在的学说》 万维钢·精英日课第二季:目的论行为主义基本思想大约是这样的:
1. 研究一个人,得看他的行为模式。
2. 这个人的内在想法和感情,并不能用来解释这个人的行为。
3. 知行合一,说明你的想法是真的;知行不合一,也不要紧。
4. 改变行为模式的办法是逐渐养成新习惯,而不是纠结于内心。
可能错过的近期精选文章(点击链接即可阅读)
从芝麻信用分透露的详细数据设计,我们能从中得到什么启示?
PPT,考验你的格局、能力和思维的方式,你得学会驾驭它!
如何避免成为一台取数机器?
哪些广为人知的数据挖掘案例其实是一地鸡毛?
数据的价值到底如何评估?
为什么我提交的数据分析报告总是被领导K?
我如何用统计学指导自己的生活?
从吴军的“算法的油水就那么多”说起!
一起成长,让我们与数据同行
忙完工作,偷得浮生半日闲,讲述自己的数据人生
大叔/电信博士/500强央企/大数据/人工智能/统计取数/数据挖掘/数据产品/数据管理/数据仓库/数据变现