收录于话题
#数据挖掘的真谛
19个内容
这是傅一平的第334篇原创
【与数据同行】已开通综合、数据仓库、数据分析、产品经理、数据治理及机器学习六大专业群,加微信号frank61822702 为好友后入群。新开招聘交流群,请关注【与数据同行】公众号,后台回复“招聘”后获得入群方法。
抖音现在如日中天,其成功很大程度得益于独特的推荐系统,笔者很是好奇这个推荐体系,因此特意做了一番考证,现在就将自己的学习心得分享于你。自己引用的部分信息参考自网上,可能有失真,但我觉得其中的很多思想值得学习,就不管它是真是假了。抖音的成功首先是对于人性洞察的成功,一个娱乐产品要成功,笔者觉得要具备四大要素中的一个或几个:欲望的满足、恐惧的激发、不确定的期待、即时的反馈。首先,抖音短视频用15s的单刀直入,让人们在视觉、听觉、情境的共振里感受美好,任何吊人胃口的内容都会在15秒内反馈答案,这让人有即时的快感,也符合原始人为了生存即时享乐的本性,当然即时反馈做的最好的是游戏,现在诸如吃鸡等射击游戏这么火,得益于其创造的一枪干倒一个的快感。其次,抖音的下一个15秒带给用户的不确定感就好比你马上要见到从未谋面的网上恋人一样,让人欲罢不能,人的基因设置就是对于变化敏感,总是对不确定充满期待。最后,抖音推荐的内容大多符合3B原则(3B是广告投放的经典原则),无论是美好的事物(beauty),天真的事物( beast)或是天然的事物(baby)。笔者记忆很深的美好的事物是抖音推荐的一个美丽女子在很潇洒的用吉他弹奏一首歌《天空中最亮的星》,女子熟练的拨弄着琴弦,清风佛动她的长发,余音绕梁......。抖音对于天真、天然的内容推荐比例非常高,无论是晒娃、晒宠、搞笑等等,都会激发你的同理性,以下是抖音的推荐套路盘点,可以仔细研究下。对于产品来讲,其设计的第一性原理就是对于人性的深度洞察,假如你的产品设计能否符合用户的心理追求,也许就成功了一半。在微信公众号这种媒体,你要一夜成名其实很难,大号的成功靠的还是积累,或者付出较大的推广成本,新公众号的文章质量即使超过99.99%的竞争者,也得有个社交传播过程。而大号凭着历史积累的海量用户,瞬间就能获得10万+的点击量,同样质量的文章在不同基数的公众号发布,那享受的流量红利不可同耳语。它觉得好内容就应该更快的曝光,就应该一夜成名,既然朋友圈传播的还是太慢,那就让平台进行助推。当一个抖音视频初期上传,即使你是0粉丝,平台都会给你一个初始流量,初始流量之后,根据点赞率,评论率,转发率进行判断:该视频是受欢迎还是不受欢迎,如果第一轮评判为受欢迎的,那么它会进行二次传播。也就是说,抖音去中心化算法让人人“雨露均沾”,它创造了公平的起点。当第二次得到了最优反馈,那么就会给你推荐更大的流量,如此反复迭代,好的内容就会像坐着火箭一样往上走,直到一夜爆红。也就是说,即使你是刚进入的草根,但有了平台的赋能,竟然有了可以跟传统的“垄断者”一较高下的机会,即瓜分流量,这在很多推荐系统里是不可想象的。相反,在第一波或者第N波,如果反应不好,就不再推荐,没有了平台的推荐,你的视频想火的概率微乎其微,因为没有更多的流量能看见你。平台就像上帝之手一样,根据自己的一些原则来引导流量的走向,其竟然带有一点计划经济的味道,当然抖音计划经济的基础是数据,它要依靠算法在自己的生态中创造公平。而很多推荐体系走的还是市场路线,以期逐步达到价值和价格的匹配,但正如大师凯恩斯说的那样:“长期来看,我们都死了”,是的,如果人们撑不过经济回归正常的时候就已经死了,那么谈市场经济也就没有了意义。叠加推荐,是指新视频都会智能分发200-300左右的播放量,如转发量达30(举例),算法就会判断为受欢迎的内容,自动为内容加权,叠加推荐给你1万流量;转发量达300(举例),算法持续叠加推荐到10万流量,依次类推。所以那些一夜几百万播放量的抖音主也会懵比,不知道发生了神马,实则是大数据算法的加权。叠加推荐当然是以内容的综合权重作评估标准,综合权重的关键指标有:完播率、点赞量、评论量、转发量,且每个梯级的权重各有差异,当达到了一定量级,则以大数据算法和人工运营相结合的机制。自己看了几十条爆火抖音,发现所有一夜爆火的视频,播放量基本都在百万级,综合数据(完播率、点赞量、评论量、转发量)无一例外都比较高,各项热度的权重依次为:转发量>评论量>点赞量。从八级流量池可以看到,抖音流量的分配还是考虑了用户和内容的标签化的,只是抖音在冷启动的时候,有了独特的这种叠加机制,但一旦有了数据后,抖音也是会回到传统的套路,根据用户和内容的相似度进行推荐。比如经过一段时间的作品发布之后,每一个抖音号都会被抖音按照分类打上一个标签,当被打上标签之后抖音会按照既定标签推荐给喜欢此类标签作品的人,这样,作品就会在有限的流量里获得更高的价值,抖音根据四个维度评判一个账号的推荐权重:垂直度、活跃度、健康度和互动度。以垂直度为例:如果你今天发了一个宠物类别,推荐了之后大家给你点赞评论了,系统就会认为喜欢你内容的用户全部都是宠物爱好者,之后就会把你的内容推送给更多的宠物爱好者,可是你在第二天你发布了舞蹈类作品,可能这个点赞评论就会很惨,平台是希望把对的内容发送给对的人,这样长久下来,才会有越来越多的人喜欢这个平台,但是每次把流量给到你,都没有产生很好的效果,长久之后平台就判定给予你流量是一种浪费,结果就是减少流量推送。由于有抖音号标签的存在,因此长期运营抖音号的定位就非常重要,定位决定了内容的瓶颈,你要做多少的粉丝,做多少的赞都取决于定位。现在流量作弊很多,但抖音这套推荐体系却不太会受影响,因为它有独特的推荐机制,比如内部流量池的设置。你发布的新作品让人刻意刷赞没用,因为抖音是自己随机挑选一拨人投放,然后看这波用户的完播率、点赞量、评论量、转发量后才决定后续的投放策略。当一个账号有了一定的基础粉丝后,抖音会基于标签将新作品推给你的粉丝,但假如这些粉丝都是机器粉,其对新作品不会有什么反应,系统会初步判定这个视频不受粉丝喜欢,作品质量低,当推给其它自然人的时候,基础推荐值就很低了。你看,抖音的推荐天然就有反作弊的能力,算法的基因很棒。微信公众号的机制决定了你每次发布新文章都会对所有的关注用户曝光,无论你的文章质量如何,文章总能触达到你以前拥有的用户,你天然拥有这个权利,这次文章写得不好,对于下一次文章的流量影响不是很大。但在抖音推荐体系里这个红利就少多了,因为是平台而不是你决定了流量的大小,平台的理性、冰冷的算法决定了任何人都不能躺在功劳簿上睡大觉,平台能让你一夜爆红,也能让你泯然众人矣。为了驱动每个创作者源源不断的推陈出新,抖音的推荐算法煞费苦心。比如叠加推荐里的热度权重会根据时间择新去旧,一条爆火的视频的热度最多持续1周,除非有大量用户模仿跟拍,所以需要稳定的内容更新机制和持续输出爆款的能力。在爆火的通关攻略中,算法只指明了路径,而内容才是启动人性的金钥匙,视频的播放量、点赞量、关注量都是人群内心的一个个票选,而能打通关的秘诀只有内容,抖音只为内容买单,微信公众号虽然也强调内容,但它会为你的历史积累买单。比如笔者微信公众号的文章,好一点的浏览量能上5000,差一点的也能有1000+,基本上既不会掉到1000以下,当然也不会有10万+的机会,但抖音却可以走两个极端,它的流量弹性比微信公众号大太多了,你这个作品有100w访问,下个作品也许只有几百。这让我想起了喧嚣至上的996,只为当前的青春和付出买单,而在数字世界里似乎也在演绎着这个规则,真是算法如人生,人生如算法,从这个角度看,微信公众号对于自媒体人来说,还是比较人性化的。如何有效评估数据建模师的业绩?
傅一平:建模的世界没有银弹!
数据挖掘失败的根源
数据挖掘的军规
五级数据挖掘工程师,你处在哪一级?
联邦学习,带我们走出“数据孤岛”的困境?
从SQLFLOW开源说起,谈谈如何全面提升数据挖掘的效率?
从芝麻信用分透露的详细数据设计,我们能从中得到什么启示?
数据分析师的算法推荐是否会陷入“真实的谎言”?
从贝叶斯出发,如何真正的理解算法?
个人信用分是如何计算出来的?
一克统计学:小数定律和随机事件
一克统计学:人人都能懂的贝叶斯定理
为什么数据挖掘很难成功?
数据挖掘师,要从一个人活成一支队伍
关于提升机器学习能力的方法 | 从周志华《机器学习》到李航的《统计学习方法》