查看原文
其他

数据揭秘5000个知乎万粉大V的日常

二胖并不胖 Python与数据分析 2019-02-23

作者:二胖

来源:大数据前沿



前些天,知乎第一大V张佳玮的一条知乎想法再次引起了大V们对知乎“限流”的热议。


大V们为什么会觉得知乎在“限流”,可能各位吃瓜群众不太了解。近期大V们发布的文章和回答的点赞数明显不如以前多了,部分关注者也看不到他们的动态,所以大V们才会认为知乎对自己的流量做了限制。也因此,张公子才会做上图中的“测试”。


知乎官方也进行了回应:


当然,知乎官方否认对大V进行了“限流”操作,解释说只有用户屏蔽了相关“话题”后才会阻止这部分用户查看到大V们的动态。


很多大V和关注者们提出了质疑,并且给出了“证据”,场面一度陷入尴尬 ...


知乎是否对用户进行了限流操作呢?这个二胖其实是不太关心的,因为我的赞同数一直不多... 


反而我对大V们的日常动态更感兴趣,顺便也想看看大V们的赞同数是不是真的少了,于是就有了下面这一份统计。


申明!


以下统计为民间统计,不代表知乎官方,仅供参考!

以下统计为民间统计,不代表知乎官方,仅供参考!

以下统计为民间统计,不代表知乎官方,仅供参考!


重要的事情说三遍~


以下统计由后端开发工程师@二胖完成,非科班数据分析工作者,如果数据图表做得比较丑,请凑合看。


好啦,正式开始,文章可能有点长,请大家耐心观看,谢谢~


1

数据描述


我在2018年1月的时候爬过一次知乎的用户信息,去重后的用户数据量在500万。


此次统计所用的数据就是我今年1月份抓取的。我将截至2018年1月,粉丝数超过10K的用户作为大V筛选出来。所以,你的粉丝数如果在2018年1月时还没有超过10K,这份报告里面可能就不会包含你的数据喽。


通过筛选,我一共找出了5043个万粉大V,然后我对这5043人的信息进行了更新。也就是说,这5043个人数据的最后更新日期是2018年11月。


这里解释一下,我当时抓取知乎用户信息的策略是遍历用户的粉丝和关注者,从概率上讲,漏掉大V的可能性是比较小的。也就是说,当时的数据量是比较真实的,10k粉丝以上的大V大约有5000人,当然现在肯定远远不止了。


在更新数据(重新抓取大V们的数据)的过程中,我发现其中有4986个账号能访问,57个账号已经停止使用知乎,可能该账号已注销,如下图所示。


数据包含两部分,第一部分是这4986个大V的基本信息,也就是你们能在大V的知乎首页上看到的信息,比如职业、地点、赞同数、粉丝数等。


数据的第二部分是大V们的动态信息,包括发布文章、收藏回答、关注问题、回答问题、点赞回答、点赞文章、发布想法、关注话题、创建问题、关注专栏、关注收藏夹、收藏圆桌等动态的产生时间、赞同数量等信息,合计225万条数据。


2

大V基本信息分析


知乎大V的男女比例:

知乎将性别信息分类为三类。第一类是1,代表男性;第二类是0,代表女性;第三类是-1,可能是机构号或者认证号吧,其中李开复老师的账号的性别是-1。


从上图可以看到,男性大V的数量是远远大于女性大V的


大V们都来自哪里:


知乎大V粉丝数排行Top15:

下表左列是知乎用户的名字,右列是大V的粉丝数量,看看有你们眼熟的人吗?榜首张家玮,知乎联合创始人周源、黄继新、张亮纷纷进入top10


知乎女性大V粉丝数排行Top10:

知道你们很关心女性大V,下表拿好不谢。


大V回答问题的数量排行Top10:

我一直很好奇轮子哥为什么有那么多时间刷知乎,一如既往地占据榜首的位置。


大V获得赞同的数量排行Top10:

张公子稳居第一,不愧知乎第一大V。


大V获得收藏的数量排行Top10:

从下表可以看出,大家很关心做饭。


3

关于“限流”


大V们感知被“限流”的原因就是自己的回答和文章“获赞”少了,那我们就来统计一下这两个参数。


近五年大V们回答问题的活跃度:

由于时间过于密集(Kibana的图表有点难看),所以就没有在图表中标注时间。x轴是时间序列(13年~18年,间隔单位为周),每一根竖条代表大V们一周回答的问题数量,2018年10月29日开始的这一周数量最多,大V们回答了近5000个问题。可以看出这5年大V们回答问题的积极性是在升高的。


近五年大V们发布文章的活跃度:

可以看到,大V们发布文章的活跃度走势和回答问题的活跃度走势不太一样。从2018年8月20日开始,大V们发布文章的数量开始持续走低,直到2018年10月的最后一周开始上涨,11月的第一周开始了爆发式的增长。


这是为什么呢?因为10月末11月初有太多的事情发生,金庸大侠和李咏永远离开了我们、IG历史性地获得了胜利...


不管是大V们是真想写点什么,还是为了蹭一把热度,总之文章的发布量是上去了。


正常情况下,大V们获得赞同的数量和他们发布回答和文章的数量走势应该一致。所以,我统计了一下大V们文章获赞和回答获赞的数量基于时间的变化。


首先看看大V们文章获赞的数量走势:

上图给出了三个重要的时间点,大V们文章获赞的走势和发布文章的数量走势大致相同,只是有些细微的不重合,似乎看不出什么端倪。


那么接下来再看看大V们发布的回答获赞的数量走势:

上图是截至2018年11月第二周,大V们在每个时间段回答的问题获赞数量的走势。这张图我们需要对照下面这张图来看,下图是大V们在每个时间段回答问题的个数统计。

可以看到,两者的走势出现了比较大的差异。2018年9月以来大V们发布回答的赞同数量急剧下降,难道是被“限流”了吗?这个不好说,也有可能因为回答问题的时间距离统计的时间太近,赞同数还没有上去。


如果真是由于回答的问题距离统计时间太近而造成赞同数量较低的话,那么2017年8月7日到2018年3月12日这段时间大V们的获赞数量下降又是怎么回事呢?这段时间大V们回答问题的数量事实上是处于上升趋势的。


可能是这段时间大V们写的回答质量不高?还是说知乎推出了推荐功能,分散了用户的注意力?当然也有可能是我收集的数据不全,或者统计错误了。


4

哪些大V最活跃?


2017年11月到2018年11月的一年时间里,知乎大V们回答问题数量的排行榜:

2017年11月到2018年11月的一年时间里,知乎大V们发布文章数量的排行榜:


看到上面几张图的时候,我还是挺震惊的。现在已经有这么多机构号入驻知乎了,并且发文和回答最活跃的竟然是各个机构号


由此可见,其实大V们感受到被“限流”,可能不是真的被“限流”了,而是被其他大V(比如机构号)冲淡了粉丝们的时间线。


  1. 粉丝关注的人越多,能收到大V的动态也越多,平均点开每个大V的文章次数自然就少了。并且某些机构号一天可以发10多篇文章,敢问在座的各位大V谁能做得到。

  2. 知乎推出的推荐版块,大大分散了用户的注意力。就连我自己,也都经常刷“推荐”版块,而很少去看关注的人的动态。


所以,也许这就是传说中的所谓的知乎红利期已经过去了的证据吧。蛋糕就那么大,谁都想来分一块呗。


目前看来,想要获赞和涨粉,只有让回答和文章上“推荐”,这才是最快的途径。那么问题又来了,你的文章上不上推荐谁说了算呢?知乎呗。


限流并不可怕,限制推荐才可怕


比限制推荐更可怕的是,推荐出来的文章或者回答,很多都是“抖音”和“快手”风。


一个平台做大了就是这样,只有迎合了大部分用户的口味才能挣钱,才能变现。所以大V们吐槽归吐槽,事实还是很难改变了,又不能逼着自己录点小视频放在知乎上。


5

关于涨粉


在任何情势下,都有人可以快速涨粉。写文章大约有两种原因,一是写自己愿意写的,二是写别人愿意看的


大多涨粉快的大V都选择了第二种。我们只要监控知乎热榜和知乎推荐一段时间,就不难发现大家的口味。可是呢,那些东西,有时真的没办法逼着自己去写。


这里给大家列举个几个大V们回答得最多的Top10问题,想涨粉先去把这10个问题回答了吧。


这里我单独把女性大V回答最多的10个问题列出来给大家看看。


6

一点干货


最后给大家推荐一下知乎大V关注得最多的知乎专栏,也许你们能在这里获得不少的启发。


写在最后:

数据太多,这里就不一一统计啦。可能还有用户没看过瘾,我之前还写过一篇分析知乎用户的文章:

用python挖一挖知乎上宅男们最喜欢的1000个妹子

大家也可以参考参考。


关于文章使用的技术:

1. 数据抓取

爬虫代码就不分享啦,不过我写过一篇文章来分享我的分布式爬虫架构和爬虫细节,以及如何大规模抓取数据,同时还录了视频讲解,大家可以点击链接查看:分享我的分布式爬虫架构设计(附二胖视频讲解)


2. 数据清洗:Python


3. 数据统计+可视化:

ElasticSearch+Kibana,关于数据分析和可视化我也有写文章进行介绍,可以参考我公众号的文章:

1.张重庆,你骗我吃了那么多年的鸡公煲,竟然不是重庆的?

2.手把手教你搭建一个 Elasticsearch 集群



想第一时间看到公众号的精彩文章,

赶快把公众号设为星标吧,

打开公众号,点击“设为星标”就可以哦~

推荐阅读:


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存