《全职高手》B站近十万评论,全职为何如此吸引人
大家看过《全职高手》的动漫吗?根据同名小说改编的,是一个非常大的IP。作为一个没有玩过任何网游的人,都看的热血沸腾。豆瓣评分在8.2,还算不错。
不过今天我们爬取的不是豆瓣评论,而是B站评论,因为它是在B站发布的,评论更为集中一些。其实是想爬弹幕,但是每一集弹幕最多显示3000条,遂放弃。B站评论按照每集显示,我们这里示范性只爬取了第一集的评论,显示的261930条评论,共4790页,但是这些评论数目加上了楼层回复的,所以按照楼层爬取,小编共获得了95762条评论。
右键找到相应的json文件,点击preview,便能找到我们所需内容。
这个URL为:
https://api.bilibili.com/x/v2/reply?callback=jQuery17203964473758122842_1544603719132&jsonp=jsonp&pn=1&type=1&oid=9659814&sort=0&_=1544603720769
但是别高兴的太早,直接request这个地址是会报错了,于是重新分析该地址
这里内容和URL是对应的,但是其实真正有用的只有三个,pn代表页码,oid代表视频编号,还有type和sort。于是删掉多余的信息,得到最终的URL:
https://api.bilibili.com/x/v2/reply?pn='1&type=1&oid=9659814&sort=0
接下来就非常容易了,写个for循环,存储每一页所需数据。
注意爬取下来的楼不一定是连续的,原因是一些楼层评论涉黄涉暴被删除了。
那么接下来就简单分析一下爬取下来的数据吧。
首先是时间线的评论数目,如下图,
因为第一集上线时间为2017年4月7日,距今时间已经超过1年半了,因此,在虽时间增长,评论数目也在逐渐下降。于是我们只看前一个月的数据。
上线第一天评论数目就超过两万,然后第二天直线下降,随时间增加越来越少,但是在一周后会小幅度增长,应该是有新的一集更新的缘故吧。
任何看看性别分布,如下图:
说实话,小编有点意外,这类讲网游的动漫,小编还以为是男生更多呢,结果女生不仅多余男生,还超的有点多呢。
在B站,一共有7个等级,如下,大概四级以上才算活跃用户。
在评论《全职高手》的用户里面,B站活跃用户占比相当大。
为了探索用户性别和等级的关系,于是做了下图:
等级-性别分布和本身用户性别比看起来似乎没有区别,于是,又做了堆叠图:
看起来,性别和等级果然没有关系。O(∩_∩)O,那么用户观看《全职高手》通常是在什么时间段呢?
用户观看时段最多的是11点-13点,因为全职是在这个时间段更新,大家一般都在更新后立马看。然后在13点之后不断下降,直到16点慢慢增加直到0点。由此可见,大家一般在上午不看,但是在下午和晚上更喜欢观影。
时间段和等级之间的关系如上图,不论是什么等级,拟合情况都和总体观影时段能匹配上的。
针对于评论,小编用SnowNLP简单的分析了其情感,结果如下图:
按照情感得分来看,中立和超级喜欢最多,其余得分分布非常均匀。这和《全职高手》口碑是相符合的,因为对很多人来说,这部剧在国产动漫里面已经是相当不错的,但碍于小说有1700+章,想在短短的20分钟呈现出来,那么必然要进行大幅度删减,于是对于角色的刻画,会存在较大的不同,这也造成了很多人不喜欢它,或考虑国内动漫发展情况,给予中等评价。但是对于另一些人来说,比如小编,这部剧在剧情、人物等方面还是非常吸引人的,于是会给予非常高的评价。
然后基于评价,用jieba分词,做了一个词云图:
全职、荣耀、君莫笑、叶修、叶神等剧情里面的重要事件、人物都是评论常提及的词。啊啊啊也出现的非常多,是因为大部分人在上线后都会发巨多的啊表示激动。
如果分析用户的个人简介和昵称,还会发现这里面有许多死忠粉,在昵称和简介里面会采用和《全职高手》相关信息。
据说《全职高手》第二季在明年出,小编都快等不及了,于是,再看一遍过过瘾吧。
代码在:
https://github.com/summerheday/quanzhigaoshou
GitHub上,大家看完记得给颗小星星啊。