时代真的变了?B站2019最美夜弹幕高频词居然是它!
The following article is from 数据和云 Author 一叶扁舟
摘要:本文来自『墨天轮』社区读者『一叶扁舟』投稿,元旦前夕,《bilibili晚会 二零一九最美夜》在B站上映,截止目前评分高达9.9分,6945万次播放,238.4万条弹幕。采集一下弹幕,做个分析,感受一波广大观众的情感热浪。
原文:https://www.modb.pro/db/14110
一、概述
元旦前夕,《bilibili晚会 二零一九最美夜》在B站上映,朋友圈刷到不少朋友对晚会的称赞,不禁我也想去围观一波,截止目前评分高达9.9分,6945万次播放,238.4万条弹幕。
随便点到一段,感受了一波弹幕的洪流,开着弹幕简直无法看节目,关了弹幕又觉得少了点啥。。。
节目总共分为三个篇章:日落、月升、星繁。光这篇章的名字我都想刷波666。每个篇章下有7-8个节目,共计22个节目
二、数据分析
本次分析主要针对节目的弹幕进行分析,因此需要爬取到所有弹幕,爬去弹幕时,发现弹幕信息页保存有用户性别,那就一波带走,可以附加一个性别分析。
获取内容
代码概览
使用爬虫爬取了几千个网页,获取到每个篇章、每个节目的弹幕数、评论者姓名、弹幕内容,并保存到本地。
(ps:刚开始保存到了excel里面,想着方便看,没想到excel太不给力,单个单元格存储能力有限,2M的内容,硬生生自动给我去除到了300k)
数据概览
三、数据清洗计算
清洗内容
2、使用jieba对comment:评论内容进行分词
3、计算整体数据:用于展示整体弹幕词云、整体性别占比
4、计算出最受关注的节目数据:用于选出最受关注的节目、展示排行
5、计算最受关注节目数据:用于展示最受欢迎节目弹幕词云、最受欢迎节目弹幕性别占比
代码概览
清洗结果概览
1、综合数据
2、整体数据:词云数据+性别数据
3、节目关注排行数据
4、最受关注节目数据:词云数据+性别数据
数据可视化
1、词云:
2、其他数据:
四、数据分析报告
整体分析
1、弹幕几十万条,到底讲的啥?词云了解一下。
另外,观察到左上角“第一”这个词还挺大,第一明明只有一个,你这么大岂不是很奇怪??
看了一下评论:果然很多个第一呀。。。。
弹幕刷到几十页了,还有人在喊第一:
同时,发现弹幕几十页是同一个时间,说明弹幕非常多,同一时间大量的弹幕。
ps:第一个竟然是过了22秒才发出来,5G还是要抓紧时间普及呀。。。
2、晚会更受男生欢迎还是女生欢迎?
可以看出,大部分的评论者都是保密,毕竟男孩子在外面要学会保护自己。。。
整体来看,男性评论者还是占大多数,节目中魔兽世界、还有各类小姐姐,各种cosplay,势必更受男性站友的欢迎。
哪个节目更受关注?
一共22个节目,哪个节目更受大家的关注呢?
1、弹幕数排行数据概览
2、可视化排行
通过排行计算,可以看出最受欢迎的节目是“周琛翻唱《千与千寻》主题曲 空灵天籁好听到爆炸”。
随便截个图,让大家慢慢数数够不够51条。。。
最受关注的节目分析
1、同样,词云了解一下最受关注的节目弹幕讲的啥。
没想到你们不仅颜值控,还声控,哼!
2、这个节目不会真的女生偏多吧?
哦吼!果然。。。
这个节目女粉异常的多呀,竟然奔着男生的3倍去了。。。
ok,不说了,夜深了,清清嗓子到小区楼下练唱歌去了 ,拜了个拜!!!
来源:墨天轮(https://www.modb.pro/db/14110)
推荐阅读:
数据同步之道(Sqoop、dataX、Kettle、Canal、StreamSets)
数仓社区
如有收获,请划至底部,点击“在看”,谢谢!
资源下载
关注公众号:数据仓库与Python大数据 回复关键字获取哦
06,数仓经典书籍
07, python基础入门
中台,中台 PPT
体系,OneData体系PPT
实时数仓,FFA 实时数仓视频回顾
Kettle,Kettle视频
Kylin,Kylin视频
Flink,Oracle 12.2体系结构图
Python,零基础学Python教程视频
如果您对文章感兴趣,欢迎加入数据技术交流群。进群方式:请加小助微信(微信号:iom1128),回复:数据,备注行业-职位-城市,审核通过 会自动拉你进群。也可领取大数据学习资料哦。
数仓社区 | 一个分享交流的地方
长按,识别二维码,加入数据交流社群
请备注:数据
你的“在看”,能被看见 ❤