查看原文
其他

网络爬虫 | 使用Python采集B站弹幕和评论数据

大邓 大邓和他的Python
2024-09-09



一、函数介绍

本文的采集弹幕和评论的两个函数

  • get_video_danmaku(bv, encoding='utf-8')
  • get_video_comments(bv, max_page=10, speed=1, encoding='utf-8')

文末有代码获取方式

二、直接上手

短期内本文的爬虫代码是有效的,但是随着时间推移,使用爬虫的人越来越多, 代码失效的概率越来越大, 建议半年后不要购买本文。

本文只演示代码的调用,定义功能函数的代码在付费部分。

上海最近有车展,以这个视频为例

https://www.bilibili.com/video/BV18V4y1f78d/

在B站中, 每个视频拥有不同的BV号,可以作为视频的ID。在上方链接中 BV18V4y1f78d 是该视频的BV号。


2.1 采集弹幕

get_video_danmaku(bv='BV18V4y1f78d', encoding='utf-8')

  • bv: B站视频id
  • encoding: 存储到csv的编码格式
get_video_danmaku(bv='BV18V4y1f78d', encoding='utf-8')

Run

******************************************************************
    准备采集BV: BV18V4y1f78d 的弹幕内容
    已保存1条弹幕
    已保存2条弹幕
    已保存3条弹幕
    已保存4条弹幕
    ......
    已保存208条弹幕
    已保存209条弹幕
    共保存209条弹幕
    完成采集BV: BV18V4y1f78d 的弹幕内容

2.2 采集评论

get_video_comments(bv, max_page=10, speed=1, encoding='utf-8')

  • bv: B站视频id
  • max_page: 评论最大页码数; 每页有20个评论。据此计算页码数
  • speed: 爬虫速度,每间隔speed秒休息一下
  • encoding: 存储到csv的编码格式

在 BV18V4y1f78d 这个视频截图期间,有82个评论, 按照每页有20个评论,所以max_page=5 。额, 代码实际只采集到43个评论。

get_video_comments(bv='BV18V4y1f78d', max_page=5,  speed=1, encoding='utf-8')

Run

*******************************************************************
    准备采集BV: BV18V4y1f78d 的评论内容
    已保存1条评论
    已保存2条评论
    已保存3条评论
    已保存4条评论
    ......
    已保存40条评论
    已保存41条评论
    已保存42条评论
    已保存43条评论
    共保存43条评论
    完成采集BV: BV18V4y1f78d 的弹幕内容



三、读取数据

弹幕和评论的采集函数会以BV对csv进行命名,如下图

尝试分别读取数据,解释数据的含义


3.1 导入弹幕数据

danmaku_BV18V4y1f78d.csv文件中的字段

  • stime: 弹幕出现时间 (s)
  • mode: 弹幕类型;1~3滚动弹幕 4底端弹幕 5顶端弹幕 6.逆向弹幕 7精准定位 8高级弹幕
  • size: 字号;12非常小,16特小,18小,25中,36大,45很大,64特别大;
  • color: 文字颜色;  将HTML六位十六进制颜色转为十进制表示,例如白色#FFFFFF会被存储为16777215
  • date: 发送时间戳;现在距离基准时间1970-1-1 08:00:00的秒数
  • author: 发送者ID
  • danmaku: 弹幕文本
import pandas as pd

df = pd.read_csv('danmaku_BV18V4y1f78d.csv')

#按照stime排序
df.sort_values(by='stime', inplace=True)

print('弹幕数量: ', len(df))

#显示前20条
df.head(20)


3.2 导入评论数据

comments_BV18V4y1f78d.csv 文件中的字段

  • uname: 评论者(B站用户)昵称
  • mid: 评论者ID
  • sex: 评论者
  • level: 评论者用户等级
  • ctime: 发送时间戳;现在距离基准时间1970-1-1 08:00:00的秒数
  • author: 发送者ID
  • comment: 弹幕文本
import pandas as pd

df2 = pd.read_csv('comments_BV18V4y1f78d.csv')

#按照ctime排序
#ctime越大表示发表时间越近,越小,评论发表时间越久远
df2.sort_values(by='ctime', inplace=True)

print('弹幕数量: ', len(df2))

#显示前20条
df2.head(20)


精选文章

管理世界 | 使用文本分析词构建并测量短视主义

管理世界 | 使用 经营讨论与分析 测量 企业数字化指标

管理世界 | 用正则表达式、文本向量化、线性回归算法从md&a数据中计算 「企业融资约束指标

管理世界 | 政府与市场心理因素的经济影响及其测度

叙事经济学:揭示经济中的叙事

中文心理词典,含具体性、可成象性等指标

PNAS | 14000+篇心理学顶刊论文可复现性调研(含代码)

可视化 | 词嵌入模型用于计算社科领域刻板印象等信息(含代码)

可视化 | 绘制《三体》人物关系网络图

可视化 | 99-21年地方政府报告关键词变化趋势

可视化 | 文本数据分成n等份、词云图、情绪变化趋势、相似度变化趋势

文本分析 | 中国企业高管团队创新注意力(含代码)

文本分析 | MD&A 信息含量指标构建代码实现

金融研究 | 使用Python构建「关键审计事项信息含量」

转载 | 大数据驱动的「社会经济地位」分析研究综述

使用 Word2Vec 和 TF-IDF 计算五类企业文化

如何用「图嵌入」将企业、高管职业经历表征为向量数据

Nature | 通用中英文六维语义情感词典

采购合同数据集 | 政府采购何以牵动企业创新

96G数据集 | 2亿条中国大陆企业工商注册信息

70G数据集 | 3571万条专利申请数据集(1985-2022年)

数据集 | 3.9G全国POI地点兴趣点数据集

数据集 | 哔哩哔哩 1 亿用户数据

单个csv文件体积大于电脑内存,怎么办?





四、获取源代码

购买即可获取本文源代码, 适合做小规模采集。需要注意,本文爬虫代码并不完美, 例如评论83条,只采集到43条。 短期内本文的爬虫代码是有效的,但是随着时间推移,使用爬虫的人越来越多, 代码失效的概率越来越大, 建议半年后不要购买本文。

代码创作不易,需要的话, 点击购买源代码

继续滑动看下一个
大邓和他的Python
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存