网络爬虫 | 使用Python采集B站弹幕和评论数据

Original 大邓大邓和他的Python

2024-09-09

一、函数介绍

本文的采集弹幕和评论的两个函数

get_video_danmaku(bv, encoding='utf-8')
get_video_comments(bv, max_page=10, speed=1, encoding='utf-8')

文末有代码获取方式

二、直接上手

短期内本文的爬虫代码是有效的，但是随着时间推移，使用爬虫的人越来越多，代码失效的概率越来越大，建议半年后不要购买本文。

本文只演示代码的调用，定义功能函数的代码在付费部分。

上海最近有车展，以这个视频为例

https://www.bilibili.com/video/BV18V4y1f78d/

在B站中，每个视频拥有不同的BV号，可以作为视频的ID。在上方链接中 BV18V4y1f78d 是该视频的BV号。

2.1 采集弹幕

get_video_danmaku(bv='BV18V4y1f78d', encoding='utf-8')

bv: B站视频id
encoding: 存储到csv的编码格式

get_video_danmaku(bv='BV18V4y1f78d', encoding='utf-8')

Run

******************************************************************
    准备采集BV: BV18V4y1f78d 的弹幕内容
    已保存1条弹幕
    已保存2条弹幕
    已保存3条弹幕
    已保存4条弹幕
    ......
    已保存208条弹幕
    已保存209条弹幕
    共保存209条弹幕
    完成采集BV: BV18V4y1f78d 的弹幕内容

2.2 采集评论

get_video_comments(bv, max_page=10, speed=1, encoding='utf-8')

bv: B站视频id
max_page: 评论最大页码数; 每页有20个评论。据此计算页码数
speed: 爬虫速度，每间隔speed秒休息一下
encoding: 存储到csv的编码格式

在 BV18V4y1f78d 这个视频截图期间，有82个评论，按照每页有20个评论，所以max_page=5 。额，代码实际只采集到43个评论。

get_video_comments(bv='BV18V4y1f78d', max_page=5,  speed=1, encoding='utf-8')

Run

*******************************************************************
    准备采集BV: BV18V4y1f78d 的评论内容
    已保存1条评论
    已保存2条评论
    已保存3条评论
    已保存4条评论
    ......
    已保存40条评论
    已保存41条评论
    已保存42条评论
    已保存43条评论
    共保存43条评论
    完成采集BV: BV18V4y1f78d 的弹幕内容

三、读取数据

弹幕和评论的采集函数会以BV对csv进行命名，如下图

尝试分别读取数据，解释数据的含义

3.1 导入弹幕数据

danmaku_BV18V4y1f78d.csv文件中的字段

stime: 弹幕出现时间 (s)
mode: 弹幕类型；1～3滚动弹幕 4底端弹幕 5顶端弹幕 6.逆向弹幕 7精准定位 8高级弹幕
size: 字号；12非常小，16特小，18小，25中，36大，45很大，64特别大；
color: 文字颜色; 将HTML六位十六进制颜色转为十进制表示，例如白色#FFFFFF会被存储为16777215
date: 发送时间戳；现在距离基准时间1970-1-1 08:00:00的秒数
author: 发送者ID
danmaku: 弹幕文本

import pandas as pd

df = pd.read_csv('danmaku_BV18V4y1f78d.csv')

#按照stime排序
df.sort_values(by='stime', inplace=True)

print('弹幕数量: ', len(df))

#显示前20条
df.head(20)

3.2 导入评论数据

comments_BV18V4y1f78d.csv 文件中的字段

uname: 评论者(B站用户)昵称
mid: 评论者ID
sex: 评论者
level: 评论者用户等级
ctime: 发送时间戳；现在距离基准时间1970-1-1 08:00:00的秒数
author: 发送者ID
comment: 弹幕文本

import pandas as pd

df2 = pd.read_csv('comments_BV18V4y1f78d.csv')

#按照ctime排序
#ctime越大表示发表时间越近，越小，评论发表时间越久远
df2.sort_values(by='ctime', inplace=True)

print('弹幕数量: ', len(df2))

#显示前20条
df2.head(20)