bsite库 | 采集B站视频信息、评论数据
腾讯课堂 | Python网络爬虫与文本数据分析
一、简介
bsite是用于采集B站用户视频列表页、视频评论数据的python包。
二、安装
pip install bsite
三、使用方法
3.1 初始化Bsite类
登录B站后,使用开发者工具获取自己浏览器上的的cookies。获取方法可以参考 京东评论实战视频
from bsite import Bsite
cookies = {"cookie": "登录B站后的cookies"}
bs = Bsite(cookies=cookies)
3.2 bvid与aid转换
B站的视频链接
https://www.bilibili.com/video/BV1AE411r7ph
其中 BV1AE411r7ph 是该视频的 bvid号, 但在B站后台有一个与bvid对应的id号- aid
bvid与aid可以互相转化,Bsite内置了两个转化方法
Bsite.aid2bvid(aid) Bsite.bvid2aid(bvid)
例如将BV1AE411r7ph转为aid
bs.bvid2aid(bvid="BV1AE411r7ph")
72010301
同理将 72010301 转为 bvid
bs.aid2bvid(aid=72010301)
BV1AE411r7ph
3.3 下载某用户所有视频信息
Bsite.video_list(mid, csvfpath) 获取用户的所有已上传的视频信息。例如我的B站视频主页https://space.bilibili.com/122592901 其中122592901就是mid
mid 用户的id csvfpath csv文件路径,用于存储视频信息。
注意:为了保证所有数据均能正常存储不出错,强制使用utf-8编码,微软office打开该csv会乱码,可以用记事本或者WPS打开
一般在B站查看某用户【投稿】栏,可以看到ta的所有上传视频。Bsite可以帮我们得到的信息有
title、subtitle、author 标题、副标题、作者 aid、bvid 视频链接的id号 mid 用户的id。 created 上传时间 description 视频简介 pic 视频首图 play 播放次数 length 视频时长
获取DJI大疆创新 https://space.bilibili.com/232472043/video 所有投稿视频相关信息。
bs.video_list(mid=232472043, csvfpath='dji_videos.csv')
3.4 获取某视频内的所有评论
Bsite.comments(aid, csvfpath)
aid B站视频的id号,如果只有bvid没有aid,可以先使用内置的方法把bvid转为aid
csvfpath csv文件路径,用于存储评论数据。
注意:为了保证所有数据均能正常存储不出错,强制使用utf-8编码,微软office打开该csv会乱码,可以用记事本或者WPS打开
采集到的评论数据包括
content 评论内容 device 评论者使用的设备 like 点赞数 rcount 该评论追评和互动数 ctime 评论创建时间 avatar 评论者头像 level 评论者等级 sex 评论者性别 sign 评论者签名 uname 评论者昵称 mid 评论者的id diag 该评论是原始评论,还是某评论的互动
获取该视频 https://www.bilibili.com/video/BV1E54y1C7MF 所有的评论
aid = bs.bvid2aid('BV1E54y1C7MF')
bs.comments(aid=aid, csvfpath='comments.csv')
课程试听
课程python语法入门和网络爬虫部分可免费试听,对python感兴趣的童鞋可以收藏观看~试听二维码优惠券领取
本课程原价298元,现有朋友圈集赞活动,集赞满10+可得118元优惠券。参与方式
转发本文至朋友圈,集赞10+ 扫码加维信,备注【网课优惠券】 集赞截图私信,立得118元优惠券 购买后好评20+字,截图返现18.88元~
学习方式
电脑端学习,浏览器百度搜【腾讯课堂】,微信扫码登录账号,即可观看学习 手机端学习,安装【腾讯课堂app】,微信扫码登录账号,即可观看学习