查看原文
其他

网络爬虫 | 使用Python披露采集 Up 主视频详情信息

大邓 大邓和他的Python
2024-09-09

一、问题

看到一个B站账号-祖国街景,使用行车记录仪记录中国城市,同时该账号还有youtube账号(中国街景), 感觉视频的评论和弹幕可以用来做城市形象方面的数据分析。之前也分享过评论和弹幕的数据采集,


但是需要有每个视频的Bvid才能采集。今天要分享的内容是  如何获取某Up主的所有视频对应的Bvid等信息 。完整的爬虫撰写步骤:

1. 发现网址规律,获得批量url
2. 对某个url发起成功的访问
3. 解析该url对应的网页数据
4. 存储到csv
5. 对所有url, 重复步骤2-4

为了减少工作量, 我就简单分析下网址规律,直接上代码。



二、网址规律

要获取某Up主视频Bvid等信息,只需要获得视频列表mid值,如下图。

如果学过大邓的网络爬虫, 找网址规律的方法是打开开发者工具Network面板, 在当前网页刷新, 按照截图标号顺序点击鼠标, 得到网址规律(下方截图红3)。剔除了对结果影响不大的参数,最终得到网址规律模板 template 。

template =  'https://api.bilibili.com/x/space/wbi/arc/search?mid={mid}&ps=30&pn={page}'



三、 爬虫代码

下方代码只需要改变 Up 主 mid 值,其他地方不要改动。我设置了限速,每秒访问一次, 直接运行代码,假设Up主有 9 页, 程序大概运行 9s 左右。 公众号代码复制容易出现问题, 可直接查看博客 textdata.cn 同日期推文, 在博客内进行代码复制。

import requests
import csv
import time


headers = {"user-agent""Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36"}
template =  'https://api.bilibili.com/x/space/wbi/arc/search?mid={mid}&ps=30&pn={page}'

#只需更改这个参数,就能爬视频列表信息
mid = '373489046'


with open('{mid}_infos.csv'.format(mid=mid), 'w', encoding='utf-8', newline=''as csvf:
    fieldnames = ['comment''typeid''play''pic''subtitle''description''copyright''title''review''author''mid''created''length''video_review''aid''bvid''hide_click''is_pay''is_union_video''is_steins_gate''is_live_playback''meta''is_avoided''attribute']
    writer = csv.DictWriter(csvf, fieldnames=fieldnames)
    writer.writeheader()

    url = template.format(mid=mid, page=1)
    resp = requests.get(url, headers=headers)
        
    record_num = resp.json()['data']['page']['count']
    max_page = int(record_num/30)+1


    for page in range(1, max_page+1):
        print('正在爬Up主第 {} 页'.format(page))
        url = template.format(mid=mid, page=page)
        resp = requests.get(url, headers=headers)
        vlist = resp.json()['data']['list']['vlist']
        for video in vlist:
            writer.writerow(video)
            
    time.sleep(1)

Run

    正在爬Up主第 1 页
    正在爬Up主第 2 页
    正在爬Up主第 3 页
    正在爬Up主第 4 页
    正在爬Up主第 5 页
    正在爬Up主第 6 页
    正在爬Up主第 7 页
    正在爬Up主第 8 页
    正在爬Up主第 9 页


四、导入数据

获取到Up主「祖国街景」的258个视频信息,含有的字段

comment 评论数
typeid 视频类型(猜测)
play 播放次数
pic 封面图链接
subtitle 副标题
description 视频描述
copyright 是否原创(猜测)
title 视频标题
review 评论数
author Up主昵称
mid Up主mid
created 创建时间(时间戳)
length 视频时长
video_review  是否原创(猜测)
aid 视频aid号
bvid 视频Bvid号
hide_click 未知
is_pay 是否付费
is_union_video 是否为联合制作
is_steins_gate 未知
is_live_playback 是否为直播回放
meta 视频元信息(含投币量、喜欢数、分享数)
is_avoided 未知
attribute 未知

import pandas as pd

df = pd.read_csv('373489046_infos.csv')

df.head()


#视频数量
len(df)

Run

259

#前5个内容
df['title'].tolist()[:5]

Run

    ['“800公里”时速(8倍速)从厦门开2000公里的车到成都是什么样的体验?',
     '重庆至上海-G50沪渝高速全程,经安庆、池州、铜陵、宣城、湖州到达上海【下】',
     '重庆至上海-G50沪渝高速全程【中】,经宜昌、荆州、武汉、鄂州、黄石',
     '重庆至上海-G50沪渝高速全程,1751公里原声原速【上】',
     '厦门至成都-横跨半个中国,G76厦蓉高速,经毕节、泸州、内江、资阳【下】']

#视频元信息(含投币量、喜欢数、分享数)
df['meta'].tolist()[:5]

Run

    ["{'id': 124822, 'title': '高速公路', 'cover': 'https://archive.biliimg.com/bfs/archive/634c1b4659e6958cba47322cca344a69f8121f34.jpg', 'mid': 373489046, 'intro': '', 'sign_state': 0, 'attribute': 140, 'stat': {'season_id': 124822, 'view': 1835970, 'danmaku': 14479, 'reply': 7495, 'favorite': 21838, 'coin': 10240, 'share': 5473, 'like': 40496, 'mtime': 1683437054, 'vt': 6497104, 'vv': 0}, 'ep_count': 38, 'first_aid': 253218067, 'ptime': 1683417600, 'ep_num': 0}",
     "{'id': 124822, 'title': '高速公路', 'cover': 'https://archive.biliimg.com/bfs/archive/634c1b4659e6958cba47322cca344a69f8121f34.jpg', 'mid': 373489046, 'intro': '', 'sign_state': 0, 'attribute': 140, 'stat': {'season_id': 124822, 'view': 1835970, 'danmaku': 14479, 'reply': 7495, 'favorite': 21838, 'coin': 10240, 'share': 5473, 'like': 40496, 'mtime': 1683437054, 'vt': 6497104, 'vv': 0}, 'ep_count': 38, 'first_aid': 253218067, 'ptime': 1683417600, 'ep_num': 0}",
     "{'id': 124822, 'title': '高速公路', 'cover': 'https://archive.biliimg.com/bfs/archive/634c1b4659e6958cba47322cca344a69f8121f34.jpg', 'mid': 373489046, 'intro': '', 'sign_state': 0, 'attribute': 140, 'stat': {'season_id': 124822, 'view': 1835970, 'danmaku': 14479, 'reply': 7495, 'favorite': 21838, 'coin': 10240, 'share': 5473, 'like': 40496, 'mtime': 1683437054, 'vt': 6497104, 'vv': 0}, 'ep_count': 38, 'first_aid': 253218067, 'ptime': 1683417600, 'ep_num': 0}",
     "{'id': 124822, 'title': '高速公路', 'cover': 'https://archive.biliimg.com/bfs/archive/634c1b4659e6958cba47322cca344a69f8121f34.jpg', 'mid': 373489046, 'intro': '', 'sign_state': 0, 'attribute': 140, 'stat': {'season_id': 124822, 'view': 1835970, 'danmaku': 14479, 'reply': 7495, 'favorite': 21838, 'coin': 10240, 'share': 5473, 'like': 40496, 'mtime': 1683437054, 'vt': 6497104, 'vv': 0}, 'ep_count': 38, 'first_aid': 253218067, 'ptime': 1683417600, 'ep_num': 0}",
     "{'id': 124822, 'title': '高速公路', 'cover': 'https://archive.biliimg.com/bfs/archive/634c1b4659e6958cba47322cca344a69f8121f34.jpg', 'mid': 373489046, 'intro': '', 'sign_state': 0, 'attribute': 140, 'stat': {'season_id': 124822, 'view': 1835970, 'danmaku': 14479, 'reply': 7495, 'favorite': 21838, 'coin': 10240, 'share': 5473, 'like': 40496, 'mtime': 1683437054, 'vt': 6497104, 'vv': 0}, 'ep_count': 38, 'first_aid': 253218067, 'ptime': 1683417600, 'ep_num': 0}"]



精选内容

管理世界 | 使用文本分析词构建并测量短视主义

管理世界 | 使用 经营讨论与分析 测量 企业数字化指标

管理世界 | 用正则表达式、文本向量化、线性回归算法从md&a数据中计算 「企业融资约束指标

管理世界 | 政府与市场心理因素的经济影响及其测度

叙事经济学:揭示经济中的叙事

中文心理词典,含具体性、可成象性等指标

PNAS | 14000+篇心理学顶刊论文可复现性调研(含代码)

可视化 | 词嵌入模型用于计算社科领域刻板印象等信息(含代码)

可视化 | 绘制《三体》人物关系网络图

可视化 | 99-21年地方政府报告关键词变化趋势

可视化 | 文本数据分成n等份、词云图、情绪变化趋势、相似度变化趋势

文本分析 | 中国企业高管团队创新注意力(含代码)

文本分析 | MD&A 信息含量指标构建代码实现

金融研究 | 使用Python构建「关键审计事项信息含量」

转载 | 大数据驱动的「社会经济地位」分析研究综述

使用 Word2Vec 和 TF-IDF 计算五类企业文化

如何用「图嵌入」将企业、高管职业经历表征为向量数据

Nature | 通用中英文六维语义情感词典

采购合同数据集 | 政府采购何以牵动企业创新

96G数据集 | 2亿条中国大陆企业工商注册信息

70G数据集 | 3571万条专利申请数据集(1985-2022年)

数据集 | 3.9G全国POI地点兴趣点数据集

数据集 | 「问询函」

网络爬虫 | 使用Python采集B站弹幕和评论数据

数据集 | 07-21年上市公司「委托贷款公告」

单个csv文件体积大于电脑内存,怎么办?

继续滑动看下一个
大邓和他的Python
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存