查看原文
其他

可以获取趣闻八卦信息的工具,一起来八卦吧

源码哥 GitHub源码 2023-09-18

大家好,上次源码哥分享了一款爬虫项目,深受大家喜欢。

牛逼,爬虫王!!!

这不,又来一款爬虫相关的开源项目。

这次的项目是爬取新浪微博数据,对微博上的八卦趣闻感兴趣的,可以来试试呀。

介绍

项目名称 Weibo Spider。

这个程序可以连续爬取一个多个新浪微博用户的数据,并将结果信息写入文件数据库。爬取到的信息几乎包括用户微博的所有数据,分为用户信息微博信息两大类。还可以设置,只爬取需要的用户信息。

爬取的结果可写入文件和数据库,文件类型如下:

  • txt文件(默认)
  • csv文件(默认)
  • json文件(可选)
  • MySQL数据库(可选)
  • MongoDB数据库(可选)
  • SQLite数据库(可选)

支持下载微博中的图片和视频,具体如下:

  • 原创微博中的原始图片(可选)
  • 转发微博中的原始图片(可选)
  • 原创微博中的视频(可选)
  • 转发微博中的视频(可选)
  • 原创微博Live Photo中的视频(免cookie版特有)
  • 转发微博Live Photo中的视频(免cookie版特有)

安装程序

程序运行环境

  • 开发语言:python2/python3
  • 系统:Windows/Linux/macOS

安装程序

这个程序支持两种安装方式:源码安装pip安装。本文介绍 python3 版本的程序安装说明。

源码安装

$ git clone https://github.com/dataabc/weiboSpider.git
cd weiboSpider
$ pip install -r requirements.txt

pip安装

$ python3 -m pip install weibo-spider

运行程序

源码安装的用户可以在weiboSpider目录运行如下命令,pip安装的用户可以在任意有写权限的目录运行如下命令

$ python3 -m weibo_spider

第一次执行,会自动在当前目录创建config.json配置文件,配置好后执行同样的命令就可以获取微博了。

如果你已经有config.json文件了,也可以通过config_path参数配置config.json路径,运行程序,命令行如下:

$ python3 -m weibo_spider --config_path="config.json"

如果你想指定文件(csv、txt、json、图片、视频)保存路径,可以通过output_dir参数设定。假如你想把文件保存到/home/weibo/目录,可以运行如下命令:

$ python3 -m weibo_spider --output_dir="/home/weibo/"

定制化程序

可以根据自己的需要,定制化程序添加新功能。获取更多的信息。

image-20220304223853941

实例

以获取某位明星微博数据举例。

我们需要修改config.json文件,文件内容如下:

{
    "user_id_list": ["1669879400"],
    "filter": 1,
    "since_date""1900-01-01",
    "end_date""now",
    "write_mode": ["csv""txt""json"],
    "pic_download": 1,
    "video_download": 1,
    "result_dir_name": 0,
    "cookie""your cookie"
}

爬取结果如下


下载图片:


下载的视频:


点击下方名片关注,回复【4001】,即可获取项目源码

或者扫描下方二维码关注,回复【4001


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存