其他
可以获取趣闻八卦信息的工具,一起来八卦吧
大家好,上次源码哥分享了一款爬虫项目,深受大家喜欢。
这不,又来一款爬虫相关的开源项目。
这次的项目是爬取新浪微博数据,对微博上的八卦趣闻感兴趣的,可以来试试呀。
介绍
项目名称 Weibo Spider。
这个程序可以连续爬取一个或多个新浪微博用户的数据,并将结果信息写入文件或数据库。爬取到的信息几乎包括用户微博的所有数据,分为用户信息和微博信息两大类。还可以设置,只爬取需要的用户信息。
爬取的结果可写入文件和数据库,文件类型如下:
txt文件(默认) csv文件(默认) json文件(可选) MySQL数据库(可选) MongoDB数据库(可选) SQLite数据库(可选)
支持下载微博中的图片和视频,具体如下:
原创微博中的原始图片(可选) 转发微博中的原始图片(可选) 原创微博中的视频(可选) 转发微博中的视频(可选) 原创微博Live Photo中的视频(免cookie版特有) 转发微博Live Photo中的视频(免cookie版特有)
安装程序
程序运行环境
开发语言:python2/python3 系统:Windows/Linux/macOS
安装程序
这个程序支持两种安装方式:源码安装和pip安装。本文介绍 python3 版本的程序安装说明。
源码安装
$ git clone https://github.com/dataabc/weiboSpider.git
$ cd weiboSpider
$ pip install -r requirements.txt
pip安装
$ python3 -m pip install weibo-spider
运行程序
源码安装的用户可以在weiboSpider目录运行如下命令,pip安装的用户可以在任意有写权限的目录运行如下命令
$ python3 -m weibo_spider
第一次执行,会自动在当前目录创建config.json配置文件,配置好后执行同样的命令就可以获取微博了。
如果你已经有config.json文件了,也可以通过config_path参数配置config.json路径,运行程序,命令行如下:
$ python3 -m weibo_spider --config_path="config.json"
如果你想指定文件(csv、txt、json、图片、视频)保存路径,可以通过output_dir参数设定。假如你想把文件保存到/home/weibo/目录,可以运行如下命令:
$ python3 -m weibo_spider --output_dir="/home/weibo/"
定制化程序
可以根据自己的需要,定制化程序添加新功能。获取更多的信息。
实例
以获取某位明星微博数据举例。
我们需要修改config.json文件,文件内容如下:
{
"user_id_list": ["1669879400"],
"filter": 1,
"since_date": "1900-01-01",
"end_date": "now",
"write_mode": ["csv", "txt", "json"],
"pic_download": 1,
"video_download": 1,
"result_dir_name": 0,
"cookie": "your cookie"
}
爬取结果如下:
下载图片:
下载的视频:
点击下方名片关注,回复【4001】,即可获取项目源码
或者扫描下方二维码关注,回复【4001】