其他
太骚了!GitHub上重磅开源爬虫工具箱,竟然可以爬小电影!
点击上方“Github爱好者社区”,选择星标
回复“资料”,获取小编整理的一份资料
作者:GG哥
来源:GitHub爱好者社区(github_shequ)
这是GitHub爱好者社区第 56 篇原创文章
Hello,大家好,我是GG哥!
现在一般网站都有反爬虫机制,对于爱爬虫的朋友来说,想爬虫些数据,做下数据分析。是越来越难了。不过最近GG哥,发现一个超宝藏的爬虫工具箱。目前在GitHub已经有2.4K+星。
这个项目名字是“INFO-SPIDER”,INFO-SPIDER 是一个集众多数据源于一身的爬虫工具箱,旨在安全快捷的帮助用户拿回自己的数据,工具代码开源,流程透明。并提供数据分析功能,基于用户数据生成图表文件,使得用户更直观、深入了解自己的信息。目前支持数据源包括GitHub、QQ邮箱、网易邮箱、阿里邮箱、新浪邮箱、Hotmail邮箱、Outlook邮箱、京东、淘宝、支付宝、中国移动、中国联通、中国电信、知乎、哔哩哔哩、网易云音乐、QQ好友、QQ群、生成朋友圈相册、浏览器浏览历史、12306、博客园、CSDN博客、开源中国博客、简书。
安装python3和Chrome浏览器
安装与Chrome浏览器相同版本的驱动
安装依赖库 ./install_deps.sh (Windows下只需pip install -r requirements.txt)
进入 tools 目录
运行 python3 main.py
在打开的窗口点击数据源按钮, 根据提示选择数据保存路径
弹出的浏览器输入用户密码后会自动开始爬取数据, 爬取完成浏览器会自动关闭.