GitHub 上有哪些好用的爬虫?
以下文章来源于有三AI ,作者全能言有三
微信搜 “GitHubDaily” 点关注
设为 “星标”,每天下午 18:35,带你逛 GitHub!
本文转自有三 AI,作者言有三
在开发实际项目的时候,你经常没有足够多的数据,需要自己去想办法获取,这个时候常常需要用到爬虫。然而找来找去,很可能找了很久都找不到既免费又好用的爬虫,今天就从好的爬虫开始说起,这很可能是项目成功的开始。
综述类项目与学习资料
1、awesome-spider
地址:https://github.com/facert/awesome-spider
这是 ID 为 facert 的一个知乎工程师开源的,Star 6000+,内容如下:
这一款爬虫,里面搜集了几乎所有可以爬取的中文网址,从知乎豆瓣到知网,抖音微博到 QQ,还有很多的不可描述的网站,你懂的。
2、Nyspider
地址:https://github.com/Nyloner/Nyspider
这是 ID 为 Nyloner 的一个今日头条的工程师弄的,Star 1000+,风格与上面的项目大有不同。
可以看出,都是各类网址。这很头条,跟这位小哥哥的工作内容估计有关系。
3、awesome-python-login-model
地址:https://github.com/CriseLYJ/awesome-python-login-model
这是 ID 为 CriseLYJ (职业不详) 的用户,这个项目用于模拟各种网址登陆,也包含一些简单的爬虫,Star 6000+。
先从这个项目开始分析各大网站的登录方式,非常有用,可谓摸清对手再动手。
4、python-spider
地址:https://github.com/Jack-Cherish/python-spider
这是 ID 为 Jack-Cherish 的东北大学的一个学生整理的学习 python 爬虫的资料,Star 6000+,包含不少的实战项目,非常适合想学习的朋友。
其他还有一些项目,不再一一介绍。
https://github.com/jhao104/proxy_poolhttps://github.com/Ehco1996/Python-crawler
优秀图片 / 视频项目
笔者的精力多在图像和视频,所以下面各自介绍一个功能强大,简单好用的图片和视频爬虫。
工具亲测长期有效,省去了很多找爬虫工具的时间,早用早好。
1、Google,Baidu,Bing 三大搜素引擎图片爬虫
地址:https://github.com/sczhengyabin/Image-Downloader
这个爬虫由 ID 为 sczhengyabin 的用户整理,可以按要求爬取百度、Bing、Google 上的图片,我已经用了几年了,提供了非常人性化的 GUI 方便操作,使用方法如下:
使用 python image_downloader_gui.py 调用 GUI 界面,配置好参数 (关键词,路径,爬取数目等),关键词可以直接在这里输入也可以选择从 txt 文件中选择。
可以配置需要爬取的样本数目,这里一次爬了 2000 张,妥妥的 3 分钟搞定。
这个爬虫足够满足小型项目初始数据集的积累 (爬几千张高质量图片妥妥的),结果命名也非常整齐规范, 最大的优势就是稳定啊,不会三天两天不能用了。
2、各大视频网站爬虫
地址:https://github.com/iawia002/annie
由 ID 为 iawia002 的用户整理,Annie 是一款以 go 语言编码的视频下载工具,使用便捷并支持 youtube,腾讯视频,抖音等多个网站视频和图像的下载,收录站点如下,可以说是该有的都有的:
虽然这个项目可以下载图片,但是我们还是来用它下载视频吧,使用方法很简单:
annie [可选参数]http://… (视频网址)视频会下载到当前目录,至于那些可选参数,赶紧去摸索吧。
以上便是今日分享,觉得内容不错,还请点个在看哦~
推荐阅读:
「GitHub 交流群」已开放
想入群的可在公众号后台回复「入群」