查看原文
其他

这可能是你见过最全的网络爬虫工具库集合!

IT服务圈儿 2023-02-06

The following article is from 进击的Coder Author 崔庆才

来源丨经授权转自 进击的Coder(ID:FightingCoder)

作者丨崔庆才

经常逛 GitHub 的同学可能会听说过大名鼎鼎的 awesome 仓库,没错,就是这个:https://github.com/sindresorhus/awesome

这个库可谓是一个极大的宝藏,囊括了有关技术的几乎所有领域的资料、工具和库,比如平台、编程语言、前端开发、后端开发、大数据、数据科学、数据库、安全、硬件、DevOps 等等等,几乎想到的全都有。

就拿 Platform 这个平台这个分支来讲吧,里面又有进一步的细分,比如 iOS、Android、Linux、macOS、JVM 等等,然后每一个又是一个新的以 awesome 开头的仓库,比如:

  • awesome-linux:https://github.com/inputsh/awesome-linux
  • awesome-android:https://github.com/JStumpp/awesome-android
  • awesome-macOS:https://github.com/iCHAIT/awesome-macOS

是的,每一个子仓库里面都收集了关于这个领域的几乎所有的资料、工具、库等等。

也就是说,awesome (https://github.com/sindresorhus/awesome)这个库是,然后衍生出来了各个领域和方向的 awesome 子仓库来收集对应领域的资料、工具库,由全世界的程序员一起维护和贡献。

真的全是宝藏!

有朋友这会就好奇了,有没有有关爬虫的 awesome 库呢?有!

awesome-web-scraping

就是这个:https://github.com/lorien/awesome-web-scraping

这里面收集了有关网络爬虫的各种资料、工具库的列表,不仅仅是 Python,还有 Go、Ruby、JavaScript、PHP 等等,首页如下:

另外还有一些爬虫商业服务、控制台工具、无头浏览器、验证码破解网站等等。

比如我们看看 Python 的,里面就收集了各种请求库、解析库、数据处理库等等:

这里就不一一放了,是不是又大又全?

awesome-web-scraping 中文版

是的,awesome 系列仓库还有更小的分支,那就是根据语言划分的分支,比如说中文版、日文版、俄文版等等,比如说 awesome-windows 上面就分了中文:https://github.com/Awesome-Windows/Awesome

其他的很多 awesome 仓库也有中文,比如:

  • awesome-anrdoid 中文:https://github.com/jobbole/awesome-android-cn
  • awesome-ios 中文:https://github.com/jobbole/awesome-ios-cn

OK,那我做了件什么事呢?

我也为 awesome-web-scraping 创建了一个中文版本的仓库:https://github.com/Germey/AwesomeWebScraping

其实就是对原仓库进行了一次翻译,也是区分了各种语言,比如 Python、JavaScript 等各个语言的工具库全在这里面了!另外每个语言都有很多分类,像请求库、爬取框架、解析库、自然语言处理、消息队列等等,都在这里了:

比如部分的内容大致如下:

总之,这个库的目标就是做一个 GitHub 上收集有关网络爬虫工具库的最全的中文版集合!

当然现在我还在翻译和优化过程中,部分内容可能不是完全通顺,还会继续更新和完善的。

大家如果发现有遗漏的库,想往里面加的话也欢迎提 PR,我会一并收纳和整理,一起让它完善起来吧!

最后,求个 star,谢谢啦!

https://github.com/Germey/AwesomeWebScraping

扫码直达该仓库:




1、面试必备:聊聊MySQL的主从

2、推荐一款美观的聊天应用

3、全网讲解 "Python编码" 最全的教程了!

4、苹果官宣春季发布会!不止有iPhone SE 3,还有紫色iPhone 13 Pro?

5、推荐 6 个 yyds 的人脸识别系统

点分享

点点赞

点在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存