要成为一个专业的爬虫大佬，你还需要了解这些

查看原文

其他

要成为一个专业的爬虫大佬，你还需要了解这些

原创： wLsq Python数据科学 2019-04-22

点击上方“Python数据科学”，选择“置顶公众号”

关键时刻，第一时间送达！

本文参考以下文章，并经由部分翻译和内容编辑而成。

原创作者：Gregory Petukhov

本文内容参考Github：https://github.com/lorien/awesome-web-scraping/blob/master/python.md

全文阅读需要2分钟

大家常说Python是爬虫非常好的工具，其实是有原因的。Python拥有非常丰富的库可以使用，各种能想到的工具早已由牛人造出轮子，我们利用这些便利舒服的写着我们的爬虫。可能因为学习和工作的局限性，我们只知道常用的库，其实很多非常优秀的库也非常值得我们深究和学习，那么到底Python的库能丰富到什么程度？

本次与分大家分享关于网络爬虫的相关库以及介绍，希望爬虫的爱好者们在爬虫的路上越走越远，成为爬虫界的大佬。

网络

爬虫中通用的网络库

通用

urllib：网络库(stdlib)。
requests：网络库。
grab：网络库（基于pycurl）。
pycurl：网络库（与libcurl绑定）。
urllib3：Python HTTP库，线程安全连接池、文件post支持、高可用性。
httplib2：网络库。
RoboBrowser：一个简单，并具有Pythonic风格的爬取库，可以浏览网页而无需独立的浏览器。
MechanicalSoup：一个与网站自动交互Python库。
Mechanize：有状态、可编程的Web浏览库。
socket：底层网络接口(stdlib)。
Unirest for Python：一套可用于多种语言的轻量级HTTP库。
hyper：对于Python的HTTP/2客户端。
PySocks：更新并积极维护SocksiPy的版本，包括错误修复和额外的特征。可以作为socket模块的直接替换。

异步

treq：类似于API的requests（基于twisted）。
aiohttp：asyncio的HTTP客户端/服务器(PEP-3156)。

网络爬虫框架

爬虫中比较流行的开源框架

功能强大的爬虫框架

grab：网络爬虫框架（基于pycurl/multicur）。
scrapy：网络爬虫框架（基于twisted）。
pyspider：一个强大的爬虫系统。
cola：一个分布式的爬虫框架。

其他

portia：Scrapy的可视化爬虫。
restkit：Python的HTTP资源工具包。它可以让你轻松地访问HTTP资源，并围绕它建立的对象。
demiurge：基于PyQuery的爬虫微框架。
requests-html：Python风格的HTML解析工具，面向人类，易于操作。

HTML/XML解析器

爬虫中解析库工具

通用

lxml：由C语言编写，是一个高效HTML/ XML处理库，并支持XPath。
cssselect：使用CSS选择器解析DOM树。
pyquery：使用jQuery选择器解析DOM树。
BeautifulSoup：低效HTML/ XML处理库，纯Python实现。
html5lib：根据WHATWG规范创建的HTML/ XML文档的DOM。该规范被用在所有流行的浏览器上。
feedparser：解析RSS/ATOM feeds。
MarkupSafe：实现了Python中对XML/HTML/XHTML安全转义字符串的功能。
xmltodict：让你在处理XML时感觉像在处理JSON一样的Python模块。
xhtml2pdf：将HTML/CSS转换为PDF。
untangle：实现将XML文件转换为Python对象，以方便操作。
hodor：以lxml和cssselect为主的配置驱动包装器。
chopper：使用相应的CSS规则提取HTML网页的工具，并储存正确的HTML。
selectolax：Python绑定到Modest引擎上(使用CSS选择器的快速HTML5解析器)。

清理

Bleach：清理HTML（需要html5lib）。
sanitize：为混乱的数据世界带来清明。

文本处理

用于解析和操作简单文本的库

通用

difflib：（Python标准库）帮助进行差异化计算。
Levenshtein：快速计算Levenshtein距离和字符串相似度。
fuzzywuzzy：模糊字符串匹配。
esmre：正则表达式加速器。
ftfy：实现自动整理Unicode文本，并减少碎片化。

转换

unidecode：可以将Unicode文本转为ASCII。

字符编码

uniout ：打印可读字符，而替代被转义的字符串。
chardet：兼容 Python的2/3的字符编码器。
xpinyin：一个将中国汉字(漢字) 转为拼音(拼音)的库。
pangu.py：可以调整文本中CJK和字母数字的间距。
cchardet：cChardet是一个高速统一的字符编码检测器，与uchardet绑定。

Slug化

awesome-slugify：可以保留unicode的Python slugify库。
python-slugify：可以将Unicode转为ASCII的Python slugify库。
unicode-slugify：可以将生成Unicode slugs的工具。
pytils：处理俄语字符串的简单工具（包括pytils.translit.slugify）。

通用解析器

PLY：lex和yacc解析工具的Python实现。
pyparsing：一个通用框架的生成语法分析器。

人的名字

python-nameparser：可以解析人的名字。

电话号码

phonenumbers：解析，格式化，存储和验证国际电话号码。

用户代理字符串

python-user-agents：浏览器用户代理的解析器。
HTTP Agent Parser：Python的HTTP代理分析器。
fake-useragent：基于浏览器的词汇统计，实现Python 用户代理（ua）字符串的伪造。
user_agent：用户代理（ua）数据生成器。

特定格式处理

解析和处理特定文本格式的库

通用

tablib：把数据导出为XLS、CSV、JSON、YAML等格式的模块。
textract：从各种文件中提取文本，比如 Word、PowerPoint、PDF等。
messytables：解析混乱的表格数据的工具。
rows：一个常用数据接口，支持的格式很多（目前支持CSV，HTML，XLS，TXT – 将来还会提供更多）。

Office

python-docx：读取，查询和修改的Microsoft Word2007/2008的docx文件。
xlwt / xlrd：从Excel文件读取写入数据和格式信息。
XlsxWriter：创建Excel.xlsx文件的Python模块。
xlwings：BSD许可的库，可以很容易地在Excel中调用Python，反之亦然。
openpyxl：用于读取和写入的Excel2010 XLSX/ XLSM/ xltx/ XLTM文件的库。
Marmir：提取Python数据结构并将其转换为电子表格。

PDF

PDFMiner：从PDF文档中提取信息的工具。
PyPDF2：能够分割、合并和转换PDF页面的库。
ReportLab：允许快速创建丰富的PDF文档。
pdftables：直接从PDF文件中提取表格。

Markdown

Python-Markdown：用Python实现的John Gruber的Markdown。
Mistune：速度最快，功能全面的Markdown纯Python解析器。
markdown2：完全用Python实现的快速的Markdown。

YAML

PyYAML：Python的YAML解析器。

CSS

cssutils：Python的CSS库。

ATOM/RSS

feedparser：通用的feed解析器。

SQL

sqlparse：非验证的SQL语句分析器。

HTTP

http-parser：C语言实现的HTTP请求/响应消息解析器。

微格式

opengraph：用来解析Open Graph协议标签的Python模块。

可移植的执行体

pefile：多平台的用于解析和处理可移植执行体（即PE）文件的模块。

PSD

psd-tools：将Adobe Photoshop PSD（即PE）文件读取到Python数据结构。

自然语言处理

处理人类语言问题的库

NLTK：编写Python程序来处理人类语言数据的最好平台。
Pattern：Python的网络挖掘模块。他有自然语言处理工具，机器学习以及其它。
TextBlob：为深入自然语言处理任务提供了一致的API。是基于NLTK以及Pattern的巨人之肩上发展的。
jieba：中文分词工具。
SnowNLP：中文文本处理库。
loso：另一中文分词库。
genius：基于条件随机域的中文分词。
langid.py：独立的语言识别系统。
Korean：韩文形态库。
pymorphy2：俄语形态分析器（词性标注+词形变化引擎）。
PyPLN：用Python编写的分布式自然语言处理通道。这个项目的目标是创建一种简单的方法使用NLTK通过网络接口处理大语言库。

浏览器自动化仿真

浏览器自动化工具

selenium：自动化真正的浏览器（Chrome浏览器，火狐浏览器，Opera浏览器，IE浏览器）。
Ghost.py：对PyQt的webkit的封装（需要PyQT）。
Spynner：对PyQt的webkit的封装（需要PyQT）。
Splinter：通用API浏览器模拟器（selenium web驱动，Django客户端，Zope）。

多重处理

多进程多线程的工具库

threading：Python标准库的线程运行。对于I/O密集型任务很有效。对于CPU绑定的任务没用，因为python GIL。
multiprocessing：标准的Python库运行多进程。
celery：基于分布式消息传递的异步任务队列/作业队列。
concurrent-futures：concurrent-futures 模块为调用异步执行提供了一个高层次的接口。

异步

异步网络编程库

asyncio：（在Python 3.4 +版本以上的 Python标准库）异步I/O，时间循环，协同程序和任务。
Twisted：基于事件驱动的网络引擎框架。
Tornado：一个网络框架和异步网络库。
pulsar：Python事件驱动的并发框架。
diesel：Python的基于绿色事件的I/O框架。
gevent：一个使用greenlet 的基于协程的Python网络库。
eventlet：有WSGI支持的异步框架。
Tomorrow：异步代码的奇妙的修饰语法。
grequests - Make asynchronous HTTP Requests easily.

队列

爬虫中关于队列的库

celery：基于分布式消息传递的异步任务队列/作业队列。
huey：小型多线程任务队列。
mrq：Mr. Queue – 使用redis & Gevent 的Python分布式工作任务队列。
RQ：基于Redis的轻量级任务队列管理器。
simpleq：一个简单的，可无限扩展，基于Amazon SQS的队列。
python-gearman：Gearman的Python API。

云计算

关于云计算的两个库

picloud：云端执行Python代码。
dominoup.com：云端执行R，Python和matlab代码。

电子邮件

电子邮件解析库

flanker：电子邮件地址和Mime解析库。
Talon：Mailgun库用于提取消息的报价和签名。

URL和网络地址

解析/修改网址和网络地址库

URL

furl：一个小的Python库，使得操纵URL简单化。
purl：一个简单的不可改变的URL以及一个干净的用于调试和操作的API。
urllib.parse：用于打破统一资源定位器（URL）的字符串在组件（寻址方案，网络位置，路径等）之间的隔断，为了结合组件到一个URL字符串，并将“相对URL”转化为一个绝对URL，称之为“基本URL”。
tldextract：从URL的注册域和子域中准确分离TLD，使用公共后缀列表。

网络地址

netaddr：用于显示和操纵网络地址的Python库。
micawber：一个微库，可以从URLs上提取丰富的内容。

网页内容提取

提取网页内容的库

HTML页面的文本和元数据

newspaper：用Python进行新闻提取、文章提取和内容策展。
python-goose：HTML内容/文章提取器。
scrapely：从HTML网页中提取结构化数据的库。基于一些示例网页和被提取数据，scrapely为所有类似的网页构建一个分析器。

HTML页面元数据

htmldate：使用常用结构化模式或基于文本的探索法寻找创建日期。
lassie：人性化的网页内容检索工具。

HTML页面的文本/数据

html2text：将HTML转为Markdown格式文本。
libextract：从网站提取数据。
sumy：一个自动汇总文本文件和HTML网页的模块。
python-readability：arc90 readability工具的快速Python接口。

图像

Haul：一个可扩展的图像爬虫。

视频

youtube-dl：一个从YouTube下载视频的小命令行程序。
you-get：Python3的YouTube、优酷/ Niconico视频下载器。

维基

WikiTeam：下载和保存wikis的工具。

WebSocket库

用于WebSocket的库

Crossbar：开源的应用消息传递路由器（Python实现的用于Autobahn的WebSocket和WAMP）。
AutobahnPython：提供了WebSocket协议和WAMP协议的Python实现并且开源。
WebSocket-for-Python：Python 2和3以及PyPy的WebSocket客户端和服务器库。

DNS解析

DNS解析库

dnsyo：在全球超过1500个的DNS服务器上检查你的DNS。
pycares：c-ares的接口。c-ares是进行DNS请求和异步名称决议的C语言库。

计算机视觉

计算机视觉（CV）的库

OpenCV：开源计算机视觉库。
SimpleCV：用于照相机、图像处理、特征提取、格式转换的简介，可读性强的接口（基于OpenCV）。
mahotas：快速计算机图像处理算法（完全使用 C++ 实现），完全基于 numpy 的数组作为它的数据类型。

代理服务器

关于代理服务器的一些库

shadowsocks：一个快速隧道代理，可帮你穿透防火墙（支持TCP和UDP，TFO，多用户和平滑重启，目的IP黑名单）。
tproxy：tproxy是一个简单的TCP路由代理（第7层），基于Gevent，用Python进行配置。

其它Python工具

其它分类的一些好用的库

awesome-python
pycrumbs
python-github-projects
python_reference
pythonidae

以上就是本次分享的内容，每一个库都有相应的github链接，具体内容请参考本文开头的原文链接。

最后想说的是，工具库非常多，且每个库都有自己的特点，我们不必全部掌握，也没有那个精力和时间，根据需求选择。但是作为爬虫学习，我们可以看看别人具体是如何实现的，以及发现一些好的想法，这对于我们自己的提升是非常有帮助的。

推荐阅读：

【1】从爬虫到机器学习预测，我是如何一步一步做到的？

【2】如何用Python过一个完美的七夕节？

【3】还在为找数据而发愁吗？看完这篇你应该再也不会了

【4】【Kaggle入门级竞赛top5%排名经验分享】— 建模篇

【5】【Kaggle入门级竞赛top5%排名经验分享】— 分析篇

【6】北京二手房房价分析（建模篇）

【7】北京二手房房价分析（分析篇）

长按二维码关注Python数据科学发送 「学习资料」，获取经典书籍电子书

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

13岁！史上最严重霸凌案宣判，如何亡羊补牢？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局