查看原文
其他

推荐收藏 | Python爬虫干货资料,内含入门、实战、视频

上海小胖 Python大本营 2019-04-08


作者 l 上海小胖,四大咨询TechLead,mongoDB Professional 获得者。「Python专栏」专注Python领域的各种技术:爬虫、DevOps、人工智能、Web开发等。还有「大航海计划」,各种内推活动。
来源 l Python专栏(ID:xpchuiit)


这篇文章是给大家罗列了学习Python的各阶段资料。


但是Python可以做的事情实在是太多了,根本不是你们看到的 “3行代码教你人脸识别” , “10行代码爬取豆瓣电影评分” 那么简单的。所以上周过后,我就又开始整理新的一波资料了,志在为正在学习Python的同学们免去寻找资料,确认坑位,试错排错的机会。


因为我对这块有经验,整理起来耗点时间罢了,但是对于你们来说,可能就是一条道走到黑了。


今天给大家整理的是关于爬虫方面的资料。


学习python的人很多都是从爬虫开始的,而学习爬虫又有很多都是从爬取豆瓣、拉勾网开始的。所以今天就把爬虫的方方面面都给大家捋一捋,可以说,有了这篇文章,顺着资料学习、翻阅、参考都有地儿了~


老规矩,鉴于微信跳不出去链接,我给大家把链接都贴出来,收藏后,PC端慢慢看~


一、网站、博客


对于爬虫er来说,无人不知无人不晓的「静觅,崔庆才的博客」必须第一把推荐。在他的博客「静觅」中写了很多爬虫的入门技巧、高级技巧。


为了帮助大家更方便的学习,我也是整理了很久关于庆才的博客内容,大家喜欢的话都可以关注一下。


1. 爬虫入门系列


Python爬虫入门一之综述:

https://cuiqingcai.com/927.html


Python爬虫入门二之爬虫基础了解:

https://cuiqingcai.com/942.html


Python爬虫入门三之Urllib库的基本使用:

https://cuiqingcai.com/947.html


Python爬虫入门四之Urllib库的高级用法:

https://cuiqingcai.com/954.html


Python爬虫入门五之URLError异常处理:
https://cuiqingcai.com/961.html


Python爬虫入门六之Cookie的使用:

https://cuiqingcai.com/968.html


Python爬虫入门七之正则表达式:

https://cuiqingcai.com/977.html


2. 爬虫实战系列


Python爬虫实战一之爬取糗事百科段子:

https://cuiqingcai.com/990.html


Python爬虫实战二之爬取百度贴吧帖子:

https://cuiqingcai.com/993.html


Python爬虫实战三之实现山东大学无线网络掉线自动重连:

https://cuiqingcai.com/2083.html


Python爬虫实战四之抓取淘宝MM照片:

https://cuiqingcai.com/1001.html


Python爬虫实战五之模拟登录淘宝并获取所有订单:

https://cuiqingcai.com/1076.html


Python爬虫实战六之抓取爱问知识人问题并保存至数据库:

https://cuiqingcai.com/1972.html


Python爬虫实战七之计算大学本学期绩点:

https://cuiqingcai.com/997.html


Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺:

https://cuiqingcai.com/2852.html


3. 爬虫利器系列


Python爬虫利器一之Requests库的用法:

https://cuiqingcai.com/2556.html


Python爬虫利器二之Beautiful Soup的用法:

https://cuiqingcai.com/1319.html


Python爬虫利器三之Xpath语法与lxml库的用法:

https://cuiqingcai.com/2621.html


Python爬虫利器四之PhantomJS的用法:

https://cuiqingcai.com/2577.html


Python爬虫利器五之Selenium的用法:

https://cuiqingcai.com/2599.html


Python爬虫利器六之PyQuery的用法:

https://cuiqingcai.com/2636.html


4. 爬虫进阶系列


Python爬虫进阶一之爬虫框架概述:

https://cuiqingcai.com/2433.html


Python爬虫进阶二之PySpider框架安装配置:

https://cuiqingcai.com/2443.html


Python爬虫进阶三之爬虫框架Scrapy安装配置:

https://cuiqingcai.com/912.html


Python爬虫进阶四之PySpider的用法:

https://cuiqingcai.com/2652.html


Python爬虫进阶五之多线程的用法:

https://cuiqingcai.com/3325.html


Python爬虫进阶六之多进程的用法:

https://cuiqingcai.com/3335.html


Python爬虫进阶七之设置ADSL拨号服务器代理:

https://cuiqingcai.com/3443.html


以上四部曲一共28篇,全部走完,我觉得少说也得花个1个月时间吧?其实这个时候你的外功都修炼的差不多了,所谓花架子够看了,而且也真的和人打过了。


那接下来就要练练基本功了。


二、书籍


关于Python的书有很多,我之前的文章里推荐了一本「笨办法学Python」,很多人还问我选Py2 还是 Py3啊,那你是真没认真看我写的文章啊,我都说了不知道多少次了,别学2了,直接上手3。


那么关于爬虫的书其实有很多,但还是那句话,不在多在于精。


推荐给你的书,一定是好书,反正我是没收到广告费,良心推荐罢了。


1. 这本书也是庆才的大作,里面除了基础知识外,还带上了许多网络知识,代理池,验证码等高阶使用。


「Python 3网络爬虫开发实战」:

https://item.jd.com/12333540.html


2. 对于学爬虫的人来说,肯定是要对http的内容多少掌握一些的,所以这里给大家推荐一本浅显易懂的书。

3. 是不是还少个啥?没错,就是正则表达式。很多时候爬虫爬到后面都在和正则打交道,为什么?因为太多页面要处理了,我们势必要走向分布式、去重爬取,这里面就会涉及到xpath正则解析了。


三、视频


视频的话,给大家整理了网易云课堂的免费视频供大家学习。


1. 「Python网络爬虫实战」:
https://study.163.com/course/introduction/1003285002.htm


2. 「零基础玩转高并发图片爬虫」:
https://study.163.com/course/introduction/1006148015.htm


(本文为 Python大本营转载文章,转载请联系原作者)


福利

扫码添加小助手,回复:1,加入Python技术交流群,共享Python学习资料,定时更新。


2019 Python开发者日

敲黑板划重点!7 折优惠最后一天3 月 31 日前可享受优惠价 499,欢迎点击阅读原文报名参加。更多详细信息请咨询13581782348(微信同号)。

你也可以点击阅读原文,查看大会详情。

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存