又整理了一周爬虫的学习资料,内含入门、实战、视频,请收藏
说在前面:后台回复「爬虫书籍」,获取「图解http」、「精通正则表达式 」电子书~
基于上次的「整理了一周的Python资料,包含各阶段所需网站、项目,收藏了慢慢来」反响还不错,而且我也说过,这篇文章是给大家罗列了学习Python的各阶段资料。
但是Python可以做的事情实在是太多了,根本不是你们看到的 “3行代码教你人脸识别” , “10行代码爬取豆瓣电影评分” 那么简单的。所以上周过后,我就又开始整理新的一波资料了,志在为正在学习Python的同学们免去寻找资料,确认坑位,试错排错的机会。
因为我对这块有经验,整理起来耗点时间罢了,但是对于你们来说,可能就是一条道走到黑了。
今天给大家整理的是关于爬虫方面的资料。
学习python的人很多都是从爬虫开始的,而学习爬虫又有很多都是从爬取豆瓣、拉勾网开始的(有没有
老规矩,鉴于微信跳不出去链接,我给大家把链接都贴出来,收藏后,PC端慢慢看~
一、网站、博客
对于爬虫er来说,无人不知无人不晓的「静觅,崔庆才的博客」必须第一把推荐。在他的博客「静觅」中写了很多爬虫的入门技巧、高级技巧。
为了帮助大家更方便的学习,我也是整理了很久关于庆才的博客内容,大家喜欢的话都可以关注一下。
1. 爬虫入门系列
Python爬虫入门一之综述:
https://cuiqingcai.com/927.html
Python爬虫入门二之爬虫基础了解:
https://cuiqingcai.com/942.html
Python爬虫入门三之Urllib库的基本使用:
https://cuiqingcai.com/947.html
Python爬虫入门四之Urllib库的高级用法:
https://cuiqingcai.com/954.html
Python爬虫入门五之URLError异常处理:
https://cuiqingcai.com/961.html
Python爬虫入门六之Cookie的使用:
https://cuiqingcai.com/968.html
Python爬虫入门七之正则表达式:
https://cuiqingcai.com/977.html
2. 爬虫实战系列
Python爬虫实战一之爬取糗事百科段子:
https://cuiqingcai.com/990.html
Python爬虫实战二之爬取百度贴吧帖子:
https://cuiqingcai.com/993.html
Python爬虫实战三之实现山东大学无线网络掉线自动重连:
https://cuiqingcai.com/2083.html
Python爬虫实战四之抓取淘宝MM照片:
https://cuiqingcai.com/1001.html
Python爬虫实战五之模拟登录淘宝并获取所有订单:
https://cuiqingcai.com/1076.html
Python爬虫实战六之抓取爱问知识人问题并保存至数据库:
https://cuiqingcai.com/1972.html
Python爬虫实战七之计算大学本学期绩点:
https://cuiqingcai.com/997.html
Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺:
https://cuiqingcai.com/2852.html
3. 爬虫利器系列
Python爬虫利器一之Requests库的用法:
https://cuiqingcai.com/2556.html
Python爬虫利器二之Beautiful Soup的用法:
https://cuiqingcai.com/1319.html
Python爬虫利器三之Xpath语法与lxml库的用法:
https://cuiqingcai.com/2621.html
Python爬虫利器四之PhantomJS的用法:
https://cuiqingcai.com/2577.html
Python爬虫利器五之Selenium的用法:
https://cuiqingcai.com/2599.html
Python爬虫利器六之PyQuery的用法:
https://cuiqingcai.com/2636.html
4. 爬虫进阶系列
Python爬虫进阶一之爬虫框架概述:
https://cuiqingcai.com/2433.html
Python爬虫进阶二之PySpider框架安装配置:
https://cuiqingcai.com/2443.html
Python爬虫进阶三之爬虫框架Scrapy安装配置:
https://cuiqingcai.com/912.html
Python爬虫进阶四之PySpider的用法:
https://cuiqingcai.com/2652.html
Python爬虫进阶五之多线程的用法:
https://cuiqingcai.com/3325.html
Python爬虫进阶六之多进程的用法:
https://cuiqingcai.com/3335.html
Python爬虫进阶七之设置ADSL拨号服务器代理:
https://cuiqingcai.com/3443.html
以上四部曲一共28篇,全部走完,我觉得少说也得花个1个月时间吧?其实这个时候你的外功都修炼的差不多了,所谓花架子够看了,而且也真的和人打过了。
那接下来就要练练基本功了。
二、书籍
关于Python的书有很多,我之前的文章里推荐了一本「笨办法学Python」,很多人还问我选Py2 还是 Py3啊,那你是真没认真看我写的文章啊,我都说了不知道多少次了,别学2了,直接上手3。
那么关于爬虫的书其实有很多,但还是那句话,不在多在于精。
推荐给你的书,一定是好书,反正我是没收到广告费,良心推荐罢了。
1. 这本书也是庆才的大作,里面除了基础知识外,还带上了许多网络知识,代理池,验证码等高阶使用。
「Python 3网络爬虫开发实战」:
https://item.jd.com/12333540.html
2. 对于学爬虫的人来说,肯定是要对http的内容多少掌握一些的,所以这里给大家推荐一本浅显易懂的书。
「图解http」:后台回复:爬虫书籍,获取电子书。
3. 是不是还少个啥?没错,就是正则表达式。很多时候爬虫爬到后面都在和正则打交道,为什么?因为太多页面要处理了,我们势必要走向分布式、去重爬取,这里面就会涉及到xpath正则解析了。
「精通正则表达式 」:后台回复:爬虫书籍,获取电子书。
三、视频
视频的话,我给大家整理了网易云课堂和慕课网的免费视频供大家学习。
1. 「Python网络爬虫实战」:
https://study.163.com/course/introduction/1003285002.htm
2. 「零基础玩转高并发图片爬虫」:
https://study.163.com/course/introduction/1006148015.htm
3. 「Python开发简单爬虫」:
https://www.imooc.com/learn/563
4. 「Python最火爬虫框架Scrapy入门与实践」:
https://www.imooc.com/learn/1017
推荐阅读: