查看原文
其他

又整理了一周爬虫的学习资料,内含入门、实战、视频,请收藏

上海小胖 糙科技 2021-08-09


说在前面:后台回复「爬虫书籍」,获取「图解http」、「精通正则表达式 」电子书~


基于上次的「整理了一周的Python资料,包含各阶段所需网站、项目,收藏了慢慢来」反响还不错,而且我也说过,这篇文章是给大家罗列了学习Python的各阶段资料。

但是Python可以做的事情实在是太多了,根本不是你们看到的 “3行代码教你人脸识别” , “10行代码爬取豆瓣电影评分” 那么简单的。所以上周过后,我就又开始整理新的一波资料了,志在为正在学习Python的同学们免去寻找资料,确认坑位,试错排错的机会。

因为我对这块有经验,整理起来耗点时间罢了,但是对于你们来说,可能就是一条道走到黑了。


今天给大家整理的是关于爬虫方面的资料。

学习python的人很多都是从爬虫开始的,而学习爬虫又有很多都是从爬取豆瓣、拉勾网开始的(有没有)。所以今天就把爬虫的方方面面都给大家捋一捋,可以说,有了这篇文章,顺着资料学习、翻阅、参考都有地儿了~

老规矩,鉴于微信跳不出去链接,我给大家把链接都贴出来,收藏后,PC端慢慢看~



一、网站、博客

对于爬虫er来说,无人不知无人不晓的「静觅,崔庆才的博客」必须第一把推荐。在他的博客「静觅」中写了很多爬虫的入门技巧、高级技巧。

为了帮助大家更方便的学习,我也是整理了很久关于庆才的博客内容,大家喜欢的话都可以关注一下。


1. 爬虫入门系列

Python爬虫入门一之综述:

https://cuiqingcai.com/927.html


Python爬虫入门二之爬虫基础了解:

https://cuiqingcai.com/942.html


Python爬虫入门三之Urllib库的基本使用:

https://cuiqingcai.com/947.html


Python爬虫入门四之Urllib库的高级用法:

https://cuiqingcai.com/954.html


Python爬虫入门五之URLError异常处理:
https://cuiqingcai.com/961.html


Python爬虫入门六之Cookie的使用:

https://cuiqingcai.com/968.html


Python爬虫入门七之正则表达式:

https://cuiqingcai.com/977.html


2. 爬虫实战系列

Python爬虫实战一之爬取糗事百科段子:

https://cuiqingcai.com/990.html


Python爬虫实战二之爬取百度贴吧帖子:

https://cuiqingcai.com/993.html


Python爬虫实战三之实现山东大学无线网络掉线自动重连:

https://cuiqingcai.com/2083.html


Python爬虫实战四之抓取淘宝MM照片:

https://cuiqingcai.com/1001.html


Python爬虫实战五之模拟登录淘宝并获取所有订单:

https://cuiqingcai.com/1076.html


Python爬虫实战六之抓取爱问知识人问题并保存至数据库:

https://cuiqingcai.com/1972.html


Python爬虫实战七之计算大学本学期绩点:

https://cuiqingcai.com/997.html


Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺:

https://cuiqingcai.com/2852.html


3. 爬虫利器系列

Python爬虫利器一之Requests库的用法:

https://cuiqingcai.com/2556.html


Python爬虫利器二之Beautiful Soup的用法:

https://cuiqingcai.com/1319.html


Python爬虫利器三之Xpath语法与lxml库的用法:

https://cuiqingcai.com/2621.html


Python爬虫利器四之PhantomJS的用法:

https://cuiqingcai.com/2577.html


Python爬虫利器五之Selenium的用法:

https://cuiqingcai.com/2599.html


Python爬虫利器六之PyQuery的用法:

https://cuiqingcai.com/2636.html


4. 爬虫进阶系列

Python爬虫进阶一之爬虫框架概述:

https://cuiqingcai.com/2433.html


Python爬虫进阶二之PySpider框架安装配置:

https://cuiqingcai.com/2443.html


Python爬虫进阶三之爬虫框架Scrapy安装配置:

https://cuiqingcai.com/912.html


Python爬虫进阶四之PySpider的用法:

https://cuiqingcai.com/2652.html


Python爬虫进阶五之多线程的用法:

https://cuiqingcai.com/3325.html


Python爬虫进阶六之多进程的用法:

https://cuiqingcai.com/3335.html


Python爬虫进阶七之设置ADSL拨号服务器代理:

https://cuiqingcai.com/3443.html


以上四部曲一共28篇,全部走完,我觉得少说也得花个1个月时间吧?其实这个时候你的外功都修炼的差不多了,所谓花架子够看了,而且也真的和人打过了。

那接下来就要练练基本功了。


二、书籍

关于Python的书有很多,我之前的文章里推荐了一本「笨办法学Python」,很多人还问我选Py2 还是 Py3啊,那你是真没认真看我写的文章啊,我都说了不知道多少次了,别学2了,直接上手3。

那么关于爬虫的书其实有很多,但还是那句话,不在多在于精。

推荐给你的书,一定是好书,反正我是没收到广告费,良心推荐罢了。


1. 这本书也是庆才的大作,里面除了基础知识外,还带上了许多网络知识,代理池,验证码等高阶使用。
「Python 3网络爬虫开发实战」:

https://item.jd.com/12333540.html


2. 对于学爬虫的人来说,肯定是要对http的内容多少掌握一些的,所以这里给大家推荐一本浅显易懂的书。
「图解http」:后台回复:爬虫书籍,获取电子书。


3. 是不是还少个啥?没错,就是正则表达式。很多时候爬虫爬到后面都在和正则打交道,为什么?因为太多页面要处理了,我们势必要走向分布式、去重爬取,这里面就会涉及到xpath正则解析了。

「精通正则表达式 」:后台回复:爬虫书籍,获取电子书。



三、视频

视频的话,我给大家整理了网易云课堂和慕课网的免费视频供大家学习。


1. 「Python网络爬虫实战」:
https://study.163.com/course/introduction/1003285002.htm


2. 「零基础玩转高并发图片爬虫」:
https://study.163.com/course/introduction/1006148015.htm


3. 「Python开发简单爬虫」:
https://www.imooc.com/learn/563


4. 「Python最火爬虫框架Scrapy入门与实践」:
https://www.imooc.com/learn/1017



推荐阅读:

做公众号,这些事别去碰,碰就是死



    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存