查看原文
其他

Web Scraper 入门教程(第7课)

森淼 风巢 2020-01-07

Web Scraper 是谷歌 Chrome 浏览器插件,可自动化提取网页数据,实现不敲代码,指哪爬哪的目标,属于居家出行杀人越货之必备神器。

第 1 课内容:抓取案例、流程

第 2 课内容:环境设置

第 3 课内容:Sitemap Start URL 设计

第 4 课内容:建立 Sitemap

第 5 课内容:实操、导入 Sitemap

第 6 课内容:Sitemap 精讲


下面开始第 7 课,选择器(Selectors)

一、 定义 及 分类

选择器顾名思义用于选择要抓取的网页元素

创建完 Sitemap 后接下来要做的就是为其添加选择器。

选择器以树状结构添加,Web Scraper 按此次序抓取网页。


选择器大致分为 3 类:

1)数据提取选择器:用于提取数据

2)链接选择器:用于站点导航,便于同时从多个页面提取数据。

3)元素选择器:用于将网页元素分组,方便后续数据提取。

进一步分类如下图,注意标蓝的两个选择器,它们同时属于两个分类:


二、设定选项

选择器的常见设置如下图

1)ID(名称):用于为选择器命名。规则如下:

    1、最少 3 个字符;

    2、不能以 _ 开头,不能包含 . 及 $

当然如果采用我的第 4 课第二部分命名方案可完美规避记忆此劳什子规则。

2)Tyep(类型):切换选择器类型,从上面脑图中列出来的选择。

3)Selector(选择器):用于选择元素,后面三个按钮:

    1、「Select(选择)」:点击后可在页面选择元素。

    2、「Element preview(元素预览)」:点击后可预览选择效果。

    3、「Data preview(数据预览)」:点击后可预览按之前选择可抓取到的数据。

4)Multiple(多选):选中后会从页面中所有符合要求的元素提取数据。

5)Regex(正则表达式):神器,随后我们会花 1 节课的时间来讲它。

6)Delay(延迟):抓取数据前的延时,通常设置 2000 ms。此选项存在有 3 个原因:

    1、抓取数据是要占用人家服务器流量的,抓取数据过于频繁会影响正常用户使用,做人还是要厚道。

    2、有些网站有反爬虫机制,监测到非正常访问(0.1秒一次点击这特么是人能做出来的吗?)会将此 IP 封掉或关小黑屋。

    3、网页加载是分步逐步完成的,有时网络速度比较慢,你需要的元素还没加载出来就抓取,自然结果会受影响。

7)Parent Selectors(母元素):还记得第 1 课第二部分那张选择器树形图不,在讲到 Element 及 Link 选择器的时候我们会用到它。


三、互动环节

本节课内容就讲到这里,从下节课开始我们会逐项讲解各常用选择器的使用方法,精彩在后面,欢迎继续关注。

留个课后作业,第 5 课我们导入了一份 Sitemap,在此基础上我们按下图做下尝试:

下课。

【福利】

1、回复 wsdd,获取我翻译的《Web Scraper官方文档》。

2、回复 wssm,可获得 各大常见网站 Sitemap 示例,此列表还会持续更新

3、为方便大家学习交流爬虫知识 。我建了个在线文档 「爬虫学习材料梳理」,网址:

https://shimo.im/docs/qc5HJYODsNQJcL6k/ 

可收藏此链接直达课程 ,并了解最新信息 。

4、我组建了一个免费微信群共同打磨爬虫技能,加我微信 wincatcher 拉你加入,一起切磋,互开脑洞。


可能对以下文章也感兴趣:

1、如何用网络爬虫打造一架印钞机

2、3分钟掌握Excel网络爬虫

3、这3类人已经赚翻了,你还在佛系养蛙?

4、信息差套利的 3 个 level,你在哪层?

5、如何从他人的提问中挖掘财富机会?

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存