Web Scraper 入门教程（第7课）

查看原文

其他

Web Scraper 入门教程（第7课）

Original 森淼风巢 2020-01-07

Web Scraper 是谷歌 Chrome 浏览器插件，可自动化提取网页数据，实现不敲代码，指哪爬哪的目标，属于居家出行杀人越货之必备神器。

第 1 课内容：抓取案例、流程

第 2 课内容：环境设置

第 3 课内容：Sitemap Start URL 设计

第 4 课内容：建立 Sitemap

第 5 课内容：实操、导入 Sitemap

第 6 课内容：Sitemap 精讲

下面开始第 7 课，选择器（Selectors）。

一、定义及分类

选择器顾名思义用于选择要抓取的网页元素。

创建完 Sitemap 后接下来要做的就是为其添加选择器。

选择器以树状结构添加，Web Scraper 按此次序抓取网页。

选择器大致分为 3 类：

1）数据提取选择器：用于提取数据。

2）链接选择器：用于站点导航，便于同时从多个页面提取数据。

3）元素选择器：用于将网页元素分组，方便后续数据提取。

进一步分类如下图，注意标蓝的两个选择器，它们同时属于两个分类：

二、设定选项

选择器的常见设置如下图

1）ID（名称）：用于为选择器命名。规则如下：

1、最少 3 个字符；

2、不能以 _ 开头，不能包含 . 及 $。

当然如果采用我的第 4 课第二部分命名方案可完美规避记忆此劳什子规则。

2）Tyep（类型）：切换选择器类型，从上面脑图中列出来的选择。

3）Selector（选择器）：用于选择元素，后面三个按钮：

1、「Select（选择）」：点击后可在页面选择元素。

2、「Element preview（元素预览）」：点击后可预览选择效果。

3、「Data preview（数据预览）」：点击后可预览按之前选择可抓取到的数据。

4）Multiple（多选）：选中后会从页面中所有符合要求的元素提取数据。

5）Regex（正则表达式）：神器，随后我们会花 1 节课的时间来讲它。

6）Delay（延迟）：抓取数据前的延时，通常设置 2000 ms。此选项存在有 3 个原因：

1、抓取数据是要占用人家服务器流量的，抓取数据过于频繁会影响正常用户使用，做人还是要厚道。

2、有些网站有反爬虫机制，监测到非正常访问（0.1秒一次点击这特么是人能做出来的吗？）会将此 IP 封掉或关小黑屋。

3、网页加载是分步逐步完成的，有时网络速度比较慢，你需要的元素还没加载出来就抓取，自然结果会受影响。

7）Parent Selectors（母元素）：还记得第 1 课第二部分那张选择器树形图不，在讲到 Element 及 Link 选择器的时候我们会用到它。

三、互动环节

本节课内容就讲到这里，从下节课开始我们会逐项讲解各常用选择器的使用方法，精彩在后面，欢迎继续关注。

留个课后作业，第 5 课我们导入了一份 Sitemap，在此基础上我们按下图做下尝试：

下课。

【福利】

1、回复 wsdd，获取我翻译的《Web Scraper官方文档》。

2、回复 wssm，可获得 各大常见网站 Sitemap 示例，此列表还会持续更新。

3、为方便大家学习交流爬虫知识。我建了个在线文档「爬虫学习材料梳理」，网址：

https://shimo.im/docs/qc5HJYODsNQJcL6k/

可收藏此链接直达课程，并了解最新信息。

4、我组建了一个免费微信群共同打磨爬虫技能，加我微信 wincatcher 拉你加入，一起切磋，互开脑洞。

可能对以下文章也感兴趣：

1、如何用网络爬虫打造一架印钞机

2、3分钟掌握Excel网络爬虫

3、这3类人已经赚翻了，你还在佛系养蛙？

4、信息差套利的 3 个 level，你在哪层？

5、如何从他人的提问中挖掘财富机会？

李光耀：过早翘起尾巴与美国对抗是中国厄运的开始！

劲爆！为了姜萍两位女CEO互揭老底！

谁会想到，裁员会裁到总编辑头上

消失11天的姜萍，这回麻烦大了…

“环评”提质增效助力高质量发展？