Web Scraper 入门教程（第4课）

查看原文

其他

Web Scraper 入门教程（第4课）

Original 森淼风巢 2020-01-07

Web Scraper 是谷歌 Chrome 浏览器插件，可自动化提取网页数据，实现不敲代码，指哪爬哪的目标，属于居家出行杀人越货之必备神器。

第 1 课内容：抓取案例、抓取流程

第 2 课内容：抓取环境设置

第 3 课内容：Sitemap 设计

下面开始第 4 课，开始上手实操。

一、打开 Web Scraper

Web Scraper 集成入谷歌浏览器「开发者工具」，你可以用下图方式打开：

或者用快捷键方式打开（不管你记不记得住，反正我记不住）：

Windows，Linux：Crtl+Shift+I 或 F12，开启「开发者工具」

Mac：Cmd+Opt+I，开启「开发者工具」

打开后正常情况应为如下界面：

如果是这样的：

也简单，照下图操作即可。

先点击三个纵点「Customize and control DevTools（开发工具定制及控制）」按钮，再点击「Dock to bottom（停靠到底部）」按钮即可切换「开发者工具」位置。

注意「开发者工具」上的标签是可以移动的，Web Scraper 默认在最后一位，为了方便起见，且看我左手右手一个慢动作把它调至最前：

二、输入 Sitemap

按下图点击：

即可输入我们第 3 节课设计的 Sitemap：

Sitemap name 处输入 Sitemap 名称。

Start URL 处输入 Sitemap 网址。

为一周后你还能记得建立这个 Sitemap 干嘛使的，Sitemap名称建议全英文或拼音，单词之间用短横线分隔。

官方规则如下：

1、至少 3 个字符。

2、只允许使用小写字母（a-z），数字（0-9）或以下字符：_、$、（、）、+、- 及 /。

3、必须以字母开头。

这个规则我是不会记的，为啥，如果起名不合规则，如下图，输入栏变为红色，且下方提示错误信息，且无法保存。

更何况，我的单词中间加横杠的方式多简单，又不会出错，有这么好的方法，记这个干嘛？

好了，这节课就到这里，下节课你们就能亲身体验到抓取一个网站的快感。

【福利】

1、回复 wsdd，获取我翻译的《Web Scraper官方文档》。

2、回复 wssm，可获得第 3 课互动问答环节正确答案及 各大常见网站 Sitemap 示例，此列表还会持续更新（惊喜不经意？意外不意外？）。

您可能对以下文章也感兴趣：

1、如何用网络爬虫打造一架印钞机

2、3分钟掌握Excel网络爬虫

3、这3类人已经赚翻了，你还在佛系养蛙？

4、信息差套利的 3 个 level，你在哪层？

李光耀：过早翘起尾巴与美国对抗是中国厄运的开始！

劲爆！为了姜萍两位女CEO互揭老底！

谁会想到，裁员会裁到总编辑头上

“环评”提质增效助力高质量发展？

“烂泥扶不上墙”！知名大哥同时切割一哥一姐！放话：再刷SQJ！