查看原文
其他

Web Scraper 入门教程(第4课)

森淼 风巢 2020-01-07

Web Scraper 是谷歌 Chrome 浏览器插件,可自动化提取网页数据,实现不敲代码,指哪爬哪的目标,属于居家出行杀人越货之必备神器。

第 1 课内容:抓取案例、抓取流程

第 2 课内容:抓取环境设置

第 3 课内容:Sitemap设计


下面开始第 4 课,开始上手实操。

一、打开 Web Scraper

Web Scraper 集成入谷歌浏览器「开发者工具」,你可以用下图方式打开:

或者用快捷键方式打开(不管你记不记得住,反正我记不住):

Windows,Linux:Crtl+Shift+I 或 F12,开启「开发者工具」

Mac:Cmd+Opt+I,开启「开发者工具」

打开后正常情况应为如下界面:

如果是这样的:

也简单,照下图操作即可。

先点击三个纵点「Customize and control DevTools(开发工具定制及控制)」按钮,再点击「Dock to bottom(停靠到底部)」按钮即可切换「开发者工具」位置。

注意「开发者工具」上的标签是可以移动的,Web Scraper 默认在最后一位,为了方便起见,且看我左手右手一个慢动作把它调至最前:


二、输入 Sitemap

按下图点击:

即可输入我们第 3 节课设计的 Sitemap:

Sitemap name 处输入 Sitemap 名称。

Start URL 处输入 Sitemap 网址。

为一周后你还能记得建立这个 Sitemap 干嘛使的,Sitemap名称建议全英文或拼音,单词之间用短横线分隔。


官方规则如下:

1、至少 3 个字符。

2、只允许使用小写字母(a-z),数字(0-9)或以下字符:_、$、(、)、+、- 及 /。

3、必须以字母开头。

这个规则我是不会记的,为啥,如果起名不合规则,如下图,输入栏变为红色,且下方提示错误信息,且无法保存。

更何况,我的单词中间加横杠的方式多简单,又不会出错,有这么好的方法,记这个干嘛?

好了,这节课就到这里,下节课你们就能亲身体验到抓取一个网站的快感。


福利

1、回复 wsdd,获取我翻译的《Web Scraper官方文档》。

2、回复 wssm,可获得第 3 课互动问答环节 正确答案 及 各大常见网站 Sitemap 示例,此列表还会持续更新(惊喜不经意?意外不意外?)。


您可能对以下文章也感兴趣:

1、如何用网络爬虫打造一架印钞机

2、3分钟掌握Excel网络爬虫

3、这3类人已经赚翻了,你还在佛系养蛙?

4、信息差套利的 3 个 level,你在哪层?


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存