Web Scraper 入门教程（第5课）

查看原文

其他

Web Scraper 入门教程（第5课）

Original 森淼风巢 2020-01-07

Web Scraper 是谷歌 Chrome 浏览器插件，可自动化提取网页数据，实现不敲代码，指哪爬哪的目标，属于居家出行杀人越货之必备神器。

第 1 课内容：抓取案例、抓取流程

第 2 课内容：抓取环境设置

第 3 课内容：Sitemap 设计

第 4 课内容：Web Scraper 实操

下面开始第 5 课，开始抓取网站信息。

一、导入 Sitemap

这节课咱们直接导入 Sitemap，先上手体验下抓取数据的快感。按上节课所学打开 Web Scraper，然后按下图顺序点击：

打开如下页面：

在上图「Sitemap JSON」下方的空栏处粘贴如下神秘代码：

{"_id":"chensufeng-zhihu-post","startUrl":["https://www.zhihu.com/people/Feat/posts?page=[1-3]"],"selectors":[{"id":"post-element","type":"SelectorElement","selector":"div.List-item","parentSelectors":["_root"],"multiple":true,"delay":"2000"},{"id":"post-title","type":"SelectorText","selector":"h2.ContentItem-title a","parentSelectors":["post-element"],"multiple":false,"regex":"","delay":0},{"id":"full-content-link","type":"SelectorLink","selector":"h2.ContentItem-title a","parentSelectors":["post-element"],"multiple":false,"delay":0},{"id":"like-count","type":"SelectorText","selector":"span.Voters button.Button","parentSelectors":["post-element"],"multiple":false,"regex":"[0-9]+","delay":0},{"id":"post-full-content","type":"SelectorText","selector":"div.RichText.PostIndex-content","parentSelectors":["full-content-link"],"multiple":false,"regex":"","delay":"2000"}]}

粘贴后，点击「Import Sitemap（导入 Sitemap）」进入下图界面：

此时点击「Sitemaps」

会发现比刚开始时多出红框部分，这就是我们导入用于抓取陈素封文章标题、全文及点赞数的 Sitemap。

二、数据抓取

上面步骤做完后，接下来我来演示下如何进行数据抓取（仅保留关键片段）：

抓取后导出的 Excel 文件优化格式后如下图所示：

很简单有木有，大家不妨按照上述流程尝试下，体验下自动化抓取第一个网站的快感。

三、互动问答

至此，我们的第 1 次数据抓取工作已经完成，仔细观察下之前粘贴的神秘代码，揣摩下其中有什么规律。

如果我们现在要抓取知乎大V江南愤青的文章前 5 页文章标题、全文及点赞数，应该如何对那段代码进行修改？网址如下：

https://www.zhihu.com/people/jiang-nan-fen-qing/posts

不妨自己先做下尝试，回复 “20180128” 可获得本文最新版本及此题解答。

下堂课我们会对此段代码进行深入讲解，欢迎继续关注。

【福利】

1、回复 wsdd，获取我翻译的《Web Scraper官方文档》。

2、回复 wssm，可获得 各大常见网站 Sitemap 示例，此列表还会持续更新。

您可能对以下文章也感兴趣：

1、如何用网络爬虫打造一架印钞机

2、3分钟掌握Excel网络爬虫

3、这3类人已经赚翻了，你还在佛系养蛙？

4、信息差套利的 3 个 level，你在哪层？

19岁中国留学生投票被抓，“假装”公民身份！且已无法撤回.........

19岁中国留学生非法投票美国大选，被控2罪！或被判15年监禁

让孩子多长高8厘米！国内知名专家首次公开“追高秘笈”！担心孩子长不高的家长速来！

重磅新规！公安部印发《关于规范办理刑事案件适用资金冻结措施的若干规定》！

女人不管有钱没钱，都别买这3类外套，不仅臃肿显胖，看着还廉价