Web Scraper 入门教程(第5课)
Web Scraper 是谷歌 Chrome 浏览器插件,可自动化提取网页数据,实现不敲代码,指哪爬哪的目标,属于居家出行杀人越货之必备神器。
下面开始第 5 课,开始抓取网站信息。
一、导入 Sitemap
这节课咱们直接导入 Sitemap,先上手体验下抓取数据的快感。按上节课所学打开 Web Scraper,然后按下图顺序点击:
打开如下页面:
在上图「Sitemap JSON」下方的空栏处粘贴如下神秘代码:
{"_id":"chensufeng-zhihu-post","startUrl":["https://www.zhihu.com/people/Feat/posts?page=[1-3]"],"selectors":[{"id":"post-element","type":"SelectorElement","selector":"div.List-item","parentSelectors":["_root"],"multiple":true,"delay":"2000"},{"id":"post-title","type":"SelectorText","selector":"h2.ContentItem-title a","parentSelectors":["post-element"],"multiple":false,"regex":"","delay":0},{"id":"full-content-link","type":"SelectorLink","selector":"h2.ContentItem-title a","parentSelectors":["post-element"],"multiple":false,"delay":0},{"id":"like-count","type":"SelectorText","selector":"span.Voters button.Button","parentSelectors":["post-element"],"multiple":false,"regex":"[0-9]+","delay":0},{"id":"post-full-content","type":"SelectorText","selector":"div.RichText.PostIndex-content","parentSelectors":["full-content-link"],"multiple":false,"regex":"","delay":"2000"}]}
粘贴后,点击「Import Sitemap(导入 Sitemap)」进入下图界面:
此时点击「Sitemaps」
会发现比刚开始时多出红框部分,这就是我们导入用于抓取陈素封文章标题、全文及点赞数的 Sitemap。
二、数据抓取
上面步骤做完后,接下来我来演示下如何进行数据抓取(仅保留关键片段):
抓取后导出的 Excel 文件优化格式后如下图所示:
很简单有木有,大家不妨按照上述流程尝试下,体验下自动化抓取第一个网站的快感。
三、互动问答
至此,我们的第 1 次数据抓取工作已经完成,仔细观察下之前粘贴的神秘代码,揣摩下其中有什么规律。
如果我们现在要抓取知乎大V江南愤青的文章前 5 页文章标题、全文及点赞数,应该如何对那段代码进行修改?网址如下:
https://www.zhihu.com/people/jiang-nan-fen-qing/posts
不妨自己先做下尝试,回复 “20180128” 可获得本文最新版本及此题解答。
下堂课我们会对此段代码进行深入讲解,欢迎继续关注。
【福利】
1、回复 wsdd,获取我翻译的《Web Scraper官方文档》。
2、回复 wssm,可获得 各大常见网站 Sitemap 示例,此列表还会持续更新。
您可能对以下文章也感兴趣: