召唤世界的咒语
日本平安时代中期的阴阳师安倍晴明曾说,“名字是最短的咒语”。
当大家还没有看到正文之前,他已经接触了文章的名字,文章的题目是先于文章给到读者的体验。为文章起一个好名字的重要性再怎么说都不过分。
如何给文章起个好题目呢,自然是先跟高手学了。今天咱们就以抓取简书 7 日热门文章标题为例,开始 Web Scraper 入门教程(第8课) 的学习。
一、Text 选择器
回想下第 7 课第一部分选择器的定义及分类,我们应该使用哪种选择器提取文章标题呢,顾名思义,自然是 Text(文本)选择器啦。下面开始实操:
1)先进入简书7日热门页面,网址:
https://www.jianshu.com/trending/weekly?utm_medium=index-banner-s&utm_source=desktop
2)建立 Sitemap:
3)点击 Add new Selector 建立选择器:
填写原则见第 7 课第二部分设定选项。
3)然后点击 Selector 后「Select」按钮选择元素,注意点击此按钮后,开发者工具栏后会出现以下「选择工具条」。
4)按以下动图选择元素:
流程如下:
1、鼠标移到第 1 篇文章标题上方。注意鼠标移过区域会变为绿色,多尝试几次,如上图只选中标题(只有标题部分变为绿色),而不要包含其他内容。随后点击鼠标,选中部分会变为红色。
2、照此炮制,选中第 2 篇文章标题。
3、向下浏览,所有文章标题均变为红色,如仍有未变为红色标题,照以上步骤点击即可。
4、点击 Down selection 完成选择。
5、点击 Save selection 保存选择器。
6、按照第 5 课第二部分数据抓取示例抓取并导出 Excel 表格,抓取完成。整理后如下表。
二、选择器原理
相信上面的智商测试题大家都见过不少,找出规律,剔除与众不同那个。
选择器也是同理,网页中每个元素都有自己的样式,选择器就是根据已选元素的相同点自动选择同类元素。
举个栗子
在进行选择时,选中第 1 篇文章标题后,「选择工具条」中内容如下图:
随后点击 Select 重置选择器,重新选择第 2 篇文章标题后,「选择工具条」中内容如下图:
两者有啥共同点?
你重新按第 1 篇文章标题,第 2 篇文章标题的顺序选择下,「选择工具条」中内容变为:
然后点击 Done selecting 确认,Selector 中内容:
没错,两者的共同点是拥有 a.title 这个属性。
三、互动环节
基本道理懂了,细节方面呢?自己尝试呗。习题如下:
1、试试从第 2 篇文章开始抓取,第 3 篇呢,隔着抓呢?结果有何不同?
2、从第 1 篇选择标题,从 2 篇选择文章简介呢?
3、每篇文章有以下元素:作者、发表日期、标题、简介、阅读数、评论数、点赞数、赞赏钱数,都有哪些可以用 Text 选择器进行抓取?
这节课就到这里,下节课咱们讲 Image(图片)选择器,哈哈,某些人要暗爽啦 。
【福利】
1、回复 wsdd,获取我翻译的《Web Scraper官方文档》。
2、回复 wssm,获得 各大常见网站 Sitemap 示例,此列表还会持续更新。
3、我建了个在线文档 「爬虫学习材料梳理」,网址:
https://shimo.im/docs/qc5HJYODsNQJcL6k/
4、我组建了一个 免费微信群 共同打磨爬虫技能,回复 社群 了解加入方式,一起切磋,互开脑洞。
您可能对以下文章也感兴趣: