召唤世界的咒语

查看原文

其他

召唤世界的咒语

Original 森淼风巢 2020-01-07

日本平安时代中期的阴阳师安倍晴明曾说，“名字是最短的咒语”。

当大家还没有看到正文之前，他已经接触了文章的名字，文章的题目是先于文章给到读者的体验。为文章起一个好名字的重要性再怎么说都不过分。

如何给文章起个好题目呢，自然是先跟高手学了。今天咱们就以抓取简书 7 日热门文章标题为例，开始 Web Scraper 入门教程（第8课） 的学习。

一、Text 选择器

回想下第 7 课第一部分选择器的定义及分类，我们应该使用哪种选择器提取文章标题呢，顾名思义，自然是 Text（文本）选择器啦。下面开始实操：

1）先进入简书7日热门页面，网址：

https://www.jianshu.com/trending/weekly?utm_medium=index-banner-s&utm_source=desktop

2）建立 Sitemap：

3）点击 Add new Selector 建立选择器：

填写原则见第 7 课第二部分设定选项。

3）然后点击 Selector 后「Select」按钮选择元素，注意点击此按钮后，开发者工具栏后会出现以下「选择工具条」。

4）按以下动图选择元素：

流程如下：

1、鼠标移到第 1 篇文章标题上方。注意鼠标移过区域会变为绿色，多尝试几次，如上图只选中标题（只有标题部分变为绿色），而不要包含其他内容。随后点击鼠标，选中部分会变为红色。

2、照此炮制，选中第 2 篇文章标题。

3、向下浏览，所有文章标题均变为红色，如仍有未变为红色标题，照以上步骤点击即可。

4、点击 Down selection 完成选择。

5、点击 Save selection 保存选择器。

6、按照第 5 课第二部分数据抓取示例抓取并导出 Excel 表格，抓取完成。整理后如下表。

二、选择器原理

相信上面的智商测试题大家都见过不少，找出规律，剔除与众不同那个。

选择器也是同理，网页中每个元素都有自己的样式，选择器就是根据已选元素的相同点自动选择同类元素。

举个栗子

在进行选择时，选中第 1 篇文章标题后，「选择工具条」中内容如下图：

随后点击 Select 重置选择器，重新选择第 2 篇文章标题后，「选择工具条」中内容如下图：

两者有啥共同点？

你重新按第 1 篇文章标题，第 2 篇文章标题的顺序选择下，「选择工具条」中内容变为：

然后点击 Done selecting 确认，Selector 中内容：

没错，两者的共同点是拥有 a.title 这个属性。

三、互动环节

基本道理懂了，细节方面呢？自己尝试呗。习题如下：

1、试试从第 2 篇文章开始抓取，第 3 篇呢，隔着抓呢？结果有何不同？

2、从第 1 篇选择标题，从 2 篇选择文章简介呢？

3、每篇文章有以下元素：作者、发表日期、标题、简介、阅读数、评论数、点赞数、赞赏钱数，都有哪些可以用 Text 选择器进行抓取？

这节课就到这里，下节课咱们讲 Image（图片）选择器，哈哈，某些人要暗爽啦。

【福利】

1、回复 wsdd，获取我翻译的《Web Scraper官方文档》。

2、回复 wssm，获得各大常见网站 Sitemap 示例，此列表还会持续更新。

3、我建了个在线文档「爬虫学习材料梳理」，网址：

https://shimo.im/docs/qc5HJYODsNQJcL6k/

4、我组建了一个 免费微信群 共同打磨爬虫技能，回复社群了解加入方式，一起切磋，互开脑洞。

您可能对以下文章也感兴趣：

1、如何用网络爬虫打造一架印钞机

2、3分钟掌握Excel网络爬虫

3、这3类人已经赚翻了，你还在佛系养蛙？

4、信息差套利的 3 个 level，你在哪层？

5、如何从他人的提问中挖掘财富机会？

6、今天好开森，终于有人抄袭我了

马斯克：不新生毋宁死！

简述特朗普重新执政对我国的几方面影响

画了一辈子裸女，死前还是个光棍

看到辛瓦尔死前3天没吃任何东西，立即想到了杨靖宇

您已关注后沙月光满1年，诚邀您加入内部风水交流群！扫码进！