查看原文
其他

【建议收藏】教你一个最最最最最最简单的爬虫方法!

拉登Dony 秋叶PPT 2022-10-23


作者:拉登 Dony

来源:拉小登(ID:ladengchupin)



程序员最难学的,不是 java 或者 c++,而是社交,俗称:撩妹。

在社交这方面,我算是程序员里,比较出类拔萃的了。


比如之前,做了《一个海报生成表格,让我从大爷变成了小哥哥》,我撩到了社群运营的小姐姐。


这已经是上个月的事情了,这个月我又一头扎进了爬虫的技术研究里了。

技术满足的反面,就是孤独空虚。

于是,我决定用爬虫再撩一次妹。。。

结果。。。

我成功了!!!


我把微博营销案例,全部爬虫到一个了 Excel 表格里。

700 多个运营分析报告,一键下载。


网站中的案例,要一个个下载 ↑


表格中的案例,哪个点赞多下载哪个↑

社群运营的妹子们,都快疯掉了!

秋叶 Excel 抖音女主:小美

微博手帐大 V 博主,有姜姜

社群运营老司机:颜敏姐

我跟你讲,如果我早两年会爬虫,现在的同床室友,还指不定是谁呢?!


01

什么是爬虫



爬虫,即网络爬虫。

是指按照一定的规则,自动抓取网络上的数据。

比如前面,自动抓取「社会化营销案例库」的案例。

想象一下,如果是人工浏览页面,来下载这些案例的话,流程是这样的:

❶ 打开案例库页面;

❷ 点击案例,进入详情页;

❸ 点击下载案例 pdf;

❹ 回到案例库页面,点击下一个案例,重复前面的 3 个步骤。


如果想要下载所有的 pdf 案例的话;需要安排一个专人,反复、机械式地下载,显然这个人的价值含量是很低的。

爬虫就是替代这种机械重复、低价值的获取数据动作,用程序或代码自动、批量完成数据抓取。



 爬虫的好处 

简单的总结一下,爬虫的好处主要有两个方面:

❶ 自动抓取,解放人力提升效率。
机械、低价值的工作,用机器来完成是最优方案。
❷ 数据分析,插队获取优质内容。

和人工浏览数据不同,爬虫可以把数据汇总整合成一个数据表,方便我们后续做数据统计、数据分析。

比如「社会营销案例库」中,每个案例都有浏览数、下载数;

想要按照浏览数排序,优先看浏览最多的案例,数据爬取到 Excel 表格中,使用排序功能,轻松浏览。



 爬虫的案例 

凡是数据,皆可爬。

掌握到了爬虫的技能,可以做的事情有很多。

❶ 幕布精选文章爬取。

幕布是一个梳理大纲的好工具,很多大咖用幕布写读书笔记,不用整本通读也能学习到要点。


没时间挨个浏览幕布的精选文章,可以一次爬取所有精选文章,梳理自己的知识大纲。


 曹将的公众号文章爬取。

我很喜欢曹将,拥有我这个年龄欠缺的逻辑、归纳、表达能力,文章篇篇精华。



 公众号文章爬取。

公众号太多,用手机阅读容易分心?

爬取到 Excel 里,先挑阅读最高的开始看。


另外还有,抖音播放数据、公众号阅读、评论数据,B 站弹幕数据、网易云评论数据。

爬虫+数据分析,给网络带来了更多的乐趣。



02

爬虫易,利其器



提到爬虫,大部分会想到编程技术;

python、数据库、beautiful、html 结构等等,让人望而生畏。

其实,基础的爬虫非常的简单,借助一些采集软件,点点按钮就可以轻松的完成。

 常用爬虫软件 

下面几个软件,是我爬取数据时用过的,推荐给大家:


 爬山虎采集器
www.51pashanhu.com


简单易学,通过可视化界面、鼠标点击即可采集数据、向导模式;

用户无需任何技术基础,输入网址,一键提取数据。


这是我接触的第 1 个爬虫软件。


优点:


使用流程简单,上手入门特别好。


缺点:


❶ 导入数量限制。采集下来的数据,非会员只能导出时限制 1000 条。
❷ 导出格式限制。非会员只能导出 txt 文本格式。


八爪鱼
www.bazhuayu.com

无需再学爬虫编程技术,简单三步就可以轻松抓取网页数据,支持多种格式一键导出,快速导入数据库。


爬山虎无法满足我的需求之后,开始尝试更专业的采集软件,找到了八爪鱼。


优点:

❶ 采集功能更强大,可以自定义采集流程。
❷ 导出格式、数据量没有限制。


缺点:


流程有些复杂,新手入门学起来有些困难。


后羿采集器(推荐)
www.houyicaiji.com

智能识别数据,小白神器基于人工智能算法。

只需输入网址就能智能识别列表数据、表格数据和分页按钮;

不需要配置任何采集规则,一键采集。

自动识别列表、表格、链接、图片、价格、邮箱等。


这是我现在用的采集软件,可以说是中和了前两个采集器的优缺点,使用体验更好。


优点:


❶ 自动识别页面信息,入门上手简单。
❷ 导出格式、数据量都没有限制。

目前没有发现缺点。




03

爬虫操作过程



注意啦,注意啦,接下来是动手的环节了。


我们以「幕布精选文章」为例,用「后羿采集器」体验一下爬虫的快乐。



采集后的效果如下:


操作方法:


❶ 复制采集的链接。


打开幕布官网,点击「精选」,进入到精选文章页面。


复制精选页面的网址:https://mubu.com/explore


❷ 后羿采集数据。


登录「后羿采集器」官网,下载并安装采集器。


打开采集器后,点击【智能模式】中的【开始采集】,新建一个智能采集。


贴入幕布精选的网址,点击【立即创建】。


这个过程中,采集器会自动识别页面中的列表、数据内容,整个过程是 AI 算法自动完成的,等着识别完成。

页面分析识别中 ↑

页面识别完成 ↑


点击【开始采集】-【启动】,开启爬虫的旅程。


采集数据导出。


在数据爬取过程中,你可以点击【停止】结束数据爬取。


或者等待数据爬取完成后,在弹出的对话框里,点击【导出数据】。


导出格式,选择 Excel,然后导出即可。

 
❹ 使用 HYPERLINK 函数,添加超链接。


打开导出的表格,在 I 列添加 HYPERLINK 公式,添加超链接,一点打开对应的文章。


公式如下:


=HYPERLINK(B2,"点击查看")


到这里,你的第 1 次爬虫之旅就圆满地完成了!




04

总结



爬虫就像 VBA 里的录制宏,把重复的动作录制下来,替代人工重复操作。


今天看到的,只是简单的数据采集,爬虫的话题还有很多,很深入的内容。


比如:

❶ 身份验证。爬取页面需要登录。
❷ 浏览器检验。比如公众号文章,只能在微信里获取阅读数量。
❸ 参数校验(验证码)。页面需要输入验证码。
❹ 请求频率。比如页面访问时间不能低于 10 秒
❺ 数据处理。爬取的数据,需要提取其中的数字、英文等内容。


了解了爬虫的过程之后,你现在最想爬取的数据是什么呢?

你还想跟着戏精拉登老师学习更多?

欢迎你扫码加秋小 E 微信,加入秋叶 Excel 数据处理学习班,让众多大神老师、学员助教带你成为办公高手!




文章来源:公众号【拉小登】(ID:ladengchupin),如需转载请联系原作者。
公众号简介:「好的表格是设计出来的」 分享表格设计、图表设计,数据分析干货文,让Excel成为你的名片。




扫码关注戏精拉登老师的日常

回复「爬虫」,获取爬虫软件下载地址

↓↓↓


给拉登老师打 call!

👇👇👇

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存