该内容已被发布者删除 该内容被自由微信恢复
文章于 2023年2月17日 被检测为删除。
查看原文
被用户删除
其他

免写代码的爬虫神器!懒人必备!

小懒人 懒人找资源 2022-05-04

前天答应大家的爬虫工具分享,今天虽迟但到。

首先大家明确一点,没有一样工具是可以完美解决所有问题的。

你也针对每一套需求定制一套爬虫代码,前提是能自己写或者可以请人。

对于工具小懒一贯的原则是,有现成的绝不自己写,能抄的就不自己想(代码)

今天分享这个非常强的爬虫插件,不用自己写一行代码就能实现数据爬取,而且完全免费!

小懒希望你举一反三,下次有数据爬取需求时,可以先尝试一下它~

Instant Data Scraper

10w+用户,5星好评。

先来看小懒用它干嘛,然后介绍一下用法,再给出适用场景~

介绍

比较出名的爬虫插件也就是webscraper了,相信一些朋友也用过,依靠于浏览器,选择元素后可以快速把数据下到下载到本地。

不过得手动选择元素,复制链接啥的,上手有些许门槛。

这个Instant Data Scraper插件则是纯傻瓜式操作。

实际上这个插件的最多场景是为了爬亚马逊商品评价的,小懒多年前也是用它干这个,但它不局限于此~

下图是小懒把介绍翻译给大家看一下:AI分析数据,允许自定义更改区域。

小懒用它爬了懒人找资源三万多粉丝的头像和昵称。

接下来详细教大家如何使用~

详细教程

浏览器安装完插件后,打开你要爬取的页面,点击插件即可调出

如果显示下图则说明这个页面无法爬取,但大多数都是可以的。

因为插件是英文界面,小懒简单翻译给大家。

小懒会分别对「翻页」「滚动」这两类举例教学。

「第一类是翻页类型的网页」

比如亚马逊商品评价啊,各种表格啊,这类有下一页按钮。

举小懒公众号粉丝为例,打开页面,打开插件,选择「Try another table」直到定位到想要爬取的区域,插件下方数据也可以预览到将爬取的数据。

然后点击Locate “Next” Button我们手动到页面帮他找到下一页的位置(还不清楚的参照下方动图)

确定没问题就点击Start Crawling

可以看到插件自动帮我们翻页,数据源源不断过来了~

泡了杯铁观音,斜靠着沙发椅看了半小时的微信读书,回来看到三万多粉丝数据都已经在插件的怀里了。

漫不经心地点击csv和xlsx,这两个格式的数据都下下来了。

至于对数据的处理就看大家自己的需求了~

「第二类是滚动类型的网页」

咱们举知乎为例

以热榜为例,打开插件,点击切换表格,直到获取到想要的数据。

对于这类滚动类型的页面,一定要勾上 Infinite scroll ,也就是无限滚动。

见动图

热榜才五十条,不过瘾,再来爬推荐的~

嗯,只要不断加载就不断滚动下拉爬取,等到不爬时点击Stop crawling

(如果出现一直定位不打到下一页位置,可以重启一下插件,或者点击infinite scroll再取消勾选。一般来说,插件足够智能)

小懒都手拉手,哦不,手把手教学了,很简单吧~

还有问题,留言区告诉小懒!

插件下载

这个Instant Data Scraper在谷歌商店和微软商店都上架了,edge浏览器的应用商城是不用T子的,小懒一并给出。

谷歌商店上的下载地址:

https://chrome.google.com/webstore/detail/instant-data-scraper/ofaokhiedipichpaobibbnahnkdoiiah

微软商店的下载地址:

https://microsoftedge.microsoft.com/addons/detail/instant-data-scraper/onnjkaofddpgfmbcnbnfacjacjamelfa?hl=zh-CN

没办法访问插件商城的(edge浏览器插件中心无需翻Q),小懒也在后台准备好下载地址了。

本公众号后台回复 爬虫插件 领取软件下载地址

手动插件安装教程:点击浏览器右上角设置——更多工具——扩展程序,然后把.crx文件拉进去就行。

懒人补充

其实的数据爬虫工具网上有不少,像火车头,后裔采集器,影刀,这些都是集成类的工具,或者python编程用requests写个请求。不过上手有点门槛。很多时候不得不面对一个网站写一个规则,一套代码。

比如小懒要想用python爬粉丝数据,就得考虑吧反扒,或者调用浏览器访问,还得调试,没个三十分钟也搞不完(还是因为小懒有很多现场的轮子,以前的代码),用这个插件半小时已经爬完数据了,自己一行代码都不用写。

但是,小懒说但是了哈~

拿到数据只是最基础的一部,如何清洗数据,如何利用数据,如何数据分析才是重中之重,爬下海量数据不难,如何通过这些数据得到结论才应该是你搞爬虫的目的。

这篇文字只分享工具,后续数据处理的就先不聊了。

「成果」

感谢大家依然一如即往的关注懒人找资源

小懒把公众号三万多粉丝的昵称利用  wordart(在文字获取小姐姐听歌喜好并作出词云分享过教程)做成图云。

原本还想把大家的头像爬下来,做成做成千图成像的效果,限于时间,下次再说。

题外话

这个插件是小懒前几年玩的,当时帮朋友爬亚马逊评论,找到这个工具,后来小懒举一反三发现确实是神器,局限与电商评论太“屈才”,当然,玩电商的朋友可以拿去玩看看。

前段时间专属群的群友想爬自己金山词典的单词,求助工具小懒就推荐了这个,结果效果太好了。

后面这个插件又解决了几个群友的问题,反馈很棒,就干脆写一篇完整教程分享给大家,网上关于这个插件的介绍几乎没有,加上都是英文界面劝退国内朋友。

其实使用很简单,小懒介绍得很清楚,希望可以帮到大家~

前天的 闲聊文章 有粉丝留言为什么不当天分享,这里想多说几句,其实写推文还是很耗时的,像今天这篇,从早上打开一有空就码字,截图,介绍,现在已经傍晚了才差不多写完。

平时在小号分享破姐软件比较简单,完整发完最少也要40分钟,包括准备软件,排版,预览等等。

小懒虽然不是全职做公众号,每天更两个号也跟上班差不多哈哈——当然,这都是值得的,小懒自己也享受这个过程,不然也没办法坚持了两年的公众号和社群运营。

其实小懒码字写推文其实速度算是快的了~

当然,如果时间有限,重心肯定是懒人专属群——毕竟大家交钱进来,服务还是要到位的。

anyway,希望今天的分享可以帮到大家~

今日一言

我们的很多欲望总是与自己真正的需求毫无关系。过多地关注他人对我们的看法,使我们把自己短暂一生之中最美好的时光破坏殆尽。用生命中大量的光阴为错误的东西而担心,这才是最令人痛心疾首的事情。——阿兰·德波顿《身份的焦虑》

↓欢迎大家把我设置星标置顶↓

可以第一时间收到推送

请大家多多转发点赞

O(∩_∩)O


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存