免写代码的爬虫神器!懒人必备!
前天答应大家的爬虫工具分享,今天虽迟但到。
首先大家明确一点,没有一样工具是可以完美解决所有问题的。
你也针对每一套需求定制一套爬虫代码,前提是能自己写或者可以请人。
对于工具小懒一贯的原则是,有现成的绝不自己写,能抄的就不自己想(代码)。
今天分享这个非常强的爬虫插件,不用自己写一行代码就能实现数据爬取,而且完全免费!
小懒希望你举一反三,下次有数据爬取需求时,可以先尝试一下它~
Instant Data Scraper
10w+用户,5星好评。
先来看小懒用它干嘛,然后介绍一下用法,再给出适用场景~
介绍
比较出名的爬虫插件也就是webscraper了,相信一些朋友也用过,依靠于浏览器,选择元素后可以快速把数据下到下载到本地。
不过得手动选择元素,复制链接啥的,上手有些许门槛。
这个Instant Data Scraper插件则是纯傻瓜式操作。
实际上这个插件的最多场景是为了爬亚马逊商品评价的,小懒多年前也是用它干这个,但它不局限于此~
下图是小懒把介绍翻译给大家看一下:AI分析数据,允许自定义更改区域。
小懒用它爬了懒人找资源三万多粉丝的头像和昵称。
接下来详细教大家如何使用~
详细教程
浏览器安装完插件后,打开你要爬取的页面,点击插件即可调出
如果显示下图则说明这个页面无法爬取,但大多数都是可以的。
因为插件是英文界面,小懒简单翻译给大家。
小懒会分别对「翻页」和「滚动」这两类举例教学。
「第一类是翻页类型的网页」
比如亚马逊商品评价啊,各种表格啊,这类有下一页按钮。
举小懒公众号粉丝为例,打开页面,打开插件,选择「Try another table」直到定位到想要爬取的区域,插件下方数据也可以预览到将爬取的数据。
然后点击Locate “Next” Button我们手动到页面帮他找到下一页的位置(还不清楚的参照下方动图)
确定没问题就点击Start Crawling
可以看到插件自动帮我们翻页,数据源源不断过来了~
泡了杯铁观音,斜靠着沙发椅看了半小时的微信读书,回来看到三万多粉丝数据都已经在插件的怀里了。
漫不经心地点击csv和xlsx,这两个格式的数据都下下来了。
至于对数据的处理就看大家自己的需求了~
「第二类是滚动类型的网页」
咱们举知乎为例
以热榜为例,打开插件,点击切换表格,直到获取到想要的数据。
对于这类滚动类型的页面,一定要勾上 Infinite scroll ,也就是无限滚动。
见动图
热榜才五十条,不过瘾,再来爬推荐的~
嗯,只要不断加载就不断滚动下拉爬取,等到不爬时点击Stop crawling
(如果出现一直定位不打到下一页位置,可以重启一下插件,或者点击infinite scroll再取消勾选。一般来说,插件足够智能)
小懒都手拉手,哦不,手把手教学了,很简单吧~
还有问题,留言区告诉小懒!
插件下载
这个Instant Data Scraper在谷歌商店和微软商店都上架了,edge浏览器的应用商城是不用T子的,小懒一并给出。
谷歌商店上的下载地址:
https://chrome.google.com/webstore/detail/instant-data-scraper/ofaokhiedipichpaobibbnahnkdoiiah
微软商店的下载地址:
https://microsoftedge.microsoft.com/addons/detail/instant-data-scraper/onnjkaofddpgfmbcnbnfacjacjamelfa?hl=zh-CN
没办法访问插件商城的(edge浏览器插件中心无需翻Q),小懒也在后台准备好下载地址了。
本公众号后台回复 爬虫插件 领取软件下载地址
手动插件安装教程:点击浏览器右上角设置——更多工具——扩展程序,然后把.crx文件拉进去就行。
懒人补充
其实的数据爬虫工具网上有不少,像火车头,后裔采集器,影刀,这些都是集成类的工具,或者python编程用requests写个请求。不过上手有点门槛。很多时候不得不面对一个网站写一个规则,一套代码。
比如小懒要想用python爬粉丝数据,就得考虑吧反扒,或者调用浏览器访问,还得调试,没个三十分钟也搞不完(还是因为小懒有很多现场的轮子,以前的代码),用这个插件半小时已经爬完数据了,自己一行代码都不用写。
但是,小懒说但是了哈~
拿到数据只是最基础的一部,如何清洗数据,如何利用数据,如何数据分析才是重中之重,爬下海量数据不难,如何通过这些数据得到结论才应该是你搞爬虫的目的。
这篇文字只分享工具,后续数据处理的就先不聊了。
「成果」
感谢大家依然一如即往的关注懒人找资源
小懒把公众号三万多粉丝的昵称利用 wordart(在文字获取小姐姐听歌喜好并作出词云分享过教程)做成图云。
原本还想把大家的头像爬下来,做成做成千图成像的效果,限于时间,下次再说。
题外话
这个插件是小懒前几年玩的,当时帮朋友爬亚马逊评论,找到这个工具,后来小懒举一反三发现确实是神器,局限与电商评论太“屈才”,当然,玩电商的朋友可以拿去玩看看。
前段时间专属群的群友想爬自己金山词典的单词,求助工具小懒就推荐了这个,结果效果太好了。
后面这个插件又解决了几个群友的问题,反馈很棒,就干脆写一篇完整教程分享给大家,网上关于这个插件的介绍几乎没有,加上都是英文界面劝退国内朋友。
其实使用很简单,小懒介绍得很清楚,希望可以帮到大家~
前天的 闲聊文章 有粉丝留言为什么不当天分享,这里想多说几句,其实写推文还是很耗时的,像今天这篇,从早上打开一有空就码字,截图,介绍,现在已经傍晚了才差不多写完。
平时在小号分享破姐软件比较简单,完整发完最少也要40分钟,包括准备软件,排版,预览等等。
小懒虽然不是全职做公众号,每天更两个号也跟上班差不多哈哈——当然,这都是值得的,小懒自己也享受这个过程,不然也没办法坚持了两年的公众号和社群运营。
其实小懒码字写推文其实速度算是快的了~
当然,如果时间有限,重心肯定是懒人专属群——毕竟大家交钱进来,服务还是要到位的。
anyway,希望今天的分享可以帮到大家~
今日一言
❝我们的很多欲望总是与自己真正的需求毫无关系。过多地关注他人对我们的看法,使我们把自己短暂一生之中最美好的时光破坏殆尽。用生命中大量的光阴为错误的东西而担心,这才是最令人痛心疾首的事情。——阿兰·德波顿《身份的焦虑》
❞
↓欢迎大家把我设置星标置顶↓
可以第一时间收到推送
请大家多多转发点赞
O(∩_∩)O