不用写代码的爬虫工具(一) (爬微博案例)
本篇阅读时间不详,图片居多。。
1
前言
前两天写了一篇关于《胡歌粉丝画像》的文章,其中用到了一些微博上的粉丝数据,平时若是要收集小量的网络信息,是不需要自己亲手动手写爬虫的。本着哪个工具好用,用哪个的原则即可。
那么今天就来简单的介绍下,笔者常用的两款工具。(满足日常小信息量爬取)
其一,后羿采集器。
其二,web scraper。(基于谷歌浏览器的爬虫插件)下一篇介绍,因为操作无界面,需要讲解下。
2
后羿采集器安装
这款采集器是一个依赖于界面操作的,官网地址下载:
http://www.houyicaiji.com
下载后的 exe 文件,直接安装即可。
打开后,首页:
3
微博采集
以前两天采集的微博给大家讲解下如何使用。
1. 打开到明星微博下的评论区中,将网址复制。
3. 点击后,它很智能的自己将网页上的一些字段进行了相应的提取。
4. 微博需要登录后,才能继续进行分页的抓取。所以,需要登录。点击预登陆即可。
点击后,弹出来的框,这里可以进行和浏览器一样的操作,正常登录账号就行了。
需要注意的是,它提示不记录个人信息,为了安全起见,建议大家使用爬虫工具的时候,尽量新申请个小号,一是为了防止封号,二是大号的安全问题。
完成后,页面会重新刷新识别,账号已经登录状态了。
在它自动识别,有一栏是链接,这些链接就是粉丝的主页链接,点下深入采集,它会自动跳到二级页面,也就是粉丝的详情页。
自行添加字段,选择点击查看更多。它会自动检测到有 url 的提示,点击是就行,结果如下图:
接下来,为了抓取粉丝的详情信息,在对其进行一次深入采集:
粉丝的所有信息,应有尽有!是不是很简单呢?
下面的框有三个页面,意味着对应了三个页面的采集。
基础信息到这里说完了,但是需要注意的是,如果使用以上操作,仅仅只能采集到的第一页的粉丝信息,最终就会终止了,大概是 15 个粉丝就会自动停止。
4
微博的分页机制
分页,顾名思义,就是按照页面进行内容的分开。像我们现在的网页都有分页机制,比如你经常看到网站最下面的 1,2,3,4。。。页,那就是分页机制。
关于微博的分页机制做的非常鸡贼。。。我当时用这个工具大部分时间都浪费在了研究如何绕过微博的分页上了。。
在胡歌的评论下面,你多试几次就会发现,微博的分页技术,是先采用了一个长长的滑动分页,就和移动端上某些app似的,当下滑时,才会加载内容。
而微博这里前面是采用了两段下滑分页加载内容,两段下滑后,可以看到浏览器右侧的滚动条会拉长,最终拉到最下方时,又出现了查看更多的按钮分页操作。
5
后羿中模拟滚动分页
如果你想爬取下面的全部数据,你就需要先进行一个人工的模拟下滑操作。这里在后羿采集器中,使用的就是预操作执行了。(预登陆右边的绿色按钮)
点击后,如下图:
模拟滚动网页的操作,需要滚动两下,所以流程图如下:
这个滚动组件有内置三个按钮,第一个是滚动方式,第二个是滚动次数,第三个是间隔的秒数。流程图的流程就是,滚动到屏幕最底下,间隔1s,执行2次滚动。
一共拖了两个滚动组件,也就是模拟滚屏 4 次,然后停止等待 3 s,为了让网页元素加载进来,最后点击保存退出即可。页面刷新,看到它正在执行刚才预加载的脚本流程。
经过以上操作,有时候会出现这样的情况:
需要我们人工干涉一下:
手动点下,自动识别分页,即可识别成功。
上面的整体流程,梳理下,预操作滚屏,向下滚后加载出分页按钮的查看更多,通过自动识别分页,识别到此分页按钮,即可爬取后面所有的粉丝链接内容了!
6
启动爬取
最后一步,点击右下角的开始采集即可。
弹框,防屏蔽这里选择智能,其余默认,然后点击启动。就可以看到爬虫正在运行了。
运行时:
7
导出
关于最后的数据,得进行导出,至于导出的方式是存储在 excel 文件或是数据库中,看你的选择啦。
7
总结
是不是使用这种小白工具比较简单呢?但是需要注意的是,工具虽然简单,但是效率是个问题!这种以模拟网页形式的爬虫,效率非常低下,如果是企业级应用,肯定不合适。。
当然人家免费版效率低下是肯定的,有专业版是要花钱的,估计效率会提升不少,还有相应的云平台使用。
对于我们日常自己想要采集的数据,免费版来说足够了!
在爬取微博的过程中,遇到的难点就是需要分析出它的分页机制,分页机制处理不好,爬取的时候是采集不全的,需要注意。
此工具的使用,如果将微博的分页机制研究会了,其余的网站分页相信应该没有什么难点而言了。
到这里就结束了,觉得好看的朋友,欢迎留言,好看,评论,转发哟!
长按关注
公众号名称:咪哥杂谈
一个咪咪怪的公众号
长按二维码关注哦!