33款可用来抓数据的开源爬虫软件工具
情报分析师
全国警务人员和情报人员都在关注
Java爬虫
1. Arachnid
2、crawlzilla
3、Ex-Crawler
4、Heritrix
5、heyDr
6、ItSucks
7、jcrawl
8、JSpider
9、Leopdo
10、MetaSeeker
11、Playfish
下载右边的.war包导入到eclipse中,
使用WebContent/sql下的wcc.sql文件建立一个范例数据库,
修改src包下wcc.core的dbConfig.txt,将用户名与密码设置成你自己的mysql用户名密码。
然后运行SystemCore,运行时候会在控制台,无参数会执行默认
12、Spiderman
13、webmagic
14、Web-Harvest
15、WebSPHINX
16、YaCy
Python爬虫
17、QuickRecon
18、PyRailgun
19、Scrapy
C++爬虫
20、hispider
基于unix/linux系统的开发
异步DNS解析
URL排重
支持HTTP 压缩编码传输 gzip/deflate
字符集判断自动转换成UTF-8编码
文档压缩存储
支持多下载节点分布式下载
支持网站定向下载(需要配置 hispiderd.ini whitelist )
可通过 http://127.0.0.1:3721/ 查看下载情况统计,下载任务控制(可停止和恢复任务)
依赖基本通信库libevbase 和 libsbase (安装的时候需要先安装这个两个库)、
工作流程:
从中心节点取URL(包括URL对应的任务号, IP和port,也可能需要自己解析)
连接服务器发送请求
等待数据头判断是否需要的数据(目前主要取text类型的数据)
等待完成数据(有length头的直接等待说明长度的数据否则等待比较大的数字然后设置超时)
数据完成或者超时, zlib压缩数据返回给中心服务器,数据可能包括自己解析DNS信息, 压缩后数据长度+压缩后数据, 如果出错就直接返回任务号以及相关信息
中心服务器收到带有任务号的数据, 查看是否包括数据, 如果没有数据直接置任务号对应的状态为错误, 如果有数据提取数据种link 然后存储数据到文档文件.
完成后返回一个新的任务.授权协议:BSD
21、larbin
22、Methabot
C#爬虫
23、NWebCrawler
可配置:线程数,等待时间,连接超时,允许MIME类型和优先级,下载文件夹。
统计信息:URL数量,总下载文件,总下载字节数,CPU利用率和可用内存。
Preferential crawler:用户可以设置优先级的MIME类型。
Robust: 10+ URL normalization rules, crawler trap avoiding rules.
24、Sinawler
6个后台工作线程,最大限度挖掘爬虫性能潜力!
界面上提供参数设置,灵活方便
抛弃app.config配置文件,自己实现配置信息的加密存储,保护数据库帐号信息
自动调整请求频率,防止超限,也避免过慢,降低效率
任意对爬虫控制,可随时暂停、继续、停止爬虫
良好的用户体验
25、spidernet
26、Web Crawler
27、网络矿工
PHP爬虫
28、OpenWebSpider
30、ThinkUp
31、微购
ErLang爬虫
32、Ebot
Ruby爬虫
33、Spidr
本期编辑:HNE
如有侵权,请联系管理员删除
普及情报思维 传播情报文化
长 按 关 注
【投稿邮箱】
550419913@qq.com