【大数据专栏】33款可用来抓数据的开源爬虫软件工具（下）

查看原文

其他

【大数据专栏】33款可用来抓数据的开源爬虫软件工具（下）

2015-10-15 科技杂谈

【摘要】33款可用来抓数据的开源爬虫软件工具（下）

| 科 | 技 | 杂 | 谈 |

中国通信行业第一自媒体

本文来源：36大数据
杂谈投稿邮箱：631255063@qq.com

23、NWebCrawler

NWebCrawler是一款开源，C#开发网络爬虫程序。

特性：

可配置：线程数，等待时间，连接超时，允许MIME类型和优先级，下载文件夹。

统计信息：URL数量，总下载文件，总下载字节数，CPU利用率和可用内存。

Preferentialcrawler：用户可以设置优先级的MIME类型。

Robust:10+URLnormalizationrules,crawlertrapavoidingrules.

授权协议：GPLv2

开发语言：C#

操作系统：Windows

项目主页：http://www.open-open.com/lib/view/home/1350117470448

特点：统计信息、执行过程可视化

24、Sinawler

国内第一个针对微博数据的爬虫程序！原名“新浪微博爬虫”。

登录后，可以指定用户为起点，以该用户的关注人、粉丝为线索，延人脉关系搜集用户基本信息、微博数据、评论数据。

该应用获取的数据可作为科研、与新浪微博相关的研发等的数据支持，但请勿用于商业用途。该应用基于.NET2.0框架，需SQLSERVER作为后台数据库，并提供了针对SQLServer的数据库脚本文件。

另外，由于新浪微博API的限制，爬取的数据可能不够完整（如获取粉丝数量的限制、获取微博数量的限制等）

本程序版权归作者所有。你可以免费:拷贝、分发、呈现和表演当前作品,制作派生作品。你不可将当前作品用于商业目的。

5.x版本已经发布！该版本共有6个后台工作线程：爬取用户基本信息的机器人、爬取用户关系的机器人、爬取用户标签的机器人、爬取微博内容的机器人、爬取微博评论的机器人，以及调节请求频率的机器人。更高的性能！最大限度挖掘爬虫潜力！以现在测试的结果看，已经能够满足自用。

本程序的特点：

1、6个后台工作线程，最大限度挖掘爬虫性能潜力！

2、界面上提供参数设置，灵活方便

3、抛弃app.config配置文件，自己实现配置信息的加密存储，保护数据库帐号信息

4、自动调整请求频率，防止超限，也避免过慢，降低效率

5、任意对爬虫控制，可随时暂停、继续、停止爬虫

6、良好的用户体验

授权协议：GPLv3

开发语言：C#.NET

操作系统：Windows

25、spidernet

spidernet是一个以递归树为模型的多线程web爬虫程序,支持text/html资源的获取.可以设定爬行深度,最大下载字节数限制,支持gzip解码,支持以gbk(gb2312)和utf8编码的资源;存储于sqlite数据文件.

源码中TODO:标记描述了未完成功能,希望提交你的代码.

授权协议：MIT

开发语言：C#

操作系统：Windows

github源代码：https://github.com/nsnail/spidernet

特点：以递归树为模型的多线程web爬虫程序，支持以GBK(gb2312)和utf8编码的资源，使用sqlite存储数据

26、WebCrawler

martandSimpleWebCrawler是一个Web爬虫框架。集成Lucene支持。该爬虫可以从单个链接或一个链接数组开始，提供两种遍历模式：最大迭代和最大深度。可以设置过滤器限制爬回来的链接，默认提供三个过滤器ServerFilter、BeginningPathFilter和RegularExpressionFilter，这三个过滤器可用AND、OR和NOT联合。在解析过程或页面加载前后都可以加监听器。介绍内容来自Open-Open

开发语言：Java

操作系统：跨平台

授权协议：LGPL

特点：多线程，支持抓取PDF/DOC/EXCEL等文档来源

27、网络矿工

网站数据采集软件网络矿工采集器（原soukey采摘）

Soukey采摘网站数据采集软件是一款基于.Net平台的开源软件，也是网站数据采集软件类型中唯一一款开源软件。尽管Soukey采摘开源，但并不会影响软件功能的提供，甚至要比一些商用软件的功能还要丰富。

授权协议：BSD

开发语言：C#.NET

操作系统：Windows

特点：功能丰富，毫不逊色于商业软件

PHP爬虫

28、OpenWebSpider

OpenWebSpider是一个开源多线程WebSpider（robot：机器人，crawler：爬虫)和包含许多有趣功能的搜索引擎。

授权协议：未知

开发语言：PHP

操作系统：跨平台

特点：开源多线程网络爬虫，有许多有趣的功能

29、PhpDig

PhpDig是一个采用PHP开发的Web爬虫和搜索引擎。通过对动态和静态页面进行索引建立一个词汇表。当搜索查询时，它将按一定的排序规则显示包含关键字的搜索结果页面。PhpDig包含一个模板系统并能够索引PDF,Word,Excel,和PowerPoint文档。PHPdig适用于专业化更强、层次更深的个性化搜索引擎，利用它打造针对某一领域的垂直搜索引擎是最好的选择。

演示：http://www.phpdig.net/navigation.php?action=demo

授权协议：GPL

开发语言：PHP

操作系统：跨平台

特点：具有采集网页内容、提交表单功能

30、ThinkUp

ThinkUp是一个可以采集推特，facebook等社交网络数据的社会媒体视角引擎。通过采集个人的社交网络账号中的数据，对其存档以及处理的交互分析工具，并将数据图形化以便更直观的查看。

授权协议：GPL

开发语言：PHP

操作系统：跨平台

github源码：https://github.com/ThinkUpLLC/ThinkUp

特点：采集推特、脸谱等社交网络数据的社会媒体视角引擎，可进行交互分析并将结果以可视化形式展现

31、微购

微购社会化购物系统是一款基于ThinkPHP框架开发的开源的购物分享系统，同时它也是一套针对站长、开源的的淘宝客网站程序，它整合了淘宝、天猫、淘宝客等300多家商品数据采集接口，为广大的淘宝客站长提供傻瓜式淘客建站服务，会HTML就会做程序模板，免费开放下载，是广大淘客站长的首选。

演示网址：http://tlx.wego360.com

授权协议：GPL

开发语言：PHP

操作系统：跨平台

ErLang爬虫

32、Ebot

Ebot是一个用ErLang语言开发的可伸缩的分布式网页爬虫，URLs被保存在数据库中可通过RESTful的HTTP请求来查询。

授权协议：GPLv3

开发语言：ErLang

操作系统：跨平台

github源代码：https://github.com/matteoredaelli/ebot

项目主页：http://www.redaelli.org/matteo/blog/projects/ebot

特点：可伸缩的分布式网页爬虫

Ruby爬虫

33、Spidr

Spidr是一个Ruby的网页爬虫库，可以将整个网站、多个网站、某个链接完全抓取到本地。

开发语言：Ruby

授权协议：MIT

特点：可将一个或多个网站、某个链接完全抓取到本地

【昨日文章索引】

点击下方【阅读原文】加入科技杂谈菁英会

2013年度最佳IT原创自媒体

2014年度最佳新媒体人

2014年度最受企业关注自媒体

国资委微公益行动联合发起人

| 新科技 | 睿思想 |

已入驻百度百家、腾讯新闻、搜狐新闻、今日头条、网易阅读
犀牛财经自媒体联盟（xinews）成员

欢迎争鸣谢绝软文

转载授权、商务合作，联系微信号：sophie0306

又忘关摄像头了！村官和妇女主任激情戏再度上演……

网红书记朱是西被查，惊人的一幕出现了！

致信：中国政法大学，请求其收回对一家仲裁委的奖项

注意！新华社公布新增57个禁用词

您已关注后沙满1年，诚邀您加入内部风水交流群！扫码进！