查看原文
其他

【大数据专栏】33款可用来抓数据的开源爬虫软件工具(下)

2015-10-15 科技杂谈

【摘要】33款可用来抓数据的开源爬虫软件工具(下)




| 科 | 技 | 杂 | 谈 |

中国通信行业第一自媒体



本文来源:36大数据

杂谈投稿邮箱:631255063@qq.com


23、NWebCrawler


NWebCrawler是一款开源,C#开发网络爬虫程序。


特性:


可配置:线程数,等待时间,连接超时,允许MIME类型和优先级,下载文件夹。


统计信息:URL数量,总下载文件,总下载字节数,CPU利用率和可用内存。


Preferentialcrawler:用户可以设置优先级的MIME类型。


Robust:10+URLnormalizationrules,crawlertrapavoidingrules.


授权协议:GPLv2


开发语言:C#


操作系统:Windows


项目主页:http://www.open-open.com/lib/view/home/1350117470448


特点:统计信息、执行过程可视化


24、Sinawler


国内第一个针对微博数据的爬虫程序!原名“新浪微博爬虫”。


登录后,可以指定用户为起点,以该用户的关注人、粉丝为线索,延人脉关系搜集用户基本信息、微博数据、评论数据。


该应用获取的数据可作为科研、与新浪微博相关的研发等的数据支持,但请勿用于商业用途。该应用基于.NET2.0框架,需SQLSERVER作为后台数据库,并提供了针对SQLServer的数据库脚本文件。


另外,由于新浪微博API的限制,爬取的数据可能不够完整(如获取粉丝数量的限制、获取微博数量的限制等)


本程序版权归作者所有。你可以免费:拷贝、分发、呈现和表演当前作品,制作派生作品。你不可将当前作品用于商业目的。


5.x版本已经发布!该版本共有6个后台工作线程:爬取用户基本信息的机器人、爬取用户关系的机器人、爬取用户标签的机器人、爬取微博内容的机器人、爬取微博评论的机器人,以及调节请求频率的机器人。更高的性能!最大限度挖掘爬虫潜力!以现在测试的结果看,已经能够满足自用。


本程序的特点:


1、6个后台工作线程,最大限度挖掘爬虫性能潜力!


2、界面上提供参数设置,灵活方便


3、抛弃app.config配置文件,自己实现配置信息的加密存储,保护数据库帐号信息


4、自动调整请求频率,防止超限,也避免过慢,降低效率


5、任意对爬虫控制,可随时暂停、继续、停止爬虫


6、良好的用户体验


授权协议:GPLv3


开发语言:C#.NET


操作系统:Windows


25、spidernet


spidernet是一个以递归树为模型的多线程web爬虫程序,支持text/html资源的获取.可以设定爬行深度,最大下载字节数限制,支持gzip解码,支持以gbk(gb2312)和utf8编码的资源;存储于sqlite数据文件.


源码中TODO:标记描述了未完成功能,希望提交你的代码.


授权协议:MIT


开发语言:C#


操作系统:Windows


github源代码:https://github.com/nsnail/spidernet


特点:以递归树为模型的多线程web爬虫程序,支持以GBK(gb2312)和utf8编码的资源,使用sqlite存储数据


26、WebCrawler


martandSimpleWebCrawler是一个Web爬虫框架。集成Lucene支持。该爬虫可以从单个链接或一个链接数组开始,提供两种遍历模式:最大迭代和最大深度。可以设置过滤器限制爬回来的链接,默认提供三个过滤器ServerFilter、BeginningPathFilter和RegularExpressionFilter,这三个过滤器可用AND、OR和NOT联合。在解析过程或页面加载前后都可以加监听器。介绍内容来自Open-Open


开发语言:Java


操作系统:跨平台


授权协议:LGPL


特点:多线程,支持抓取PDF/DOC/EXCEL等文档来源


27、网络矿工


网站数据采集软件网络矿工采集器(原soukey采摘)


Soukey采摘网站数据采集软件是一款基于.Net平台的开源软件,也是网站数据采集软件类型中唯一一款开源软件。尽管Soukey采摘开源,但并不会影响软件功能的提供,甚至要比一些商用软件的功能还要丰富。


授权协议:BSD


开发语言:C#.NET


操作系统:Windows


特点:功能丰富,毫不逊色于商业软件


PHP爬虫


28、OpenWebSpider


OpenWebSpider是一个开源多线程WebSpider(robot:机器人,crawler:爬虫)和包含许多有趣功能的搜索引擎。


授权协议:未知


开发语言:PHP


操作系统:跨平台


特点:开源多线程网络爬虫,有许多有趣的功能


29、PhpDig


PhpDig是一个采用PHP开发的Web爬虫和搜索引擎。通过对动态和静态页面进行索引建立一个词汇表。当搜索查询时,它将按一定的排序规则显示包含关键字的搜索结果页面。PhpDig包含一个模板系统并能够索引PDF,Word,Excel,和PowerPoint文档。PHPdig适用于专业化更强、层次更深的个性化搜索引擎,利用它打造针对某一领域的垂直搜索引擎是最好的选择。


演示:http://www.phpdig.net/navigation.php?action=demo


授权协议:GPL


开发语言:PHP


操作系统:跨平台


特点:具有采集网页内容、提交表单功能


30、ThinkUp


ThinkUp是一个可以采集推特,facebook等社交网络数据的社会媒体视角引擎。通过采集个人的社交网络账号中的数据,对其存档以及处理的交互分析工具,并将数据图形化以便更直观的查看。


授权协议:GPL


开发语言:PHP


操作系统:跨平台


github源码:https://github.com/ThinkUpLLC/ThinkUp


特点:采集推特、脸谱等社交网络数据的社会媒体视角引擎,可进行交互分析并将结果以可视化形式展现


31、微购


微购社会化购物系统是一款基于ThinkPHP框架开发的开源的购物分享系统,同时它也是一套针对站长、开源的的淘宝客网站程序,它整合了淘宝、天猫、淘宝客等300多家商品数据采集接口,为广大的淘宝客站长提供傻瓜式淘客建站服务,会HTML就会做程序模板,免费开放下载,是广大淘客站长的首选。


演示网址:http://tlx.wego360.com


授权协议:GPL


开发语言:PHP


操作系统:跨平台


ErLang爬虫


32、Ebot


Ebot是一个用ErLang语言开发的可伸缩的分布式网页爬虫,URLs被保存在数据库中可通过RESTful的HTTP请求来查询。


授权协议:GPLv3


开发语言:ErLang


操作系统:跨平台


github源代码:https://github.com/matteoredaelli/ebot


项目主页:http://www.redaelli.org/matteo/blog/projects/ebot


特点:可伸缩的分布式网页爬虫


Ruby爬虫


33、Spidr


Spidr是一个Ruby的网页爬虫库,可以将整个网站、多个网站、某个链接完全抓取到本地。


开发语言:Ruby


授权协议:MIT


特点:可将一个或多个网站、某个链接完全抓取到本地


【昨日文章索引】


点击下方 【阅读原文】加入科技杂谈菁英会



2013年度最佳IT原创自媒体

2014年度最佳新媒体人

2014年度最受企业关注自媒体

国资委微公益行动联合发起人


| 新科技 | 睿思想 |

已入驻百度百家、腾讯新闻、搜狐新闻、今日头条、网易阅读
犀牛财经自媒体联盟(xinews)成员

欢迎争鸣 谢绝软文


转载授权、商务合作,联系微信号:sophie0306



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存