【大数据专栏】33款可用来抓数据的开源爬虫软件工具(下)
【摘要】33款可用来抓数据的开源爬虫软件工具(下)
| 科 | 技 | 杂 | 谈 |
中国通信行业第一自媒体
本文来源:36大数据
杂谈投稿邮箱:631255063@qq.com
23、NWebCrawler
NWebCrawler是一款开源,C#开发网络爬虫程序。
特性:
可配置:线程数,等待时间,连接超时,允许MIME类型和优先级,下载文件夹。
统计信息:URL数量,总下载文件,总下载字节数,CPU利用率和可用内存。
Preferentialcrawler:用户可以设置优先级的MIME类型。
Robust:10+URLnormalizationrules,crawlertrapavoidingrules.
授权协议:GPLv2
开发语言:C#
操作系统:Windows
项目主页:http://www.open-open.com/lib/view/home/1350117470448
特点:统计信息、执行过程可视化
24、Sinawler
国内第一个针对微博数据的爬虫程序!原名“新浪微博爬虫”。
登录后,可以指定用户为起点,以该用户的关注人、粉丝为线索,延人脉关系搜集用户基本信息、微博数据、评论数据。
该应用获取的数据可作为科研、与新浪微博相关的研发等的数据支持,但请勿用于商业用途。该应用基于.NET2.0框架,需SQLSERVER作为后台数据库,并提供了针对SQLServer的数据库脚本文件。
另外,由于新浪微博API的限制,爬取的数据可能不够完整(如获取粉丝数量的限制、获取微博数量的限制等)
本程序版权归作者所有。你可以免费:拷贝、分发、呈现和表演当前作品,制作派生作品。你不可将当前作品用于商业目的。
5.x版本已经发布!该版本共有6个后台工作线程:爬取用户基本信息的机器人、爬取用户关系的机器人、爬取用户标签的机器人、爬取微博内容的机器人、爬取微博评论的机器人,以及调节请求频率的机器人。更高的性能!最大限度挖掘爬虫潜力!以现在测试的结果看,已经能够满足自用。
本程序的特点:
1、6个后台工作线程,最大限度挖掘爬虫性能潜力!
2、界面上提供参数设置,灵活方便
3、抛弃app.config配置文件,自己实现配置信息的加密存储,保护数据库帐号信息
4、自动调整请求频率,防止超限,也避免过慢,降低效率
5、任意对爬虫控制,可随时暂停、继续、停止爬虫
6、良好的用户体验
授权协议:GPLv3
开发语言:C#.NET
操作系统:Windows
25、spidernet
spidernet是一个以递归树为模型的多线程web爬虫程序,支持text/html资源的获取.可以设定爬行深度,最大下载字节数限制,支持gzip解码,支持以gbk(gb2312)和utf8编码的资源;存储于sqlite数据文件.
源码中TODO:标记描述了未完成功能,希望提交你的代码.
授权协议:MIT
开发语言:C#
操作系统:Windows
github源代码:https://github.com/nsnail/spidernet
特点:以递归树为模型的多线程web爬虫程序,支持以GBK(gb2312)和utf8编码的资源,使用sqlite存储数据
26、WebCrawler
martandSimpleWebCrawler是一个Web爬虫框架。集成Lucene支持。该爬虫可以从单个链接或一个链接数组开始,提供两种遍历模式:最大迭代和最大深度。可以设置过滤器限制爬回来的链接,默认提供三个过滤器ServerFilter、BeginningPathFilter和RegularExpressionFilter,这三个过滤器可用AND、OR和NOT联合。在解析过程或页面加载前后都可以加监听器。介绍内容来自Open-Open
开发语言:Java
操作系统:跨平台
授权协议:LGPL
特点:多线程,支持抓取PDF/DOC/EXCEL等文档来源
27、网络矿工
网站数据采集软件网络矿工采集器(原soukey采摘)
Soukey采摘网站数据采集软件是一款基于.Net平台的开源软件,也是网站数据采集软件类型中唯一一款开源软件。尽管Soukey采摘开源,但并不会影响软件功能的提供,甚至要比一些商用软件的功能还要丰富。
授权协议:BSD
开发语言:C#.NET
操作系统:Windows
特点:功能丰富,毫不逊色于商业软件
PHP爬虫
28、OpenWebSpider
OpenWebSpider是一个开源多线程WebSpider(robot:机器人,crawler:爬虫)和包含许多有趣功能的搜索引擎。
授权协议:未知
开发语言:PHP
操作系统:跨平台
特点:开源多线程网络爬虫,有许多有趣的功能
29、PhpDig
PhpDig是一个采用PHP开发的Web爬虫和搜索引擎。通过对动态和静态页面进行索引建立一个词汇表。当搜索查询时,它将按一定的排序规则显示包含关键字的搜索结果页面。PhpDig包含一个模板系统并能够索引PDF,Word,Excel,和PowerPoint文档。PHPdig适用于专业化更强、层次更深的个性化搜索引擎,利用它打造针对某一领域的垂直搜索引擎是最好的选择。
演示:http://www.phpdig.net/navigation.php?action=demo
授权协议:GPL
开发语言:PHP
操作系统:跨平台
特点:具有采集网页内容、提交表单功能
30、ThinkUp
ThinkUp是一个可以采集推特,facebook等社交网络数据的社会媒体视角引擎。通过采集个人的社交网络账号中的数据,对其存档以及处理的交互分析工具,并将数据图形化以便更直观的查看。
授权协议:GPL
开发语言:PHP
操作系统:跨平台
github源码:https://github.com/ThinkUpLLC/ThinkUp
特点:采集推特、脸谱等社交网络数据的社会媒体视角引擎,可进行交互分析并将结果以可视化形式展现
31、微购
微购社会化购物系统是一款基于ThinkPHP框架开发的开源的购物分享系统,同时它也是一套针对站长、开源的的淘宝客网站程序,它整合了淘宝、天猫、淘宝客等300多家商品数据采集接口,为广大的淘宝客站长提供傻瓜式淘客建站服务,会HTML就会做程序模板,免费开放下载,是广大淘客站长的首选。
演示网址:http://tlx.wego360.com
授权协议:GPL
开发语言:PHP
操作系统:跨平台
ErLang爬虫
32、Ebot
Ebot是一个用ErLang语言开发的可伸缩的分布式网页爬虫,URLs被保存在数据库中可通过RESTful的HTTP请求来查询。
授权协议:GPLv3
开发语言:ErLang
操作系统:跨平台
github源代码:https://github.com/matteoredaelli/ebot
项目主页:http://www.redaelli.org/matteo/blog/projects/ebot
特点:可伸缩的分布式网页爬虫
Ruby爬虫
33、Spidr
Spidr是一个Ruby的网页爬虫库,可以将整个网站、多个网站、某个链接完全抓取到本地。
开发语言:Ruby
授权协议:MIT
特点:可将一个或多个网站、某个链接完全抓取到本地
【昨日文章索引】
点击下方 【阅读原文】加入科技杂谈菁英会
2013年度最佳IT原创自媒体
2014年度最佳新媒体人
2014年度最受企业关注自媒体
国资委微公益行动联合发起人
| 新科技 | 睿思想 |
已入驻百度百家、腾讯新闻、搜狐新闻、今日头条、网易阅读
犀牛财经自媒体联盟(xinews)成员
欢迎争鸣 谢绝软文
转载授权、商务合作,联系微信号:sophie0306