钱塘干货 | 数据收集和处理工具一览 | 自由微信

查看原文

其他

钱塘干货 | 数据收集和处理工具一览

2016-07-14 钱塘大数据

点击音乐舒心阅读

〈

2016年7月14日

星期四

〉

钱塘大数据

激活工业数据资产

完善工业发展生态

进入大数据时代，调查报道愈加成为信息战。从哪里收集有效数据？如何抽取、筛选、整合、分类大量琐碎的信息？如何分享、存储数据，并实现随取随用？钱塘君整理了一张数据收集和处理工具清单，分为八大类，方便实用，各有所长，供大家选择。

1.全文本搜索和挖掘的搜索引擎：

包括：搜索方法、技术：全文本搜索，信息检索，桌面搜索，企业搜索和分面搜索

开源搜索工具：

Open Semantic Search：专门用于搜索自己文件的搜索引擎，同样的还有Open Semantic Desktop Search:可用于搜索单一一台笔记本电脑或单一用户的文件资源。

InvestigateIX: 用于搜索加密外部设备
Recoll: 适用于Linux系统的桌面搜索引擎
Fuzzy search with lists：清单搜索、模糊搜索

搜素数据库和API

如果你想编程，你可以试用以下强大的搜索引擎：Solr和Elastic Search，支持索引和API搜索，更多全文搜索、实时检索、数据分析、多格式数据读取（JSON, SML, CSV或HTTP）等强大功能等你开发。

2.数据库、数字文档、数据管理系统、文件管理系统和内容管理系统：

还在为不同格式的脚注、尾注、文中引用和文献参考大费脑筋吗？资源整理神器Zotero的标注和引用功能帮你解决难题。它可以在Word，Open Office添加引用，在Google doc和电子邮件中插入文献参考，或者为数据库添加标记。

LibreOffice Calc:开源表格程序
Document cloud:文档管理系统，管理纸质文件扫描版本或者PDF 格式文件
Semantic MediaWiki: MediaWiki(著名开源引擎，可用于构建企业/个人知识库，维基百科就是使用MediaWiki的成功范例)的免费开源扩展，可供用户存储、调用数据
Drupal CMS:内容管理模块，可以让你快速便捷地以用户界面创制自己的内容格式、数据字段和表格

想从大量文件中单独抽取金额来分析？专业的文件管理系统Agorum可以自动从账单抽取金钱数额，帮你轻松解决。

想标记图片中的文字？Pundit帮你办到，它同时支持文本和图片标记。
想在网站加注释？Annotator.js帮你在任何网页加注释，而且可以添加评论、标签、链接、用户或者更多不同种类的信息，第三方插件还能帮你在难以搞定的PDF、EPUB、视频、图片、声音甚至更多格式的文件上添加标注。

标注了信息，想收到更新提醒？Hypothesis可供用户订阅一系列已标注的活动信息，而且能按照自己的兴趣获取通知，而且还能分享评注、链接词典。程序员还可以获取有限的网站许可，通过第三方应用创建、更新、删除、搜索注释。

3. 文本文件挖掘、分析

Text mining tutorial: How to analyze large document collections：文本挖掘教程：如何分析大容量文件集（使用Open Semantic Search来挖掘文本）
Understanding language data: 理解语言数据：可以使用开源NLP（自然语言处理）软件

统计词频有困难？Overview project可以显示文本最常用的词和它们的词群分布
想以图解的方式查看文本检索结果？文本搜索工具Jigsaw:（非开源软件，但可免费下载）可统计文本中最重要的人物、地点、组织等实体的出现频率，并将他们之间的关系以列表、图表、时间表和关系图的形式呈现出来，提高文本分析效率。

如果你觉得不够，我们还推荐：

Wikipedia list of open source text mining software：维基百科上整合的开源文本挖掘软件列表
Tapor: 研究专用的文本分析门户，提供大量文本分析工具，你可以按照类型或标记找到最适合的一款。

4. 图表和关系网络分析（SNA）

帮助分析关联并将其可视化的工具：

关系网分析教程：教你如何用Open Semantic Search可视化关联
Gephi：桌面工具，协助数据分析，可将图表和关系网可视化，可最多包含5万个关系点，用户可自主筛选呈现的点。
Cytoscape.js: Javascript数据库，能将关系网、事物分属和图表可视化
Semantic Mediawiki:上面介绍过，不仅是数据库，也是适用于关联数据、非常灵活的内容管理系统
Detective: 以Python/Django和neo4j图像数据库为基础的内容管理系统，适用于分析关系。

5. 抽取、转换数据

包括数据整合、抽取、转换、转移、ETL（数据提取、转换和加载）网络爬虫采集等等

从文件抽取结构化数据：

Tika content analysis toolkit: 从文档和文件抽取文本和元数据
CSV Manager:将csv表格输入Solr为基础的搜索引擎
想从PDF文件抽取数据、转化为可编辑的文本？免费软件Tabula可以直接从PDF文件抽取数据表格，神奇吧？
图片识别和文本扫描：光学字符识别（OCR）

从图片识别文本（OCR）

Tesseract: 光学识别软件，从图片识别文本

低质量扫描没法看？Scantailor帮你分页、矫正文本、添加/删除页边，可以将原始文本传换成PDF或者DJVU格式的文件，便于打印。

从声音识别、抽取文本：

CMU Sphinx: 开源声音识别工具，支持英语、法语、中文、德语、荷兰语、俄语。该开发商还提供关键词识别和读音识别等实用工具，可以多多关注。

从网站抽取数据（网络信息采集/网络爬虫）

网络采集哪家强？简易 Scrapy帮你忙：你可以依托Scrapy建立自己的网络爬虫工具，编写Python代码，在Windows,Mac,Linux和BSD系统上都可运行。

6. 输入、修改、转换数据

将数据转换成纯文本的超强工具： Tika content analysis toolkit
将数据转换成其他格式的工具：Talend Open Studio和Kettle

编写文件和删除元数据

记者为了保护信息，往往需要编写文件、清除敏感文件、删除隐藏在文件或图片里的元数据，例如软件的序列号或软件、用户名，以下工具可供参考：

PDF Redact Tools: 以最安全的方式删除PDF中的元数据
MAT: Metadata Anonymisation Toolkit:从不同的文件格式和图片格式中删除元数据

7. 统计与分析

包括数据分析、统计、图表、数据可视化

开源表格程序LibreOffice Calc
上面介绍过的HUE Solr search和Kibana for Elastic Search，除了能检索数据库和API，也能完成数据分析

适用于数据分析和计量经济分析的专业电脑程序：Statistical software
统计和分析的工具大全：Business Intelligence
用R 、 Python或其他编程语言编程分析数据

以上数据分析太复杂？刚入门，想理解数据分析原理？推荐阅读解释数据挖掘方法的书Mining of massive datasets

8. 通用开源软件工具包

最强大的通用开源工具包，例如 Debian GNU/Linux或Ubuntu Linux，涵盖了成千上万个免费软件和开源工具、软件数据库和编程语言。

运行时，用户无需移除现有的操作系统：安装适用于Windows和Mac的Virtual Box，你就可以在现有操作环境下的单独的窗口运行上述Linux软件。

欢迎大家点击左下角“阅读原文”进入钱塘社区

进行互动讨论

官网：www.qtbigdata.com 合作：hz@qtbigdata.com
激活工业数据资产完善工业发展生态

社区入口

官网：www.qtbigdata.com 合作：hz@qtbigdata.com
激活工业数据资产完善工业发展生态

参与社区发帖讨论，

我们会不（shen）定（jing）期（zhi）

推出一系列有奖互动。

首期奖品：《工业大数据》

作者：（美）李杰（Jay Lee）

出版时间：2015年7月

关注我们，活动参与详情近期告知。

本次活动最终解释权归钱塘数据所有

相关阅读：
1、光有热情不够，不是所有的中国制造业都能工业4.0
2、探讨工业制造智能化的技术本源和经济前景
3、全国首家工业大数据交易和应用平台正式上线【视频】
4、钱塘数据——核心功能/业务模式/业务范围……
5、最有BIG的招聘——不知道为什么，我就是想找到你
6、《老人身边的智能》科技原来如此“亲情”
7、【钱塘一周说】社科院调查：四成人讨厌“大数据”
8、【钱塘旁瞻】 | 得大数据者得新工业革命先机
9、探讨工业制造智能化的技术本源和经济前景
10、钱塘解析 | 2015年全国电力工业统计数报告【图表】
11、钱塘弄潮 | 迪特·拉姆斯（Dieter Rams）工业设计史上绝对绕不开的名字

常德悲剧：让谴责无差别杀戮之声更加响亮一点

魏加宁：日本之所以能走出“大衰退”，靠的是不断改革，而不是所谓“积极的财政政策”

泪目！8死17伤！江苏一职校持刀伤人案，背后隐情令人心惊！

突发！宜兴一学校发生持刀伤人案件！致8死17伤！太恶劣了！

一小学门口突发！多名学生被撞伤！