开源分析方法 | 专利分析工具(上)【中国科讯】
本文梳理了可用于专利分析的开源免费软件工具,目的在于让大家对这些工具有初步了解,对于其中一些工具的具体用法,会在以后的文章中详细介绍。
本文所提到的这些工具也并非全部,仅仅是现有的开源工具中的一部分而已。随着数据挖掘和可视化技术的飞速发展,数据挖掘和可视化的工具也是越来越多,在给我们带来便利的同时也让我们再次面临选择困难。所以我们得首先知道这些工具的特性和功能,以及学习使用这些工具的难易程度。这其中,R和Python推荐大家使用和学习的,这两种工具虽然需要编程,但是在网上有很多免费的学习资源,当你学习这两种工具遇到困难时,可以在网上求助大神。
本文的工具介绍主要分成八个部分:
通用工具(General Tools)
数据清洗工具(Cleaning Tools)
数据挖掘(Data Mining)
数据可视化(Data Visualisation)
网络数据可视化(Network Visualisation)
信息可视化(Infographics)
地理数据可视化(Geographic Mapping)
文本挖掘(Text Mining)
有些工具能够实现多种功能,因此可能会在某些部分中重复出现。
1.通用工具(General Tools)
有很多免费工具都可以实现多种功能,比如专利数据的数据清洗和数据可视化。在此我们推荐三种免费工具:
1.1 Open Office
Apache OpenOffice是一款先进的开源办公软件套件,它包含文本文档、电子表格、演示文稿、绘图、数据库等。做专利分析可以使用Open Office的套件之一Calc,其功能与Excel差不多,可以作为Excel的免费替代品。
TIPS:当使用Open Office Calc并对文件存档时,要存成CSV格式,因为其默认存档存成的.odt格式文件很多其他程序都读取不了。
1.2 Google Sheets
Google Sheets的表格可以在网上与他人分享,而且有很多的免费插件可以用于协助数据清洗。但使用Google Sheets的麻烦之处在于你需要首先注册,而且在国内使用的话需要翻墙,网速也会比较慢。
1.3 Google Fusion Tables
Google Fusion Tables和Google Sheets的功能差不多,但是其能够处理上百万的数据。Google Fusion Tables中有一个叫做“卡(Cards)”的功能,该功能可以将每一条数据作为整体来看,也可以很容易的做数据筛选。使用“卡(Cards)功能”,相比原始数据格式,可以更方便地对数据进行处理。
Google Fusion Tables的另一强大功能是,它尝试使用地理数据来绘制Google地图,下图就是用Google Fusion Tables绘制的某一项专利在全球范围内的公开情况。
2.数据清洗工具(Cleaning Tools)
数据分析和数据可视化最基本的原则就是:垃圾进去=垃圾出来。如果你的数据在分析之前就没有经过数据处理,那么分析结果或是可视化结果很有可能就成了垃圾。。。
2.1 Open Refine (Google Refine)
Open Refine以前也被称为Google Refine,是用于清理专利数据的免费工具,特别是可用于清理申请人和发明人名称。
目前有很多工具和平台都提供数据清洗的功能,在Open Office和Excel中也可以实现基本的数据清洗。但是Open Refine是用于快速清洗专利名称字段的好工具。特别是,它可以对上千个专利申请人和发明人名称进行分列和清洗。
Open Refine的具体用法将会在以后的文章中详细介绍。
3. 数据挖掘(Data Mining)
随着大数据的不断发展,越来越多的数据挖掘工具涌现出来。以下将介绍一些我们比较关注的数据挖掘工具。
3.1 RStudio
一个利用R语言进行数据分析和数据可视化的强大工具。虽说听到要编程有会觉得学习R困难重重,但其实网上有很多可供学习的资源。
首先去网上下载一个Rstuido,然后去网易云课堂找门课程学一学吧。
3.2 RapidMiner Studio
RapidMiner Studio社区版和基础版免费开源,能连接开源数据库,商业版需要付费,但能连接几乎所有数据源,功能更强大。RapidMiner Studio主要涉及机器学习、数据挖掘、文本挖掘和分析。而且都是拖拽操作,无需编程。
3.3 KNIME
一个数据挖掘的开放平台。
4.数据可视化(Data Visualisation)
做数据可视化首先要记住的是:数据可视化的主要目的是与读者沟通。这就涉及到如何沟通以及采用什么方式来实现有效的沟通。在很多情况下,专利分析的成果是一份word报告或是PPT演示文稿。所以在做可视化之前,最重要的是我们要领会视觉化思考的理念。
现有技术中已经有很多数据可视化的工具,并且越来越多的新工具也不断涌现。因此,在选择数据可视化工具之前,你需要了解你的需求,要做什么样的图表,分析什么样的数据,得到什么样的结果。然后也要了解自己的水平,是否具有编程基础,或者有没有时间来学习这些工具。如果已经有了javascript, Java, R或Python的基础,那么选择一种你用起来顺手的工具就行了。但是如果你对于数据可视化仅仅是刚刚入门且编程小白,那么Tableau Public及其类似的工具则会更适合你。
4.1 Tableau Public
当你的专利数据已经经过清洗之后,Tableau Public可以将你的专利数据制作成交互式的仪表板和地图,并且还可以连接其他数据源。
以下链接可以看到上图的交互模式:
https://public.tableau.com/profile/wipo.open.source.patent.analytics.manual#!/vizhome/pizzapatents/Overview
4.2 R and RStudio
R是一种统计编程语言,可用于处理各种不同类型的数据。R也具有强大的可视化功能。WIPO的很多开源专利分析的可视化都是利用R来做的。Rstudio和其爱好者们还开发了很多用于数据可视化的软件包,比如ggplot2、ggvis、ggmap、googleVis。
Shiny
Shiny是R中的一种Web开发框架,使得R的使用者不必太了解css、js只需要了解一些html的知识就可以快速完成web开发。也就是说,Shiny可以帮助我们在不需要前端知识的条件下将数据分析转变为可交互的Web应用。感兴趣的同学可以去看看Shiny的Gallery(链接:http://shiny.rstudio.com/gallery/),看看使用Shiny做出来的交互作品是什么样的。
4.3 IBM ManyEyes
这个工具不需要编程基础,使用比较方便。首先进行免费的用户注册,然后从Manyeyes提供的多种图表形式中选择一种形式,上传数据,形成图表,上传发布共享之。
4.4 其他可视化工具
Tulip
基于C++的可视化工具,可以提供3D可视化、3D建模等功能。
SigmaJS
是一个开源的轻量级JS库,用来绘制各种图形,使用的是HTML Canvas元素。
Timeline:
可用于创建交互式的时间轴图表,并且支持40种语言。
Miso Project:
能够用于创建交互式数据可视化的开源工具包。
Sci2
知识图谱分析软件。
Simile Widgets
一组开源的Web控件用于内容或数据的图形可视化查看。
jqPlot
基于jquery的开源图表插件。
dipity
用于制作时间轴图表。
小编还有话说:
看完上边这些介绍,小编觉得心塞塞,要一个个搞懂实在是很难。但是小编觉得,这些工具功能都很强大,其实只要了解这些工具的性能和我们的分析需求,选择一到两种工具好好地深入学习,对目前的我们来说就足够用咯。
今天就介绍到这里,明天继续~
文章来源:专利分析可视化
转载授权、合作、投稿事宜请联系linan@mail.las.ac.cn
近期热门文章推荐
↓↓↓点击标题即可查看
攻坚“十三五” 迎接十九大 中科院院长白春礼发表新春致辞【中国科讯】