查看原文
其他

为不擅长编程的人准备的19个数据科学工具

2016-06-06 数盟社区 大数据


本文转载自数盟社区,公众号ID:DataScientistUnion,原文网址:http://www.analyticsvidhya.com/blog/2016/05/19-data-science-tools-for-people-dont-understand-coding/


简介


编程是数据科学的重要组成部分。在所有方面中,一般认为一个理解编程逻辑、循环、功能的大脑更有可能成为一个成功的数据科学家。那么,一个从来没有在学校或学院里学过编程项目的人呢?


难道注定他们在数据科学中的职业生涯是不成功的?


我敢肯定有无数个想要进入数据科学领域的人,编码却不是非常好。事实上,在我参加第一份工作之前,也曾经是像你们一样的非编程联盟的成员。所以,我十分理解一个你从来没有了解过的东西现在时时刻刻困扰你,这种感觉是多么的可怕。


好消息是,我发现了一个解决办法。而且,我已经找到了可以点燃你的食欲的19种不需要做编码的方式来学习数据科学。这些工具通常避免出现编程,并提供易于操作理解的GUI(图形用户界面),从而使懂很少算法知识的人,也可以轻松的使用它们来构建预测模型。


许多公司(特别是初创公司)近日纷纷推出GUI数据科学驱动工具。我已经涵盖了大部分在当今行业中可用的工具。另外,我增加了一些视频,以增强你的学习体验。


注:提供的所有信息均来自公开来源信息资料。我们只是提出一些事实,而不是意见。我们绝不会意图推动或宣传任何产品及服务。本文视频均为YouTube链接,请使用科学上网方法观看。


工具列表


1.RapidMiner


https://youtu.be/ma14K56fNAM


RapidMiner(RM)在2006年最初是以一个名为Rapid-I的开放源代码的单机版软件开始的。几年过后,他们已经给它取了RapidMiner这个名字,也取得了3500万美元的融资。该工具对旧版本(V6以下)开源,但最新版本已经推出了14天的试用期,并获得了许可证。


RM覆盖了预测建模的整个生命周期,包括从开始的建模数据准备,到最后的验证和部署。该GUI是基于一个框图的方式,非常类似于Matlab Simulink。其中还有一个预定义块作为即插即用设备模式。你只需将它们以正确的方式连接在一起,各种算法就不需要任何代码可以自动运行。在此之上,它们允许定制R和Python脚本集成到系统中。


目前提供的产品包括以下内容:

  • RapidMiner工作室:一个可以用于数据准备、可视化和统计建模的单机软件


  • RapidMiner服务器:一个包括中央库在内的企业级环境,支持简单的团队合作、项目管理和模型部署


  • RapidMiner Radoop:以Hadoop为中心执行大数据分析能力


  • RapidMiner云:基于云的存储库,可以支持各种设备之间轻松的共享信息


  • RM目前已应用于各个行业,包括汽车、银行、保险、生命科学、制造业、石油和天然气、零售、电信和公用事业。


2.DataRobot

https://youtu.be/wZCNKDX1q4o


DataRobot(DR)是由包括JeremyAchin, Thoman DeGodoy 和Owen Zhang在内的Kagglers建立的一个高度自动化的机器学习平台。该平台声称已经不再需要数据科学家。可以从他们网站上的一句话显而易见的看出这一点——“数据科学需要数学和统计资质,需要编程技巧和商业知识。有了DataRobot,您只需要带来商业知识和数据,我们的尖端自动化会负责余下的所有事情。”


DR宣称其具有以下优势:

  • 模型优化

    平台采用文本挖掘、变量类型检测、编码、归集、缩放、转换等方式自动检测最好的数据预处理和特色模型。

    超参数根据错误度量和验证集分数进行自动选择。

  • 并行处理

    计算功能根据成千上万的多核服务器进行划分。

    采用分布式算法扩展到大型数据集。

  • 部署

    只需点击几下就可轻松部署设备(无需编写任何新的代码)。

  • 软件工程师

    Python SDK和API可以快速集成模型生成工具和软件。

    拥有60万美元的融资和100余人的员工队伍,DR的未来看起来一片光明。


3. BigML

https://youtu.be/JVM8qIn3xPQ


BigML是另一个融资较强的平台。它提供了一个很好的GUI,需要用户通过以下6个步骤来进行:

  • 资料来源:利用各种信息源

  • 数据集:使用给定的资源创建数据集

  • 型号:制作预测模型

  • 预测:基于模型生成预测

  • 集合:创建各种型号的集合

  • 评价:对抗验证集的典范

这些过程将在不同的命令中明显递进。该BigML平台对结果提供很好的可视化,并有解决分类、回归、聚类、异常检测和结社发现问题的算法。你可以感觉到他们的接口是如何使用YouTube频道进行工作的。


4.Google Cloud Prediction API

https://youtu.be/u39rCNFWDEA


谷歌云PredictionAPI为Android应用程序构建的机器学习模型提供了RESTful APIs。该平台是专门应用于Android操作系统移动应用程序的。使用案例包括:

  • 推荐引擎:根据用户的历史观看习惯,预测用户可能喜欢的其他电影或产品。

  • 跨度检测:将电子邮件分类为垃圾邮件或非垃圾邮件。

  • 情感分析:分析发表的关于产品的意见,以确定他们是持有正面还是负面的态度。

  • 采购预测:根据用户的消费历史,预测他可能会在一天中花多少钱。


虽然API可以在任何系统中使用,但也构建了有更好的性能和安全性的特别的谷歌API用户库。它们支持各种编程语言,例如Python、Go、Java、JavaScript、NodeJS、Obj-C、PHP和Ruby。


5.Paxata


https://youtu.be/bxxsCLmXmms


Paxata是少数专注于数据清理和准备,而不是机器学习或统计建模的机构之一。这是一个类似MS Excel的应用程序,易于使用,具有视觉引导功能,可以更加便捷的汇集数据,发现和修混乱或丢失的数据,以及共享和再利用跨团队的数据项目。就像人们所说的,Paxata消除编码或脚本,以克服处理数据过程中的技术壁垒。


Paxata平台遵循以下过程:

  • 添加数据:使用广泛的资源来采集数据


  • 探索:使用强大的视觉效果进行数据探索,使用户可以轻松地识别数据差距


  • 清洁+更改:使用NLP、重复检测等方法,通过对一般值进行标准化归集进行数据清理


  • 形状:在数据上建立支点,进行分组和汇总


  • 分享+治理:允许建立在强大的验证和授权上的共享和跨团队合作


  • 组合:一个叫SmartFusion的专有技术,只需要1次点击就可以完成数据框架组合,因为它会自动检测可能出现的最佳组合;多个数据集可以被组合成一个单一的AnswerSet


  • BI工具:支持在常用的BI工具的终端AnswerSet实现简单的可视化;也可以在数据预处理和可视化之间实现简易的转化


随着新一轮25万美元的融资,Praxata已经涉足进金融服务、消费品和网络域领域。如果你的工作需要大量的进行数据清洗,它可能对你来说是个好工具。


6. Trifacta


Trifacta是另一个集中于数据准备领域的工具。它有2个产品系列:

  • Wrangler - 一个免费的单机软件

  • Wrangler Enterprise -专业版


Trifacta提供了一个进行数据清洗非常直观的图形用户界面。它需要输入数据,然后提供一个基于列的统计摘要。此外,对于每列它会自动推荐一些可以通过单次点击来进行选择的转换。在数据上执行不同的转换时可以使用一些预先定义的函数,这些可以很轻松地在界面实现调用。


Trifacta平台进行数据准备的步骤如下:

  • 发现:包括观察数据和分布,对你所有的有一个快速的了解

  • 建构:这包括适当的分布数据的模型和变量类型并解决异常情况

  • 清洗:这一步骤包括归集、文字规范化等,这些都需要完备的数据模型

  • 富集:此步骤有助于提高分析的质量,可以通过从更多的数据源添加数据或对现有的数据执行一些有特色的任务来实现

  • 验证:此步骤是在数据上执行最终的检查

  • 输出:最后数据为了进一步使用进行输出


随着新一轮75万美元的融资,Trifacta目前已经应用于金融、生命科学和电信业领域中。


7.Narrative Science



Narrative Science具有一种独特的意义,它可以利用数据自动生成报告。它就像一个用数据讲故事的工具,采用先进的自然语言处理来创建报告。在某种程度上类似于一个咨询报告式的东西。

这个平台的特点包括:

  • 结合了具体的统计数据和组织过去的数据

  • 结合了特定领域的基准、导向和趋势

  • 它可以帮助产生针对特定受众的个性化报告


随着新一轮3,000万美元的融资,Narrative Science目前已经应用于金融、保险、政府和电子商务领域。它的客户包括美国世纪投资、PayScale、MasterCard、福布斯、Deloitte等。

已经讨论了这一领域的一些初创公司,接下来让我们讨论一些试图在数据科学的某些方面实现自动化的学术活动。它们都有成为成功企业的潜力。


8.MLBase


MLBase是加州大学伯克利分校由AMP实验室开发的一个开源项目。其核心思想是为把机器学习应用到大规模问题解决中提供一个简单的解决方案。


它有3个产品:

  • MLIB:它是作为Apache Spark的核心分布ML库。它最初被开发是作为MLBase项目的一部分,但现在Spark社区用于支持它运作。


  • MLI:它是一个特征提取和算法开发的API实验,引入了高层次的ML抽象编程。


  • ML优化:这一层的目的是将ML管道建设任务实现自动化。该优化解决了包括MLI和MLlib在内的特征提取和ML算法的搜索问题。


这项工作仍在积极发展,我们应该在不久的将来会看到它的发展。


9.WEKA


WEKA是一个用Java编写的数据挖掘软件,发展于新西兰怀卡托大学的机器学习组。它是一个基于GUI的工具,它对于数据科学的初学者是很不错的,另外它最好的地方是它是开放的源集。您可以使用由怀卡托大学提供的MOOC了解它。您也可以在这篇文章中了解关于它的更多信息。


虽然WEKA目前多在学术界中使用,但它可能是将来某些大事件

的垫脚石。


10.Automatic Statistician

Automatic Statistician本身并不是一个产品,但它是一个创建数据探索和分析工具的研究机构。它可以兼容各种数据,并使用自然语言处理,然后生成一个详细的报告。它是由曾经在剑桥和麻省理工学院工作,还获得了750,000美元的谷歌重点研究奖的研究人员开发。虽然它仍在开发中,也极少能够获得关于这个项目的信息,但它看起来是由谷歌支持的。你可以在这里找到一些信息。


更多工具


我们已经讨论了上述选定的10个例子,但还有很多像这样的工具。我将在这里简要地例举他们中的一些,如果这些不足以满足你的兴趣,你可以进一步进行探索:

  • MarketSwitch – 相对于预测分析,这个工具更侧重于优化。


  • algorithms.io - 此工具应用于IOT(物联网)领域,并对连接设备执行分析。


  • wise.io - 这个工具专注于客户的处理和客票系统的分析。


  • Predixion - 这是另一个从连接的设备上进行数据收集的工具。


  • Logical Glue - 另一个基于GUI的机器学习平台,从原始数据中部署工作。


  • Pure Predictive - 这个工具使用有专利的人工智能系统,它避免了数据准备和模型调整的部分;它采用人工智能将1000机型结合成他们所谓的“超级模型”。


  • DataRPM - 另一个使用GUI并且没有编码要求的预测模型制作工具。


  • ForecastThis - 另一个使用GUI侧重于机器学习的专有技术。


  • FeatureLab - 它支持使用GUI轻松的建模和部署预测模型。


  • 如果你是第一次听到这些名字,你会惊奇地发现有这么多的工具存在(就像我一样)。但好处是,现在他们没有造成混乱的影响。但真正的问题是这些技术会实现自己的目标吗?只有时间可以回答。



结语


在这篇文章中,我们已经讨论了朝着自动化解决各个方面的数据科学问题的各种举措。其中有些是在新生的研究阶段,有些进行了开源,而另外一些已经以百万计的资金应用在了行业中。所有这些构成了对数据科学家工作的潜在“威胁”,而这种威胁预计在不久的将来会继续增长。这些工具最适合于厌恶编程和编码的人。


近期精彩活动(直接点击查看):

福利 · 阅读 | 免费申请读大数据新书 第8期 



END


大数据

为大家提供与大数据相关的最新技术和资讯。


长按指纹 > 识别图中二维码 > 添加关注


近期精彩文章(直接点击查看):

160523 凯文·凯利:大数据时代没有旁观者

160519 史上最全的大数据分析和制作工具

160515 深解读:什么是数据科学?如何把数据变成产品? 

160511 一篇文看懂Hadoop:风雨十年,未来何去何从

160510 全球20个最佳大数据可视化工具,高级PPTers的法宝

160508 揭秘47万微信群和2亿微信用户背后的数字规律

160503 一篇对大数据深度思考的文章,让你认识并读懂大数据

160428 2016年,文本分析、情感分析和社交分析的10大趋势

160423 10年内,这三大领域将被人工智能和大数据重塑

160412 爬取QQ空间3000万用户,玩玩大数据分析 

160331 华为内部狂转好文,有关大数据,看这一篇就够了!

160303 大数据的误区:数据统计≠大数据

160106 用户画像全解析 | 都在说用户画像,你真的了解透了吗?

160102 自拍有风险!大数据在用什么姿势“出卖”你?

151219 2016年大数据发展七大趋势

151109 大数据告诉你,电商会把假货发给谁?

151007 十张图看懂未来的大数据世界

150928 大数据研究常用软件工具与应用场景

150812 中国互联网公司最新最全阵亡名单,涉及16个领域千余企业!附死因和反思!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存