为什么你应该采用零代码的数据预处理方式?
今日份知识你摄入了么?
有争议的是,数据预处理已经存在的像数据数字化那么久-以数据整合,ETL(抽取,传输,载入),数据质量检测,和精通数据管理的形式。有趣的是,数据自我预处理应用的出现与叙述古老价值与现代方法对立的复述同时发生。两者之间最大的不同如下:更老的工具是集中开发的和要求代码或者编程精通,然而现代工具提供零或者低程度的代码,伴随着视觉分数和点击体验,并且目标是商业用户。
80/20 数据预处理原则仍然是流行的
对于过去的20年,我们已经听到了80%的分析性努力是花在收集和准备数据,而仅仅20%是实际花在产生有用信息上。在更早的时候,大多数的分析目标是重复回答一些已知的问题就已经足够有挑战性了,今天的商业环境要求回答更多的问题并经常要求多个探索性的发现。科技的进步如数据科学、机械学习和人工智能项目增加了复杂度。如果你的生意在未来将变成数据驱动的,你能真的承担花费80%的努力在数据预处理重复在你的数据项目中吗?
现代数据预处理工具
现代数据处理工具像Paxata自动数据处理 在当前带来了两个重要的元素:
整合了以前分散的工具如:ETL,数据监测,和MDM(精通数据管理)到一个单一的工具集被一个广大的云端平台支持。
用户体验为目标,针对商业用户和分析师用视觉,像Excel的界面,允许用户去发现,规整,清洗,扩大,合并,和用鼠标点击的方式发布数据-不需要写代码。
但是我懂Python,R,Infomatica Power Center,SQL(命名你的技术)
当这些技术发展的非常强大并触手可及的时候,关键的问题是:什么是最好的使用这个技术的方式?如果Python是你想要运行你的数据科学模型,然后保持它来运行模型。但是,举个例子,你应该严肃地考虑编写一个“查找并替代” 在Python或者R中来标准化所有美国的州名到完整的州名(比如 California)而不是缩写版本(CA)。
询问IT不再是一个选项
第二,你真的想要你的数据到信息模型锁定在一个你的商业团队寻求IT要一个数据集的模型,IT部门使用他们的工具集并通过干预它的请求来开发这个模型给用户吗?这个方式把无法想象的负担放在了非常稀少的资源上(IT开发者和数据科学家)并且经常在想要的数据集产生前要求多个步骤。
使用零代码而不是传统的开发者代码集中环境的好处:
· 强化了商业用户,他们有数据的理解和内容,来准备数据本身。
· 带来外在的生产力收益对比代码模式的原始开发,重复使用,和程序维护。
· 合作的和新兴的数据监管,正如所有表现的数据有被清晰地审查的轨迹准确的记录着它在什么时间和地点被使用。
· 更好的IT生产力,正如他们现在能专注在更大生产数据管道而不是在发现请求上来回运行。
· 提高商业决策节奏,这能引导更好的商业结果。
结束语
我最近与一个产品营销的朋友聊天,他兴奋地告诉我花费大量时间在Python来从Marketo和Twitter上抽取数据,编写合并,移除重复,并在数据集中匹配顾客记录。我对于这个的问题是:这是最好的使用一名产品营销者时间的做法吗?
在最近的一个PAXATA网站,Forrester首席分析师,Noel Yuhanna,讲述了紧急情况和需要用一个大的数据纤维来现代化数据建造框架。Noel认定拥抱零代码数据预处理是其中关键的一步。
你的生意可能努力的向数据驱动靠近,但是如果你在你的数据湖中收集千兆兆的数据并通过一个众所周知的方式来接近它时,你将永远不会看到信息的速度并意识到它应该带给你的组织的相关的商业价值。
原文作者:DataRobot
翻译作者:Tony Yan Wang
美工编辑:过儿
校对审稿:Dongdong
原文链接:https://www.datarobot.com/blog/why-adopt-zero-code-data-prep-now/
往期精彩回顾
数据求职必学必会的11门基础课程(系列23)限时免费!从今天学起!
职场Guideline:13步分步解析一个 Data Science 项目从想法到实现的全过程
点击“阅读原文”查看数据应用学院核心课程