其他

Gilad Maayan 2018-05-23

作者:Gilad David Maayan

翻译:Nicola

校对:丁楠雅

本文约1600字,建议阅读4分钟。

本文分别介绍了传统数据仓库和云数据仓库,简洁明了地指出两者的区别和利弊,以及对数据仓库未来发展方向做出预测。

 


数据仓库是从操作系统外部数据源派生的集成历史数据的中央存储库。作为商业智能的核心部分,数据仓库使企业能够进行广泛的商业决策,包括产品定价,业务扩展和对新生产的投资模式。


除了协助分析和报告之外,数据仓库还为企业提供以下用途:


  • 保持数据分析独立于生产系统。由于企业每天使用的运营数据库不具备运行复杂的分析查询能力。这样的数据仓库可以使企业在运行此类查询的时候不影响生产系统。

  • 为不同的数据源提供统一性。

  • 针对分析查询的最优化设计。


云计算的出现在过去五年中显著影响了数据仓库架构,导致数据仓库服务(DWaaS)大受欢迎。 在本文的其余部分中,你将了解到传统数据仓库和基于云的数据仓库之间的区别。


传统数据仓库


传统的数据仓库需要本地IT资源,例如服务器和软件来传递数据仓库功能。企业运行自己的本地数据仓库时,还必须有效地管理基础架构。


传统数据仓库分为以下三层结构:


  • 底层:包含数据仓库服务器,将来自多个不同源的数据集成到一个存储库中。

  • 中间层:包含OLAP服务器,这些服务器使数据更加支持其上的一些查询。

  • 顶层:存储用于查询、报告和分析的前端BI工具。


为了将数据集成在统一存储库中,ETL(提取,转换和加载)工具是一个典型的从各种来源获取数据的工具,将其混合并应用于商务规则以将其转换为查询的正确结构,并最终把数据加载进入数据仓库。


传统数据仓库设计的两种对比方式反映了两位计算机科学先驱Bill Inmon和Ralph Kimball的不同观点:


  • Bill Inmon的自上而下的方法认为,数据仓库是所有企业数据的集中存储库。维度数据集市由数据仓库创建而来,服务于特定业务线(例如财务)。

  • Ralph Kimball的自下而上的方法认为,数据仓库是由不同数据集市组合而成的。


云数据仓库


基于云计算的数据仓库方法运用公开的云提供商提供的数据仓库服务,例如Amazon Redshift或Google BigQuery。


通过提供互联网接入的数据仓库功能,公共云提供商可帮助公司避开构建传统本地数据仓库所需的初始设置成本。此外,云中的这些企业数据仓库是完全托管的,因此服务提供商管理并承担提供所需数据仓库功能的责任,例如系统补丁和更新。



云架构与传统的数据仓库方法有所不同。例如,在Redshift中,该服务通过要求您提供一个基于云的计算节点集群来运行,其中一些计算节点编制检索,而另一些执行这些检索。Google提供无服务器服务,这意味着Google会动态地管理机器资源的分配,并将这些决策从用户中抽离出来。


比较


云数据仓库的优化级别难以与本地部署的有限功率相匹配。列式存储(表个中的值按列而不是按行存储)可以根据需要运行的查询类型来满足更快的聚合查询。大规模并行处理也是一个重要的特性,通过使用多台机器协调大型数据集的查询处理,可显著提高速度。


就云数据仓库的扩展性而言,和从云提供商那里获取更多资源一样简单。然而,本地部署的可扩展性非常耗时且成本很高,因此需要购买更多硬件。


云计算中的安全性是一个棘手的问题,因为互联网上的数据传输太字节(terabytes)会带来严重的安全问题考虑,而且敏感数据也可能引起一些合规性问题。本地部署就避免了这样的担忧,因为企业控制着一切。


总结


云数据仓库的准入门槛低,有助于中小企业更容易访问数据仓库。此外,即使是最大型的企业也可以从较低的成本中受益,例如基础架构的持续管理和轻松的可扩展性。


云数据仓库不是没有问题,比如潜在的安全问题,然而,益处大于弊端。传统的本地部署并没有完全被淘汰,但随着数据量和速度不断增长,而且云服务能更专业化地处理这些问题。随着越来越多的工作负载迁移到云中,越来越多的公司作为服务提供商进入市场,数据仓库的未来似乎在云中。


有关数据仓库基础知识的更多信息,请查看此数据仓库指南


https://panoply.io/data-warehouse-guide/


原文标题:The Difference Between a Traditional Data Warehouse and a Cloud Data Warehouse

原文链接:http://www.dataversity.net/difference-traditional-data-warehouse-cloud-data-warehouse/


译者简介


陈之炎,北京交通大学通信与控制工程专业毕业,获得工学硕士学位,历任长城计算机软件与系统公司工程师,大唐微电子公司工程师,现任北京吾译超群科技有限公司技术支持。目前从事智能化翻译教学系统的运营和维护,在人工智能深度学习和自然语言处理(NLP)方面积累有一定的经验。业余时间喜爱翻译创作,翻译作品主要有:IEC-ISO 7816、伊拉克石油工程项目、新财税主义宣言等等,其中中译英作品“新财税主义宣言”在GLOBAL TIMES正式发表。能够利用业余时间加入到THU 数据派平台的翻译志愿者小组,希望能和大家一起交流分享,共同进步

翻译组招募信息

工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。


点击文末“阅读原文”加入数据派团队~

点击“阅读原文”拥抱组织


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存