Google 开源云端大数据处理平台 Cloud Dataflow
谷歌Cloud Dataflow力求成为一个Apache孵化器(Apache Incubator)项目,此举有助于为集成商确保这个开源数据分析平台的开放性和可用性。
谷歌将Cloud Dataflow捐献给Apache软件基金会,以此开放更多源代码。此举对谷歌来说可谓开了先河,为大数据公司提供了新的基于云的数据分析方案和集成机会。
Cloud Dataflow是一种用来处理云端大量数据的平台。它拥有一种基于Java的开源SDK(软件开发工具包),这样一来,就很容易与其他以云为中心的分析和大数据工具实现集成。
该平台对大数据业务来说主要的价值在于,提供了与新出现的技术保持兼容的优点,同时仍可以整合到现有工作流程中。这样一来,每当出现一种新的数据处理框架,企业组织就没必要重新改动其分析基础设施或代码。
虽然Dataflow SDK在一年多前就已开源,但谷歌在这周迈出了更大的一步:提议将这个平台变成Apache孵化器项目。此举为Dataflow的代码库最终成为Apache软件基金会旗下一个完备的项目铺平了道路。
谷歌与Cloudera、data Artisans、Talend、Cask和PayPal共同提出了这个提议;这项提议如果获得批准(可能性应该很大),就更容易以一种开源、与厂商中立的方式,将Dataflow在可扩展性和集成方面的功能做入到商业大数据平台中。
比如说,Talend就这么说:“充分利用Dataflow框架的开发人员不会被某一种特定的数据处理运行时环境‘锁定’,能够充分利用新出现的数据处理框架,没必要重写其Dataflow流水线,因而可以适应未来的需要。”
对渠道而言,谷歌的提议意味着,云和大数据势必会更相辅相成地一同发展,这会让开源大数据公司更容易确保未来的数据分析解决方案具有开放性。
云头条编译|未经授权谢绝转载
相关阅读:
大数据群欢迎加入,群主微信:aclood