查看原文
其他

【CIO早班车】大数据的关键技术和实例

2017-08-08 科技你好

本期主讲嘉宾


王积杰

IBM 大中华区大数据集成与治理总经理



王积杰是 IBM 大中华区大数据集成与治理总经理,在电信、金融、制造行业等领域,对大数据、数据的集成与治理和BI商业智能方面有深刻的理解和丰富的实战经验,精通于大数据集成与治理技术,包括数据的集成,数据质量的提升,实时数据同步,主数据管理,数据生命周期管理,数据的隐私保护等等。


暂停几分钟,工作更轻松。


上周,我们谈了一下大数据的应用,很多朋友都表示对这个话题非常感兴趣。因此,今天,我们和各位CIO朋友们一起来更深入一步,聊一下“大数据”的关键技术。

 

在我们过去传统的数据仓库环境里,有一个ETL的关键技术,把数据从各个系统抽取上来,并做清洗,然后加载到数据仓库的过程。那么现在我们已经发展到了大数据时代,有很多开源的技术,支持技术人员把把ETL在Hadoop上手工写代码来完成。我们是否还需要ETL的平台来完成这个动作?回答这个问题,我们要回到最初ETL 产品的诞生谈起。在上的世纪九十年代末,很多ETL的技术就诞生了,例如IBM的DataStage等等。他们诞生的原因,不是因为手工开发干不了ETL的活,而是因为,手工开发来完成ETL 会带来很多问题,从而使ETL的成本大大增加,而且不可控。首先,IT界的人员流动是很频繁的,很多ETL的开发人员,写了一大推的代码,然后跳槽离开了。当数据集成的场景发生变化,需要修改ETL部分时,管理人员就会发现,需要新的人员来看懂其他人写得代码,并进行修改是非常困难的,往往耗时且费力。这时候,他们就想,如果有一个图形化的工具平台,让所有的人都能从图形化的ETL流程中一目了然的了解ETL的开发,并能十分方便的修改维护,那该多好啊!ETL平台由此而诞生了。大家发现,利用像IBM DataStage这样的ETL平台, 不仅开发方便,易于学习,而且还易于调试,易于维护,大大提高的开发的生产效率,而且降低了后期维护的费用。作为ETL平台,DataStage与各种异构数据源的连接是他的强项,不仅有传统的各种数据库和文件系统,还包括最新的大数据平台Hadoop和Spark等。所以说,在当今的大数据时代,ETL平台存在的原因并没有消失。如果在hadoop平台上,靠写代码来完成数据集成的工作,一样会难以维护,一样会成本很高。因此,我们可以说,大数据时代,对ETL的需求不是少了,而是更多了。所以在大数据的时代,还是需要有一个ETL的平台,才能更好地做到数据的收集,清洗和加载,同时保障了高可维护性和更优化的总体拥有成本。

 

在一个企业中,原来数据集成平台是用于各种数据源和数据仓库或数据集市之间的数据集成,到了大数据时代,企业中又增加了hadoop的平台。对于企业的数据集成场景来说,不是变简单了,而是更复杂了,有更多种的数据源,和应用场景。数据集成平台,实际上是成为了一个企业数据交换的中枢,没有这样一个企业级的数据交换平台,企业数据间的各种交换和数据流将更难以掌控。数据集成平台,要完成的工作,不仅是数据的抽取,清洗,转换和加载,更重要的是数据的治理。通过数据集成平台内置的元数据管理,也就是Metadata management, 可以精确的掌控,每一个数据从哪里来,到哪里去,做了那些转换和清洗,使企业数据治理有了基础。可以说,到了大数据时代,企业对数据治理的需求是越来越强烈了,因此,一个功能完善的强大可靠的数据集成平台将会在企业IT的架构里,承担越来越重要的角色。了解到这一点,我相信那些还在疑惑,大数据时代究竟需不需要数据集成平台的人,应该可以有自己的答案了。我们有一个客户,是一家国际知名的汽车品牌,也是中国最大的汽车生产商之一,使用了DataStage做为企业数据集成平台很多年,也实现了企业数据治理及元数据管理的架构,目前,他们也跨入了大数据时代,建立了基于Hadoop的大数据平台,他们继续运用DataStage实现传统数据源和大数据平台的集成,获得了很好的效果。

 

一个优质的ETL平台,不仅能帮助CIO朋友们在大数据时代完成传统的数据抽取,清洗,转换和加载的工作,这样的关键技术平台,还能够帮助CIO们更有效地治理大数据,更好地把传统数据源和大数据平台整合起来。


如果您希望了解更多的技术细节,请点击“阅读原文”提交您的联系方式,我们的CIO客户专员为您提供相关资料。也欢迎您和我们联系,我们的CIO专线是400-810-1818 转5086分机。  

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存