Transwarp Studio大数据工具集:灵活、高效和全面地提升大数据开发效率
内容提要
北京时间5月4日,在上海举行的“2017前沿科技论坛暨星环用户和合作伙伴大会”上,王宾作了主题为“Transwarp Studio大数据工具集:灵活、高效和全面地提升大数据开发效率”的演讲。因会后收到不少嘉宾反馈:对演讲内容非常非常感兴趣,演讲信息量很大,又无法同时参加多个会场,特在后期整理演讲速记稿以最大程度上弥补这个遗憾。
以下是PPT对应演讲速记:
数据源:首先是清晰地定义数据源,在生产环境中,我们可能面临多种数据源,比如传统的关系型数据库,Teradata,系统产生的日志文件,已有的Hadoop系统等等。
数据同步:在这些数据源中的数据格式相对原始和杂乱,不利于统一地来进行线分析和数据挖掘,我们需要一个数据同步工具,统一地将数据导入到数据湖和数据仓库中,因此我们开发了Transwarp Data Transportor,也就是Transporter工具。利用Transporter工具我们能够批量导入历史数据和准实时地同步增量数据。Transporter是基于Workflow工作流引擎,它支持多种任务类型,能够定义任务之间的依赖关系并具有丰富的调度功能。
数据存储:经过Transporter导入,将数据存储到数据仓库或者数据湖中。
数据管理:对于数据仓库中相对规整的数据,我们可以利用Transwarp Rubik来进行OLAP Cube的构建,定义数据的维度、度量并进行预计算以加速在线分析。而对于数据湖中的数据,它们来自不同的数据源,存在大量的数据转换和导入导出,对这些数据进行管理需要较高的成本,因此需要通过Transwarp Governor来进行元数据管理,能够查看数据之间的血缘关系和进行依赖分析。
数据展现:最后对于存储中的数据,业务人员可以使用Transwarp Pilot 来进行数据的拖拽式数据分析和报表展现,而数据库管理和开发人员可以使用Waterdrop工具来进行SQL脚本的编写和数据库的管理。
上面提到的工具集构成了我们的大数据工具集Transwarp Studio,下面我将就每个工具进行详细的介绍。
在工作流的基础之上,我们可以利用Transporter工具进行数据清洗、转换和导入任务的制定,将数据从不同的数据源导入到TDH平台上。Transporter主要具有以下几个特性,首先它支持多种数据源,比如传统的关系型数据库、系统产生的日志文件、Teradata和开源Hadoop等等,其次它具有可视化的任务编辑和监控功能,并且支持用户自定义数据的转换逻辑,具有较好的灵活性。此外,Transporter在数据导入的过程支持数据事务操作同步,保证了导入过程中数据的一致性。Transporter还具有数据过滤和清洗功能,能够与DataStage等数据同步工具对接,准实时地导入增量数据。
导入TDH平台的数据可能来自不同的数据源,并且用户可能会对这些数据进行多种转换、清洗过滤等操作。在某个生成环境中,数据转换的源表有几千张,中间表有几万张,结果表有几百张,如果结果表中有数据发生错误,将很难追踪数据转换中哪一步出错。因此我们需要有一个元数据管理工具,也就是Transwarp Governor。
而对于数据仓库中的多维数据,我们可以利用Transwarp Rubik工具来进行Cube建模和实例化以加速OLAP分析。首先我们来看下TDH OLAP的一个总体架构,数仓用户利用Rubik建立Cube模型,并通过预计算构建Cube实例,Cube实例可以存储为Holodesk或ORC格式。业务人员或者数据库开发人员通过Inceptor对原表进行查询时,Inceptor中的MBO模块会比对SQL与Cube构建SQL进行匹配,如果能够匹配上则直接从Cube实例中获取预计算得到的数据,并把结果返回给用户,Cube对于普通业务人员或者开发人员来说是透明的。
Rubik参考了CWM标准Cube模型,定义了以下几个概念,首先是数据立方体,用以表示多维数据,其次是维度,通常是业务中用以聚合分析的字段。维度又包含层次和级别两个概念,层次是由级别组成的,并且具有一定的顺序。比如时间维度,通常包含自然年和财年两个层次,自然年和财年层次又包含年、季度、月、日级别。另外一个概念是度量,是基于维度用于计算的数值字段的统称。Rubik支持星型模型和雪花模型两种Cube模型。
下面我们来看下Rubik的主要交互界面,首先是立方体设计页面,通过拖拽的方式即可完成维度的选择和事实表的选择,并定义之间的连接关系,再完成度量的添加和过滤条件的添加即可完成一个Cube的建模过程。
再通过Cube实例创建页面可以构建出Cube实例用于优化在线分析。
大会干货合集:
2、星环的划时代版本-Transwarp Data Hub 5.0
3、聚星*引航|“大数据2017:从科技挑战到商业成功”演讲[视频+PPT]
4、聚星*引航|“Slipstream: 实时的复杂流处理引擎”演讲速记(附PPT)
5、聚星*引航|“机器学习和深度学习框架Sophon”演讲速记(附PPT)
6、聚星*引航| "加速业务创新 浅谈TDH 5.0的关键技术"演讲速记(附PPT)
更多干货,敬请期待.....
回复关键字,获取更多资讯
简介 | 产品 | 技术 | 案例集 | 培训 | 白话大数据
评测 | 投资 | 新手上路 | Holodesk | TED视频
技术支持| 金融 | 电力 | 视频监控 | 运营商 |交通
税务 | 电商 | 智能金融 | 医疗 | 快递|TDH5.0