Transwarp Studio大数据工具集:灵活、高效和全面地提升大数据开发效率

Original 2017-05-23 王宾星环科技

内容提要

北京时间5月4日，在上海举行的“2017前沿科技论坛暨星环用户和合作伙伴大会”上，王宾作了主题为“Transwarp Studio大数据工具集:灵活、高效和全面地提升大数据开发效率”的演讲。因会后收到不少嘉宾反馈：对演讲内容非常非常感兴趣，演讲信息量很大，又无法同时参加多个会场，特在后期整理演讲速记稿以最大程度上弥补这个遗憾。

以下是PPT对应演讲速记：

今天我给大家介绍的是Transwarp Studio这样一套大数据工具集。在星环成立的最初，我们比较关注的是Hadoop & Spark 这样一套平台如何做得更加的稳定、高效和安全。而随着我们的底层平台越来越稳定，越来越多的行业和客户使用TDH作为他们的大数据基础平台，我们发现平台的易用性很大程度上决定了我们产品的落地时间和用户开发部署大数据应用的时间。因此在最近一两年，我们投入比较多的精力去开发一套大数据工具集，也就是我们今天要介绍的Transwarp Studio。

今天分会场的主体是大数据和人工智能，那么首先我想跟大家探讨一下，什么是商业智能？我们知道商业智能最早是由Gartner公司提出的一套概念和方法，它基于事实的支持系统来辅助商业决策的制定。那么商业智能包含哪些内容呢？首先是数据存储，主要有数据湖和数据仓库两种存储平台，数据湖是面向整个企业的平台，用于存储和分析来自不同数据源的数据，以消除数据摄取的成本和数据转换的复杂性。而数据仓库存储的是真正为用户所理解的、能够真实反映维度特性的数据。在这些数据基础之上，我们首先可以进行在线分析，从数据中抽象出不同的维度信息，根据不同的维度进行聚合得到有助于商业决策的统计信息。其次我们可以进行数据挖掘，从已有的数据挖掘出未知的预测值，能够帮助企业预测用户、市场行为，减少风险。最后在线分析得到的统计值和数据挖掘分析出的预测值，我们都需要有一套可视化的方式展现出来，直观恰当的报表有助于发现数据的本质。

那么如何基于大数据来构建一套商业智能系统呢？我们将商业智能系统分为五个部分：

数据源：首先是清晰地定义数据源，在生产环境中，我们可能面临多种数据源，比如传统的关系型数据库，Teradata，系统产生的日志文件，已有的Hadoop系统等等。

数据同步：在这些数据源中的数据格式相对原始和杂乱，不利于统一地来进行线分析和数据挖掘，我们需要一个数据同步工具，统一地将数据导入到数据湖和数据仓库中，因此我们开发了Transwarp Data Transportor，也就是Transporter工具。利用Transporter工具我们能够批量导入历史数据和准实时地同步增量数据。Transporter是基于Workflow工作流引擎，它支持多种任务类型，能够定义任务之间的依赖关系并具有丰富的调度功能。

数据存储：经过Transporter导入，将数据存储到数据仓库或者数据湖中。

数据管理：对于数据仓库中相对规整的数据，我们可以利用Transwarp Rubik来进行OLAP Cube的构建，定义数据的维度、度量并进行预计算以加速在线分析。而对于数据湖中的数据，它们来自不同的数据源，存在大量的数据转换和导入导出，对这些数据进行管理需要较高的成本，因此需要通过Transwarp Governor来进行元数据管理，能够查看数据之间的血缘关系和进行依赖分析。

数据展现：最后对于存储中的数据，业务人员可以使用Transwarp Pilot 来进行数据的拖拽式数据分析和报表展现，而数据库管理和开发人员可以使用Waterdrop工具来进行SQL脚本的编写和数据库的管理。

上面提到的工具集构成了我们的大数据工具集Transwarp Studio，下面我将就每个工具进行详细的介绍。

首先是工作流引擎Workflow，它是一套图形化的工作流开发平台，支持Shell/JDBC/HTTP等多种任务类型，并且与Transwarp Guardian深度整合，提供了工作流复制、共享和发布的功能，具有很好的团队协作和权限管控能力。此外，Workflow还具有调试功能，辅助开发人员进行工作流的创建和分析。对于负载比较高的集群，Workflow支持设置优先级和并发数。Workflow还具有高可用、良好的可扩展能力，支持用户使用Java语言自定义任务类型。

下面我们来看下Workflow的主要交互界面。首先是Workflow首页，能够看到今日工作流的整体状态以及工作流的实时信息。接下来是工作流设计模式，这是Workflow进行工作流编辑的主体面板，通过拖拽连线的方式即可完成一个工作流的开发。在工作流兼容页面中，我们可以查看工作量的任务概况、历史状态和依赖分析，并且可以导出这些监控图片。在工作流分析页面中，我们可以对工作流的执行时长、失败原因、调度准时性以及任务完成比进行分析。

在工作流的基础之上，我们可以利用Transporter工具进行数据清洗、转换和导入任务的制定，将数据从不同的数据源导入到TDH平台上。Transporter主要具有以下几个特性，首先它支持多种数据源，比如传统的关系型数据库、系统产生的日志文件、Teradata和开源Hadoop等等，其次它具有可视化的任务编辑和监控功能，并且支持用户自定义数据的转换逻辑，具有较好的灵活性。此外，Transporter在数据导入的过程支持数据事务操作同步，保证了导入过程中数据的一致性。Transporter还具有数据过滤和清洗功能，能够与DataStage等数据同步工具对接，准实时地导入增量数据。

导入TDH平台的数据可能来自不同的数据源，并且用户可能会对这些数据进行多种转换、清洗过滤等操作。在某个生成环境中，数据转换的源表有几千张，中间表有几万张，结果表有几百张，如果结果表中有数据发生错误，将很难追踪数据转换中哪一步出错。因此我们需要有一个元数据管理工具，也就是Transwarp Governor。

Governor能够管理数据的位置、结构、操作以及数据的血缘和影响。Governor提供了统一化和图形化的元数据管理接口，具有追踪血缘关系和影响分析的能力，能够确保数据质量，此外Governor还能追踪操作历史，从而提高生产力和降低管理协作成本。

而对于数据仓库中的多维数据，我们可以利用Transwarp Rubik工具来进行Cube建模和实例化以加速OLAP分析。首先我们来看下TDH OLAP的一个总体架构，数仓用户利用Rubik建立Cube模型，并通过预计算构建Cube实例，Cube实例可以存储为Holodesk或ORC格式。业务人员或者数据库开发人员通过Inceptor对原表进行查询时，Inceptor中的MBO模块会比对SQL与Cube构建SQL进行匹配，如果能够匹配上则直接从Cube实例中获取预计算得到的数据，并把结果返回给用户，Cube对于普通业务人员或者开发人员来说是透明的。

Rubik参考了CWM标准Cube模型，定义了以下几个概念，首先是数据立方体，用以表示多维数据，其次是维度，通常是业务中用以聚合分析的字段。维度又包含层次和级别两个概念，层次是由级别组成的，并且具有一定的顺序。比如时间维度，通常包含自然年和财年两个层次，自然年和财年层次又包含年、季度、月、日级别。另外一个概念是度量，是基于维度用于计算的数值字段的统称。Rubik支持星型模型和雪花模型两种Cube模型。

下面我们来看下Rubik的主要交互界面，首先是立方体设计页面，通过拖拽的方式即可完成维度的选择和事实表的选择，并定义之间的连接关系，再完成度量的添加和过滤条件的添加即可完成一个Cube的建模过程。

再通过Cube实例创建页面可以构建出Cube实例用于优化在线分析。

对于数据库管理和开发人员，可以使用Waterdrop工具来编写SQL。Waterdrop支持SQL和存储过程的开发，能够进行语法检查，具有编译服务功能，支持对数据库对象查询和管理，并且支持权限控制和管理。开发人员利用Waterdrop可以统一化开发环境，能够加速SQL开发效率，从而加速企业的应用开发速度。

大会干货合集：

1、聚星*引航|星环科技新产品发布会[视频+PPT]

2、星环的划时代版本-Transwarp Data Hub 5.0

3、聚星*引航|“大数据2017:从科技挑战到商业成功”演讲[视频+PPT]

4、聚星*引航|“Slipstream: 实时的复杂流处理引擎”演讲速记（附PPT）

5、聚星*引航|“机器学习和深度学习框架Sophon”演讲速记（附PPT）

6、聚星*引航| "加速业务创新浅谈TDH 5.0的关键技术"演讲速记（附PPT）

更多干货，敬请期待.....

回复关键字，获取更多资讯

简介 | 产品 | 技术 | 案例集 | 培训 | 白话大数据

评测 | 投资 | 新手上路 | Holodesk | TED视频

技术支持| 金融 | 电力 | 视频监控 | 运营商 |交通