Transwarp Slipstream——分布式实时计算引擎
Transwarp Slipstream
Transwarp Slipstream是一款通用的实时计算引擎,使用事件驱动和批处理统一的模型,在保证毫秒级别延迟的同时,帮助用户更高效、准确的进行数据集成,同时提供更复杂的分析功能,以帮助企业挖掘实时数据的价值。同时Transwarp Slipstream提供一站式的管理平台,方便用户进行应用的开发、监控,降低实时处理应用的开发和运维成本。
Slipstream 功能
Transwarp Slipstream主要包括StreamSQL【流式SQL】、Streaming Procedural SQL【流式存储过程】、Streaming CEP【流式复杂事件处理】、Streaming Rule Engine【流式规则引擎】、Streaming Calculus【流式微积分】、Streaming Machine Learning【流式机器学习】和Slipstream Studio功能。
StreamSQL
Slipstream通过SQL的方式为用户提供开发接口,兼容ANSI SQL 2003标准;同时Slipstream扩展了流处理的SQL语义,比如窗口、关联、应用管理等。通过StreamSQL可以方便地将原先基于关系数据表开发的批处理应用迁移到Slipstream引擎,同时也可以很方便地通过扩展语法,开发复杂的实时统计分析业务,用来帮助企业构建实时数据仓库。以下是Slipstream在数据集成方面的主要功能。
Streaming Procedural SQL
Streaming Procedural SQL是同时兼容Oracle PL/SQL和DB2 SQL PL的过程语言。通过Streaming Procedural SQL,用户可以在实时数据流上进行逻辑判断、循环等操作,以实现复杂的功能;同时,用户原先在Oracle上或者DB2上开发的存储过程,也可以方便高效的迁移到Slipstream引擎。以下是Streaming Procedural SQL支持的功能:
Streaming CEP
Streaming CEP提供了实时复杂事件处理的功能。通过Streaming CEP用户不仅可以处理单一事件,而是可以处理多个事件组合,从而在大量的单个无意义的事件中,找出有意义的信息。CEP可以用于定义规则,被广泛用于能源、物联网、金融等行业。通过Slipstream可以方便的定义一个复杂事件处理的模式,例如定义一个银行卡盗刷模式:如果一张卡在10分钟内在两个不同的城市发生取款,则需要发出告警并采取对应措施:
目前Streaming CEP支持的事件模式如下:
Streaming Rule Engine
规则引擎被广泛使用在决策应用系统中,通过解藕规则编写和应用程序开发,可以有效的提高规则的灵活性和可维护性,同时让业务人员重点关注业务逻辑而非系统实现。
在实时分析应用中,规则通常配合一些实时统计的指标使用,在故障预测、欺诈监测等方面发挥着很大的作用。Streaming Rule Engine提供了一套高效的决策支持引擎,其主要模块和数据流转示意图如下:
Streaming Rule Engine具有以下主要特点:
提供一套高效简洁的规则开发接口,方便用户定义编写指标和规则;
灵活丰富的指标统计算法以及高效的指标缓存,方便规则和统计指标之间的深度结合;
高性能的分布式规则处理框架,能够实现毫秒级延迟和百万级吞吐;
动态规则更新,实现不停机更新规则;
内置多种响应策略,包括邮件/短信告警、写入消息队列、调用WebService/REST API等,并支持用户扩展自定义响应策略 。
Streaming Calculus
在金融领域例如证券交易中会使用大量线性代数和微积分算法,为了能够帮助用户将此类应用迁移分布式实时计算引擎,星环开发了Streaming Calculus模块,其中主要功能模块如下:
提供外部算法导入功能,提供Binary算法的分布式运行环境,实现和实时数据流的高效对接;
提供内置的算法开发接口,方便用户基于Slipstream开发线性代数和微积分算法,并提供多种性能优化参数;
Slipstream内置多种常用算法,包括Linear Algebra矩阵理论、向量空间、线性变换、有限维线性方程组等能力支持 。
Streaming Machine Learning
Slipstream可以结合Transwarp Sophon平台,实现流式机器学习。Slipstream将实时数据经过清洗分析之后,通过分布式存储或者其他服务共享给Sophon平台;Sophon平台利用这些数据,定义训练出的模型,并通过PMML或者JSON的格式反馈给Slipstream引擎,从而实现在实时数据上的机器学习处理。整体架构图如下:
Slipstream Studio
大数据应用的一大痛点就是应用的监控和管理。一套高效的监控管理框架,可以大大降低运维成本。实时处理的监控尤为重要,实时任务的故障更可能给企业造成经济损失,严重的甚至会导致生产事故。Slipstream结合多年来实际生产部署的管理运维经验,深入分析实时处理监控的痛点,开发了一套完整的指标收集框架,并通过Slipstream Studio进行配置管理和监控。包括多粒度,多维度的监控:
秒级别到月级别的指标的收集和查看;
集群的整体运行状况概览;
任务逻辑执行和物理执行计划;
任务处理的延迟、吞吐、实时数据量、使用资源等丰富指标;
集群和任务事件日志收集和查看;
物理资源的使用状况
除了任务监控之外,Slipstream Studio提供了一套图形化的任务设计接口,降低了对应用开发人员的技术门槛要求。除了基本的ETL操作之外,用户可以使用Slipstream Studio管理自定义函数、进行规则的配置。通过Slipstream Studio,可以进一步提高应用开发的效率,降低运维成本。
产品优势
安全可靠的企业级产品
用户登陆安全认证:提供基于LDAP和Kerberos的认证方式,确保授权用户可以访问。
操作审计:对于登陆用户的操作都会记录日志,方便监控告警,以及事后日志审计。
细粒度的权限访问控制:提供对应用的查看、修改、启动、停止、删除等多种操作权限进行细粒度的控制,保证应用的安全性。
智能资源隔离调度:通过应用的抽象,和资源队列,可以实现不同应用之间的资源隔离和管理,通过应用优先级,可以保证在资源紧张时,保证高优先级的应用不受影响。
Exactly Once语义保证:通过分布式的Checkpoint机制,对应用操作的状态进行Checkpoint,可以在不影响应用整体运行性能的同时,保证Exactly Once语义。
自动故障恢复:实时应用通常需要7*24小时不间断运行,Slipstream提供了自动故障恢复机制,当Worker或者Server发生故障时,实现秒级别的任务自动恢复。
适用场景
星环Slipstream引擎目前已经在多个行业数百个生产集群中部署适用,其适用的场景包括但不限于:
金融行业:消息总线、实时数仓、实时风控、实时推荐、智能投顾等;
交通行业:智慧城市、节能减排、实时研判、实时违法预警等;
能源行业:设备故障检测、预测性维护等;
电信行业:垃圾短信检测、精准营销等;
电商行业:实时推荐、行为分析等。
点击或回复关键词,查看相关内容
公司
产品
产品 | 星环的划时代版本-Transwarp Data Hub 5.0
认证考试 | 数据中心联盟—星环联合认证体系首次认证考试报名中
技术
白话大数据 | 白话大数据合集
深入机器学习 | 深入机器学习系列合集
案例
银行 | 中国银行:大数据在银行领域的应用与实践
智能金融 | 星环科技发布证券业大数据战略规划纲要(白皮书)
运营商 | 运营商的新方向-运用Hadoop技术将大数据资产变现
视频监控 | Hadoop在实时视频监控的应用场景