阿里云 EMR 2.0:重新定义新一代开源大数据平台
1►
开源大数据的痛点及EMR产品历程
1. 开源大数据的痛点
如何提升性能,降低资源成本
如何降低运维成本
如何保障数据和任务的可靠性
如何管理数据开发和治理
2. EMR产品历程
2►
EMR2.0 新特征
1. 概述
集群创建速度2倍以上优化
集群扩容速度3倍以上提升
弹性规模支持千台以上
故障节点迁移
集群诊断工具
全托管EMR Notebook (Jupyter)
Workflow (Dolphinscheduler)
数据开发治理平台Dataworks on EMR
EMR on ECS,支持倚天g8,性价比提升超过40%
EMR on ACK(K8s)
EMR Serverless
新版数据湖
数据分析
数据服务
实时数据流
数据科学
2. EMR 2.0产品架构
EMR 2.0支持ECS(Intel, AMD, 倚天)/神龙/ECI
在存储资源上,数据湖架构已经已经逐步成为业界的共识,阿里云在对象存储OSS 技术上升级为 OSS-HDFS 兼容 HDFS API
支持 EMR on ECS、EMR on ACK、EMR Serverless
监控告警
弹性调度
集群诊断
故障补偿
权限&安全
组件管理
新版数据湖 Datalake
数据分析 OLAP
实时数据流 Dataflow
数据服务 DataServing
数据科学 DataScience
开源解决方案 EMR Studio (Notebook, Workflow)
企业级开发平台 DataWorks on EMR
在原有的数据湖构建DLF上 新增了权限生命周期管理、湖管理等新特性。
3. 全新平台体验
阿里云EMR2.0 围绕弹性、稳定性、智能、效率四个方面对 EMR 进行了全面升级。
集群创建,弹性性能大幅提升
异构实例,竞价实例满足个性化弹性需求
节点迁移,故障节点自动补偿
组件状态巡检,事件通知
集群资源诊断
风险预警
实时检测
交互式数据开发
一键任务提交
配置导出&集群克隆
4. 全新数据开发
基于 Jupyter 的全托管SaaS化的 Notebook
直接在EMR管控台页面创建一个 notebook 并快速与EMR集群进行关联,几分钟内就可以开始对数据进行分析,无需担心代码的保存以及计算资源维护;
对 Jupyter Notebook 进行了优化:如支持 StarRocks 快速指定引擎类型。
基于 Apache DolphinScheduler 的全托管SaaS化的 Workflow
开箱即用,一键关联集群。
数据集成:基于DataX,支持几十种数据源作为 source 和 sink 进行数据同步; 数据开发:线上的 IDE,支持 Spark、Hive、Presto、ClickHouse 的开发; 数据质量:根据任务配置的规则,对任务的产出结果进行正确性验证; 数据地图:采集字段级粒度的数据血缘; 数据安全:提供表和字段级别的权限管理; 数据分析:提供快速交互式的分析和可视化分析能力; 数据服务:简化数据查询服务的开发,通过写 SQL 就可以提供数据查询的接口; 开发平台:提供一系列的 API 供用户进行二次开发。
5. 全新资源形态
支持组件最全,自定义能力最强;
跟传统模式最接近,便于快速迁移。
完全兼容 K8S,10秒级资源调度;
支持 Spark, Flink, Presto, RSS 组件;
配合 ECI,自动弹性,秒级扩容;
完整的任务提交、管理、监控能力。
首先推出的是 StarRocks;
全托管,最小化的运维成本;
高可用,SLA 99.99%;
开箱即用,对接 EMR Notebook;
成本低,按需扩容资源。
在ECS价格方面,倚天G8系列较X86的机器系列价格降低20%以上,计算型系列价格降低超过30%,大幅降低企业成本;
在性能方面,物理核的倚天机型性能更高,CPU占用率更低;在EMR对倚天机型适配后,进行了 TPC-DS 的 Benchmark 测试,在G8Y与G7的对比中,同样采用了六台8core 32G的机型,倚天的TPC-DS耗时减少25%。
6. 全新分析场景
数据湖集群包含 Spark、Hive、Yarn、Presto、Hudi、Deltalake、RSS、Kyuubi 等组件;支持用户构建数据仓库,进行数据 ETL 以及数据湖分析。
实时数据流包含 Flink、Kafka 等组件;支持用户进行实时计算,构建在线决策、实时监控、实时计算等系统。
数据分析主要包含 StarRocks、Doris、ClickHouse 等组件;广泛应用于用户画像分析,交互式分析,构建BI报表系统和对接业务系统。
数据服务主要包含 Hbase、Phoenix 组件;支持时序数据分析、feeds流推送和用户行为收集。
数据科学主要包含 Tensorflow、PyTorch 组件;
面向机器学习、数据挖掘、特征建模等场景。
在存储层面,EMR 推出 OSS-HDFS,可完全兼容 HDFS API,用户可以平滑的将 HDFS 迁移到 OSS 上;
在计算层面,计算任务无需二次开发,可以直接运行在存算分离的数据湖架构上;
在1PB的场景下测算,经过合理的冷热分层,可以节省40%的资源成本,同时计算资源也可以实现按需或者按负载弹性使用,大大降低了资源消耗;
在计算引擎层面,EMR 对 Spark/Hive/Trino/StarRocks 等引擎进行优化,ETL 和分析场景下性能有明显提升;
在数据湖管理层面,DLF湖管理实现湖数据生命周期管理,包括:元数管理与服务、权限控制与审计、数据质量控制、湖表管理与优化、存储管理与优化、全新数据迁移入湖。
3►
总结
EMR2.0 从管控到引擎,从资源形态到应用场景都在积极创新,希望更好的解决用户在开源大数据遇到的痛点问题。
新版EMR地址:
/ END /
更多推荐
点击「阅读原文」获取直播回放