凌云时刻
编者按:一个让人无法忽视的变革已悄然发生:随着云计算的普及,数据库市场发生了根本性改变,云厂商打破传统商业数据库的堡垒,强势将云数据库带入各行各行业中,成为数据库领域全新力量。
在 Garter 发布的《 2011-2020 全球 DBMS 市场份额排行榜》中,最为引人瞩目的是微软超越 Oracle 位居全球数据库的榜首,这是十年来 Oracle 首次失去冠军位置。一个让人无法忽视的变革已悄然发生:随着云计算的普及,数据库市场发生了根本性改变。云厂商打破传统商业数据库的堡垒,强势将云数据库带入各行各行业中,成为数据库领域全新力量。据权威机构预测,到 2022 年,75% 的数据库将被部署或迁移至云平台。
榜单里中国数据库厂商第一是阿里云,这不是阿里云第一次位列中国数据库榜首,据 Gartner 发布《2020 年度全球数据库魔力象限报告》显示,阿里云进入全球数据库领导者象限,这是中国数据库 40 年来首次进入全球顶级数据库行列。回顾阿里云数据库的发展之路,一步步走得踏实坚定:从商用数据库到开源数据库,再到自研数据库。如今随着分布式、云原生数据库的崛起,又迅速走在行业前沿,打造出丰富的企业级云原生数据库产品组合:云原生关系型数据库 PolarDB、云原生分布式数据库 PolarDB-X、云原生数据仓库 AnalyticDB(ADB)、一站式数据管理平台DMS、云原生多模数据库Lindorm 和企业级云数据库服务RDS等。今年,阿里云洞察到云原生数据库已发展到了新阶段,率先提出“云原生数据库 2.0”理念,发布一站式敏捷数据仓库解决方案。该方案结合一站式数据管理平台 DMS 及云原生数据仓库AnalyticDB,实现了库仓一体的技术架构,提供在线数据实时入仓实时分析、T+1 周期性快照、按需建仓等能力,数据延时低至秒级,持续赋能业务在线化,使能企业在线数据释放最大价值。云原生时代下,阿里云数据库的下一步将如何走?云原生数据库 2.0 如何在企业实践与应用?
9 月 26 日,在以“数聚云端,智驭未来”为主题的阿里云数据库创新上云峰会暨第 3 届数据库性能挑战赛决赛颁奖典礼上,阿里巴巴集团副总裁、阿里云数据库产品事业部负责人李飞飞,阿里云资深技术专家、数据库产品事业部生态工具部负责人陈长城,阿里云研究员、数据库产品事业部 OLAP 产品部负责人占超群等专家,为我们揭秘阿里云对云原生数据库 2.0 的最新思考以及一站式敏捷数据仓库解决方案的最新实践,探讨新一代云原生数据库如何引领企业数智蝶变。
数据蝶变时代,构筑下一代云原生数据库
数据作为新的生产要素,随着数字经济的高速发展已发生质变,呈现以下趋势: 一是数据规模呈爆炸性增长。据统计,2020 年全球数据规模达 40 ZB,预计 2025 年的数据规模是 2020 年的 4.3 倍,数据爆炸时代来临。
二是数据生产和处理实时化的需求加剧,预计到 2025 年,实时数据占比达 30%,这将给数据库管理和计算带来挑战。
三是数据生产和处理智能化需求。如今在海量数据中,非结构化数据占比达 80%,这给针对结构化数据的传统关系型数据库带来了巨大的挑战,新一代非关系型数据库智能、实时在线化的需求越来越迫切。
四是数据加速上云,预计到 2025 年数据存储云上规模达 49%。
与此同时,数据库技术架构也在持续演进,从早期的单节点数据库架构,到共享存储架构和分布式数据库。为解决主备切换架构、存储计算紧耦合所带来可扩展性不强等痛点,云原生分布式架构应运而生,云原生与分布式的结合将带来高可用、弹性、可拓展性等优势。
阿里巴巴集团副总裁、阿里云数据库产品事业部负责人李飞飞
李飞飞认为,云原生是未来使用云的标准方式,云计算资源无处不在,取之不尽、用之不竭,不用关心云资源在哪里、有多少。就像我们今天使用自来水一样,没有人会费尽心思考虑水从哪里来。然而云原生数据库理念似乎已适用于当前云原生数据库能发展,为何阿里云要提出云原生数据库 2.0 理念?李飞飞解释道:“云原生 2.0 概念的提出是因为云原生 1.0 阶段的核心聚焦在原子产品差异化能力上。如果说云原生 1.0 带给业务、行业、客户和开发者的是一把厉害的冲锋枪和机关枪,那么云原生 2.0 赋予他们的是战之能胜的能力。因此,在云原生 2.0 阶段,阿里云数据库要从原子产品差异化走向一站式数据管理,实现云原生化的一站式数据管理与服务,让开发者、企业用户和业务侧更多地关注怎样从数据里发掘价值。”在云原生数据库 2.0 理念下,在企业级云原生数据库赛道,阿里云打造了“一个平台+四个柱子”的产品矩阵。“四个柱子”为云原生关系型事务数据库 PolarDB 和分布式版 PolarDB-X(柱子1),云原生数据仓库 AnalyticDB(柱子2),云原生多模数据库 Lindorm(柱子3)、企业级云数据库服务 RDS(柱子4)等多款不同的 OLTP、OLAP、NoSQL 等领域的自研数据库引擎和产品,“一个平台”为一站式数据管理平台 DMS。核心逻辑是为用户做到“一份数据多个引擎,由统一的在线数据管理平台来统筹管理”,即总-分-总逻辑。用户无需关心数据具体存在哪个引擎,让数据在各个引擎间无缝流转,简化业务逻辑。另外,最新发布的“阿里云一站式敏捷数据仓库解决方案”帮助用户真正实现 T+1 归档,打通数据孤岛,让数据治理更加安全。李飞飞强调,该产品矩阵将来不会收敛为一个“超级引擎”,从软硬件等客观角度而言,暂时无法做到一个引擎完成所有操作。一站式数据管理平台 DMS,步入云原生数据库 2.0 时代
伴随产业数字化的演进升级,企业对数据精细化运营要求提高,数据价值挖掘需求越发强烈。陈长城分析道,在这个过程中,企业遇到不少难题:数据库种类繁多、最佳实践各不相同,形成数据孤岛,管理复杂度高;异构数据集成,数据加工架构复杂,依赖专业的数据开发团队来对链路诊断和运维,门槛极高。数据治理缺乏,安全问题凸显,难以满足众多安全合规诉求。阿里云资深技术专家、数据库产品事业部生态工具部负责人陈长城在此背景下,阿里云打造了一站式数据管理平台 DMS 来对企业全数据资产统一进行管理。DMS 无缝联动所有数据库,实现统一数据资产、数据库设计与开发、数据集成与开发、存储、传输、加工、计算、管理,覆盖数据生产到应用的全生命周期。具备安全管理、容灾多活、数据库 DevSecOps、T+1 实时归档、实时数仓构建、业务报表生产等业务应用,通过极致的数据传输与加工能力打通 TP、AP、NoSQL 等数据库,打通数据孤岛让数据可直接用于分析,真正实现库仓一体和在离线一体化的处理和分析能力,给企业提供低门槛应用使用方案。
第一个特性是数据资产与安全:随着企业数据业务增多,部署的数据库环境不一,管理和分析这些数据资产并不容易。DMS 提供全局的视角管理所有的数据资产,支持 27 种数据源,可快速查找和梳理数据,将业务数据进行数据资产关系识别,构建数据资产图谱,从而通过存储在线海量图谱来服务数据资产。
另外,随着等级保护 2.0 的全面开展,《数据安全法》与《个人信息保护法》的推出,该如何将数据安全治理落到实处?DMS 除了满足 GDPR 要求外,遵循等保 2.0、数据安全法、个人信息保护法等法规要求。通过统一管理数据后,自动对敏感数据进行分级分类,识别敏感数据,企业可使用超 15 种脱敏算法,再将数据应用在生产的过程中,实现不需要有数据库的账号就可以动态实现数据的查询与脱敏。 第二个特性是数据库 DevSecOps:DMS 平台对接了多种数据源,并提供丰富的开发者工具集,目前已有超过十万用户在使用。开发者如何安全放心地操作?这归功于 DMS 提供一套“数据库安全规则引擎”,它将数据变更、数据导出等所有操作,以及对应的工单和人员等操作对象,形成操作规范图,支持200+研发模板,提供给企业使用,也可以根据需求自定义安全规则能力,保障数据库生命周期内的每一个变更都符合企业制定的规范在安全可控的条件下最大化企业研发质量、研发效率,取得安全和效率的最佳效果。
第三个特性是数据集成与开发:针对企业数据、报表非实时、新引擎应用门槛高、多引擎管理难等问题,DMS 通过端到端统一管理,流批一体和多引擎能力来构建数据集成开发的能力。支持流式数据加工、批量数据加工,做到流批一体,数据处理效率高;集成低代码平台,只需要懂 SQL 就可以通过画布来快速实现数据处理任务;支持表、字段、行级权限管理,提供完善的账号等级权限管理能力,全方位保障数据安全,实现一个平台管理所有开发任务,提供智能监控告警和任务的自动处理机制。
除了统一管理数据资产外,开发者和企业在处理数据时遇到另一个头疼的问题:企业需要进行大规模数据的实时计算与分析,而传统数据库面对复杂的在线分析和计算往往需要几十分钟甚至数小时才能完成。如何实现在离线一体化,保持数据一致性?不得不提云原生+数据库大数据一体化利器——云原生数据仓库AnalyticDB。进击的 AnalyticDB,向云原生+数据库大数据一体化演进
阿里云研究员、数据库产品事业部OLAP产品部负责人占超群占超群回顾了阿里 OLAP 的发展历程:在 2008 年之前,采用 Oracle RAC 来构建,2009 年采用分布式数据仓库Greenplum,2011 年使用基于开源架构的 HBase、MySQL Sharding、Hadoop 等方案,2013 年首次发布了AnalyticDB 1.0,2019 年发布 AnalyticDB MySQL 3.0。同年,数据库与大数据权威评测机构 TPC 发布的面向复杂分析场景 TPC-DS 10TB 权威基准测试中,AnalyticDB 性能指标刷新世界纪录,荣登榜单第一名,成全球最快最高性价比的数据仓库 。据了解,AnalyticDB 采用存储计算分离+多副本架构,支持从 1 个节点到最大 5000 节点的实时按需弹性扩容,可实现 PB 级数据存储、查询秒级响应,使业务分析效率从天级提升到分钟级乃至秒级。AnalyticDB 有效解决了在离线任务的融合处理、结构化和非结构化异构数据融合分析以及大规模系统管理成本指数级增长等问题,加速云原生+数据库大数据一体化演进。AnalyticDB 在阿里巴巴集团内部和云上客户得到了规模验证。通过云原生和在离线一体化技术在性能、性价比上取得不错的突破。占超群分享在了 2020 年天猫全球狂欢季中,AnalyticDB 支持业务方超 130 个,每秒实时写入或更新 2.1 亿,实时处理数据规模 7.7 万亿,每秒交互式分析请求 17 万,AnalyticDB 有效帮助了大规模数量的商家和用户完成实时决策。那么一站式数据管理平台 DMS + 最快实时数仓 AnalyticDB 将产生什么的化学反应?库仓一体,全新一站式敏捷数据仓库解决方案
原本企业在构建实时数仓时,通常会将在线数据先放到离线库存储和计算,再把计算结果返回在线数据流里,整个数据加工链路长、成本高、时间不可控,还有生产库密码泄露等安全问题。阿里云最新推出的一站式敏捷数据仓库解决方案,基于库仓一体的技术架构设计,支持业务数据实时入仓+增删改查、基于拉链表的 T+1 周期性快照等功能,满足企业应用场景对生产数据进行实时分析的需求。其处理链路短,支持在线数据实时处理落仓传输效率 100MB/s,数据延时在 10 秒内。另外,用户可通过低代码操作,降低实时数仓构建难度。目前,阿里云一站式敏捷数据仓库解决方案已应用于金融、数字政府、零售、泛互联网等行业,帮助企业建设数字化转型的基础底座。例如,某汽车厂商拥有大量销售渠道,各渠道提供的完整订单、客户数据分散在各个系统中,离线数仓的 T+1 延时数据不满足该汽车厂商提出的实时营销需求。
通过 DMS + AnalyticDB 实时数仓构建,AnalyticDB 冷热数据分离和在离线一体化,大幅简化数据处理和加工链路,大部分场景无需中间的数据转换和清洗工作,与生成系统延时保持 1 秒以内。另外,通过 DMS 进行数据开发灵活定义运营报表,并可直接对 AnalyticDB 发起实时的复杂查询,统一周期报表和实时报表逻辑,便于高效决策。
云原生数据库的下一步
谈及未来云原生数据库发展的核心目标,李飞飞用了三个词:Any Data(键值、文档、图、时序、空天),Any Scale(存计分离、线性扩展、全球高可用),Any Workload(事务处理与分析混合负载)。具体涵盖以下方向:
云原生+分布式
未来数据库云原生+分布式一定是标配,用云原生的方式构建数据库系统,资源池化,资源持有,分布式不是其中一个选项,而是必选项。 智能化
涵盖 AI4DB 和 DB4AI,利用 AI、机器学习的技术使能数据库运维管控智能化,系统监控、调度、参数调优和索引推荐等操作。 安全可信
随着《数据安全法》的出台,数据的安全可信已成为共识,我们需确保数据库的处理的全链路中具备加密、安全、可信的能力,这是重要的发展趋势。 多模数据处理
面对物联网、车联网新场景产生的海量数据,如何对这些新场景打造的新型多模数据库非常重要。 一站式数据处理平台
企业可能采用多个数据处理引擎,但有了一站式数据处理平台,用户无需关心具体使用哪种类型的数据库,一站式数据管理平台可以让数据无缝流转,让开发者更便捷地访问和处理数据。