数据库行业研究报告:数据库,云化底座,百舸争流
(报告出品方/作者:中信证券,杨泽原、丁奇)
报告综述:
安全可控势在必行,数据库国产替代加速开展,以党政为代表的国产替代先行,并不断向金融、电信等领域拓展。同时,伴随云计算、大数据技术的快速发展, 云数据库、数据仓库、大数据分析等领域快速增长,国产数据库厂商有望依靠 在价格、服务、云技术结合能力等打造自身优势,抓住增量市场窗口期,迎广 阔蓝海。
数据库:云时代核心底座,数字化业务的电子文件柜,需求升级+技术迭代驱动 行业发展。数据库是按照一定的数据结构组织、存储和管理数据的仓库。19 世 纪 70 年代,关系型数据库原型 System R 诞生,引领第一波数据库浪潮,Oracle、 IBM DB2、SQLServer 等主流关系型数据库崛起。进入互联网时代,从需求侧 看,数据量、数据复杂度快速提升,从供给侧看,云计算引领产业升级。在此基 础上,非关系数据库、分布式数据库、大数据分析等技术快速发展,云厂商、独 立厂商开始对传统数据库厂商形成强有力的冲击。
参与者:传统 IT 巨头、云计算厂商、独立厂商三类厂商,百舸争流。1)传统 IT 巨头:关系型领域深耕,经久不衰 40 余年,主要解决数据存储的易用性、抽 象性、独立性等问题,整体仍占据主导地位;2)云计算巨头:借助云计算发展 趋势及专有场景打磨产品,提供云数据库及服务,满足企业海量数据存储、低成 本数据存储、动态变化数据存储等需求,是云时代的主力军。3)独立厂商:数 据快速爆发,需求加速释放,独立厂商往往在特定场景如数据分析、非结构化数 据处理等领域深耕,同时,多云趋势明显,独立厂商提供更加灵活的部署方式。
全球规模:超五百亿美元大蛋糕,云时代百家争鸣。Gartner 数据显示,2018 年全球 DBMS 市场规模达 461 亿美元,同比+18.4%,增速达到近十年峰值,其 中云数据库贡献 104 亿美元,为行业增长贡献 68%,这种变化背后反映整个数 据库行业云化趋势显著。预计到 2023 年,75%的数据库要跑在云平台之上。其 中 Oracle 独占鳌头,云计算厂商与独立软件提供商快速崛起,AWS 市场份额由 2014 年的第 6 升至 2018 年第 3 位,仅次于 Oracle、微软;阿里云由 2014 年 的 26 位跃升至 2018 年的第 9 位。Gartner 2020 年全球数据库魔力象限评估结 果,阿里云首进全球数据库第一阵营——领导者象限,是中国数据库厂商首次进 入全球顶级数据库行列。腾讯云、华为云进入“特定领域者”。
国内规模:百亿市场,云化加速。智研咨询数据显示,2018 年我国数据库软件 市场规模为 139.25 亿元,其中,关系型数据库规模约 118.36 亿元,占比约 85%。IDC 预测,2020 年关系型数据库云部署方式将会和传统部署方式的规模基本持 平,到 2024 年,中国关系型数据库软件市场规模将达到 38.2 亿美元,未来 5 年 CAGR 为 23.3%,其中云数据库占比将会接近 7 成。老牌数据库公司人大金 仓、武汉达梦、南大通用等主耕关系型数据库领域,云计算巨头阿里、华为、腾 讯等以分布式闻名,并不断扩大生态。独立数据库厂商借助云原生、分布式等技 术聚焦各自擅长领域,如 PingCAP 的 HTAP 数据库 TiDB,星环科技的大数据 基础平台等。
发展契机:安全可控带来良机,云与开源面向未来,国产厂商发展可期。安全 可控背景下,国产替代加速开展。金融方面,巨杉软件、易鲸捷、万里开源分别 中标唐山银行、贵阳银行、光大银行重点数据库项目。电信方面,阿里云、武汉 达梦分别中标中国移动国产数据库项目。另一方面,云计算快速发展,预计 2023 年我国公有云与私有云市场规模将超过 3700 亿元,加速释放相应的数据库配套 服务红利。同时,借助开源的力量,国内数据库企业快速实现技术创新,缩小差 距甚至赶超海外数据库龙头。面向未来,云与开源的趋势将会更加明显。
数据库:数字化时代的电子文件柜
概述:组织、存储和管理数据的仓库
数据库(Database,简称 DB)是按照一定的数据结构组织、存储和管理数据的仓库。 计算机数据库中存放了有组织的、可共享的、统一管理的大量数据,包括文本、图像、声 音等,是信息化时代的数据文件柜。数据库和操作系统、中间件一样,属于基础软件的范 畴,高度复杂且存在较高的技术壁垒,是应用系统承载数据的基石。
数据库管理系统(Database Management System,简称 DBMS)是一种操作和管 理数据库的软件,用于建立、使用和维护数据库。DBMS 对数据库进行统一的管理和控制, 保证数据库的安全性和完整性。DBMS 是把用户意义下抽象的逻辑数据处理,转换成为计 算机中具体的物理数据处理的软件。用户通过 DBMS 访问数据库中的数据,数据库管理员 通过 DBMS 进行数据库的维护工作。 数据库系统(Database System,简称 DBS)一般由数据库、数据库管理系统、应 用系统、数据库管理员和用户构成。DBS 是存储介质、处理对象和管理系统的集合体,是 一个为实际可运行的存储、维护和应用系统提供数据的软件系统,数据库及其管理软件是 数据库系统的组成部分,数据库管理系统是其核心部分。
分类:需求升级与技术迭代驱动,数据库品类多元化发展
数据库的分类多种多样,为了方便理解,我们从分别从需求侧和供给侧对当前主流的 数据库类型进行梳理。 从需求侧看,可对数据库进行以下两种分类:关系型数据库和非关系型数据库、OLTP 数据库和 OLAP 数据库。
1) 按数据存储方式分类:关系型数据库和非关系型数据库
关系型数据库是一种典型的数据库类型,采用关系模型,常用行和列等二维的形式来 存储结构化数据,一系列的行和列被称为表,一组表组成了一个数据库。典型的关系型数 据库有 Oracle、MySQL、DB2、Microsoft SQL Server 和 Microsoft Access 等。随着 web2.0 的兴起,传统的关系数据库在处理大规模和高并发动态数据时,出现了 响应慢、扩展困难等问题,非关系型的数据库由此应运而生。非关系型数据库的产生是为 了解决大规模数据集合多重数据种类的应用难题。
非关系型数据库又被称为 NoSQL,是 用非关系模型,存储非结构化的如图像、音视频等类型数据的数据库,分为键值存储数据 库、文档型数据库、图形数据库等多种类别。非关系型数据库通过例如图形模型、文档模 型等更为灵活的模型,解决了关系型数据库无法应对的非结构化数据问题。非关系型数据 库有 Mongodb、Hbase、Redis、Cloudant 等。
2) 按应用类型分类:OLTP 和 OLAP
OLTP(On-Line Transaction Processing,操作型数据库,又称联机事务处理)主 要关注一段时间内的实时数据,基本特征是接收的用户数据可以立即传送到计算中心进行 处理,并在很短的时间内给出处理结果,是对用户操作快速响应的方式之一。伴随企业信 息系统大量业务数据的产生,从不同类型的数据中提取出对企业决策分析有用的信息这一 需求日渐显现。分析型数据库技术就是在这样的背景下发展起来的。OLAP(On-Line Analysis Processing,分析型数据库,又称联机分析处理)主要是分析长期数据的规律 走势,多应用于决策。
操作型数据库的优势在于在线实时业务的处理,分析型数据库则擅长复杂的分析操作 并给决策提供支持,两者的侧重点不同,因此可以相互补充。例如可以从多个操作型数据 库源收集数据放入 OLAP 数据仓库中进行分析。在未来,会出现越来越多操作型数据库和 分析型数据库有机结合的应用。典型的操作型数据库有 Oracle DataBase、MySQL、DB2、MongoDB 等;典型的分 析型数据库有 Apache Kylin、Hive、Snowflake、Oracle Hyperion、Spark 等。
从技术架构(供给侧)看,数据库可分为集中式数据库和分布式数据库
这种分类方式的诞生,一方面是由于传统集中式数据库缺乏扩展性,为了实现扩展而 出现了分布式数据库,另一方面,是缘于云技术和网络技术快速发展,推动分布式技术升 级,形成新型分布式数据库。集中式数据库由一个处理器、与它相关联的数据存储设备以 及其他外围设备组成,将数据集中在一台机器上进行处理,被物理地定义到单个位置。典 型代表有 Oracle、DB2、人大金仓、武汉达梦等;分布式数据库采用分布式架构,将数据 在网络上分开储存于多个机器中进行处理,分布式数据库是一个数据集合,这些数据在逻 辑上属于同一个系统,但物理上却分散在计算机网络的若干站点上,并且要求网络的每个 站点具有自治的处理能力,能执行本地的应用。分布式数据库典型代表如谷歌的 Google Spanner、阿里巴巴的 OceanBase、华为的 GaussDB 等。
开源数据库是数据库发展的另一路径,也孕育了互联网的繁荣发展。开源软件是围绕 社区概念设计的,将数据库,API 和 Web 托管引擎的源代码存储库向公众开放,允许任何 人查看或贡献。社区中的领导者会指导和监控新功能的开发和修补错误。对于希望建立强大技术基础的企业而言,开源工具一方面可降低成本、另一方面方便企业对技术的快速迭 代创新。比如国内的部分互联网巨头,一开始考虑到成本、可控性、技术创新型等因素, 多数选择基于开源的数据库进行数据库的深度研发,并在研发过程中不断回馈开源社区。
开源数据库并不是和商业数据库背道而驰的,开源数据库同样可以实现商业化。我们认为, 在云计算快速发展的时代,商业数据库和开源数据库有望实现进一步融合。开源数据库典 型代表如 MySQL、PostgreSQL、MongoDB、Hbase、TiDB 等
全球格局:Oracle领衔,云时代百家争鸣
参与者:传统 IT 巨头、云计算巨头、独立公司三方势力竞逐市场
数据库市场目前主要由传统 IT 巨头、云计算巨头、独立数据库公司三大势力角逐。 传统 IT 巨头多在关系模型领域深耕,整体占据主导地位,但云计算、大数据的快速发展带 来了需求的进一步爆发,云计算巨头、独立数据库公司的数据库产品快速崛起。以 Apache 软件基金会为代表的开源项目在数据库市场也具备一席之地,但这些项目往往不以盈利为 目的。
1)传统巨头:传统数据库领域,国外数据库厂商起步较早,全球的传统 IT 巨头不断 进行战略布局和产品迭代,在传统数据库领域主导市场,包括 Oracle、IBM、Microsoft、 SAP 等。
2)云计算巨头:伴随云计算、大数据等技术的快速发展,互联网巨头在数据库市场 大放异彩,云计算巨头的数据库产品借势快速发展,包括亚马逊、谷歌、阿里、腾讯、华 为、Facebook 等。
3)独立厂商:在商业化和开源并行发展的同时,也涌现出一批技术起家的数据库独 立厂商,如 Mongodb、Snowflake 等公司,各自在自身的强势领域深耕细作。
传统巨头在关系型 OLTP 领域强势,云计算巨头以及独立数据库厂商在非关系型领域 以及 OLAP 领域更具竞争力。云计算巨头更多的是依靠云计算、大数据的快速发展崛起, 同时,独立厂商更多的选择依赖开源快速提升产品影响力和市场认知度,同时依靠社区的 力量,也可以对产品进行快速的迭代升级。
从流行程度看,传统数据库产品占据主流地位,传统巨头甲骨文、微软、IBM 排名稳 居前列,另一类是开源社区版数据库,包括 MySQL、PostgreSQL、Redis 等,值得注意 的是,MongoDB 作为独立数据库厂商,流行程度排名第五位,凭借其优异的产品性能、 丰富的应用场景赢得市场的青睐。
从产品维度看,传统 IT 巨头以及云计算巨头的产品布局较为完善,独立数据库厂商 专注于各自擅长领域。传统 IT 巨头如 Oracle,具备关系型、非关系型、分析类、开源等 多品类数据库产品,满足企业多样化需求。互联网巨头如亚马逊,产品主要围绕云生态布 局,多种云数据库、云数据仓库产品。独立厂商如 MongoDB,专注于文档存储数据库 MongoDB 的开发。独立厂商又如 SnowFlake,专注于数据仓库的开发,主要应用于分析 类场景。
市场规模:五百亿美元大蛋糕,云数据库快速崛起
各路豪强瓜分 500 亿美元市场大蛋糕。Gartner 报告显示,2018 年全球数据库管理系 统(DBMS)市场规模达 461 亿美元,同比+18.4%,增速达到近十年峰值,其中云数据 库贡献 104 亿美元,为行业增长贡献 68%,这种变化背后反映整个数据库行业云化趋势显 著。Gartner 预计,到 2021 年,云数据库在整个数据库市场中的占比将首次达到 50%;而到 2023 年,75%的数据库要跑在云平台之上。
Oracle 独领市场,全球云计算巨头市场份额快速提升,专注于数据库的创业型公司 逐渐崛起。从需求端来看,受益于数据量的爆发,大数据的相关应用场景日渐丰富,带来 不同类型数据库需求量的快速增长。从供给端来看,云技术快速普及,各大互联网厂商积 极推出各种基于云架构的数据库产品,匹配云计算的发展,不断提升数据库的计算和存储 性能。根据 Gartner 数据显示,2014 年 AWS 位列第 6,2016 年第 5,2017 年第 4,2018 年第 3 位仅次于 Oracle、微软;阿里云由 2014 年的 26 位跃升至 2018 年的第 9 位;谷歌 云由 2015 年的 23 位跃升至 2018 年的第 10 位;华为由 2015 年的 24 位跃升至 2018 年 的第 11 位;腾讯云由 2016 年的 27 位跃升至 2018 年的第 13 位。
以阿里、华为、腾讯为代表的中国云厂商正在崛起。根据 Gartner 2020 年全球数据 库魔力象限评估结果,阿里云首次挺进全球数据库第一阵营——领导者象限,是中国数据 库厂商首次进入全球顶级数据库行列。腾讯云、华为云进入“特定领域者”。Gartner 数据 显示,2019 年腾讯云数据库市场份额增速达 123%,位居国内所有数据库厂商之首,并在 全球范围内保持了连续两年增速前三的迅猛势头。华为云凭借 GaussDB 系列数据库产品 提供完善的产品矩阵和数据库迁移解决方案,基于融合开放理念,广泛兼容数据库开源生 态和华为自主生态 openGauss。
崛起规律:深耕技术打磨产品,抓住大数据时代潮流
(1)传统 IT 巨头:关系模型掀起数据库发展第一浪
20 世纪 60-70 年代,关系模型快速发展,关系型数据库可解决数据存储的易用性、 抽象性、独立性等问题,拉开了关系型数据库软件革命的序幕。1970 年,IBM 公司的研 究员埃德加·考特在 Communications ofACM 上发表著名论文的《A Relational Model ofData for Large Shared Data Banks》,在还是层次模型和网状模型的数据库产品在市场 上占主要位置的时代,拉开了关系型数据库软件革命的序幕。
IBM 在 1973 年就启动了 SystemR 的项目来研究关系型数据库的实际可行性,各方 关系型模型支持者吸取该项目经验,进行关系型数据库研发。1977 年,Oracle 创始人 Larry Ellison 与 Bob Miner 和 Ed Oates 在硅谷共同创办了一家名为软件开发实验室的计算机公 司(Oracle 前身),开始进行关系型数据库的研发,同时期 Berkeley 大学也在进行关系数 据库系统 Ingres 的开发。IBM 虽然 1973 年就启动了 SystemR 的项目来研究关系型数据 库的实际可行性,也没有及时推出这样的产品,因为当时 IBM 的的 IMS(著名的层次型数 据库)市场较好,公司当时认为,如果推出关系型数据库,会是对另一款产品的颠覆。
80-90 年代,大量数据库公司吸取关系模型经验,逐步推出自己的产品。1983,IBM 发布商业版数据库 DB2。1984 年,Sybase 公司成立,创始人之一 Bob Epstein 是 Ingres 大学版(与 System/R 同时期的关系数据库模型产品)的主要设计人员。1988 年,微软推 出 SQLServer,主要适配自身 Windows 生态,这个时期,Oracle 因为客户需求已经使用 C 语言开发出适用于多个系统版本的数据库产品。90 年代,Mysql、PostgreSQL 等开源 版本数据库陆续发布,出现在人们视野中。
我们认为,传统 IT 巨头在数据库领域能经久不衰的原因有以下几点:
a.起步较早
国外数据库厂商相对于国内厂商早起步 20-30 年。国内厂商中,如今占据国内市场份 额较多的南大通用成立于 2004 年,达梦成立于 2000 年,而国外的 IT 巨头早在上个世纪 便已经在这一领域进行研究发展,如 Oracle 诞生于上个世纪七十年代,早在 1989 年便进 入中国市场,2019 年已经发布了最新版本的 Oracle DB 19C。而 IBM 等公司同样在同期 已经有了数据库的研发。先入为主导致技术领先和客户粘性是如今国外厂商仍然占据国内 数据库市场巨大份额的重要原因。
b.产品快速迭代
龙头数据库公司对于产品的更新换代较为积极,能够产生较大的用户粘性,使得市场 份额优势持续。以Oracle为例,在 Oracle9i产品中引入网络(Internet)的特性,在 Oracle10g 中加入网格计算(grid)的特性,在 Oracle12c 中则引入云(cloud)的概念,不断让产品 有新的突破。而通过每一次更新对于产品的漏洞进行及时修复、推出新的应用、优化产品 的性能,也都会吸引已有的用户持续使用这款产品。数据库的这些特征,使其如同操作系 统一样存在较强的用户粘性,帮助行业龙头厂商迭代已建立的市场份额优势,因此数据库 行业是一个容易形成寡头的行业。
c.技术领先,性能加持
Oracle 的数据库产品包括两大类,第一种是自研的 Oracle Database,另一种是收 购之后归入 Oracle 公司的 MySQL。
Oracle Database 适用于大型企业,在兼容性、可移植性、可连结性、开放性方面都 有巨大优势。以其兼容性为例,Oracle Database 可以在 Windows、Unix、DOS 等多个 系统上工作;Oracle Database 也支持多种协议,如 TCP/IP、DECnet 等,可以与多种通 讯网络连接;Oracle 还提供了多种开发工具,方便用户自己做进一步开发。Oracle 在系统 吞吐量的 TPS(Transactions Per Second)、QPS(Query Per Second)、并发数等关键性能 指标在同类产品中领先。以 Oracle 12.2 为例,C 语言代码达到了惊人的近 2500 万行。
MySQL 是瑞典 MySQL AB 公司开发的一款开源数据库产品,定位在于开发小而精的 产品,其易用性强,拥有适合分布式组织的可伸缩性,也有为决策提供帮助的数据仓库功 能,还与许多其他服务器软件紧密关联,拥有出色的性价比。2008 年 Sun 以 10 亿美元收 购了 MySQL,而 Oracle 在 2009 年用高达 74 亿美元的资金收购了 Sun,将 MySQL 变成 了 Oracle 旗下的产品。
数据库产品最重要的指标之一是性能,Oracle 产品优势出众。安全性能方面,Oracle 的安全机制得到 17 家独立安全评估机构的认可,获得最高认证级别的 ISO 标准认证,SQL Server 几乎没有获得安全证书,而 IBM 则选择在数据库之外解决安全问题,依靠操作系 统等来保证 DB2 的安全;可伸缩性和并行性方面,Oracle 的服务器通过使一组结点共享 同一簇中的工作来扩展,提供高可用性和高伸缩性的解决方案。SQL Server 和 DB2 的并 行实施和共存模型仍不够成熟,在处理日益增多的用户数和数据方面的伸缩性有限;在开 放性上,Oracle 能在所有主流平台上运行,支持所有工业标准,使用户可以自由选择最佳 方案解决问题,没有 SQL Server 只能在 Windows 系统上运行的局限性。Oracle 的底层使 用 C 语言开发而成,随着不断发展在开发中也加入了 Java 语言和技术标准,并且支持绝 大多数编程语言,相比之下,竞争对手中的 SAP 的数据库软件 SAP Adaptive Server、SAP SQL Anywhere 等均只支持几种编程语言,与其他技术与平台的兼容度低于 Oracle。
Oracle 在产品的多功能性上拥有较大优势,拥有 RAC 等数据库领域的硬核技术。 Oracle RAC (Real Application Clusters)是 Oracle 的一项支持网格计算环境的关于应用集 群的核心技术。在一个应用环境中,让多个服务器来管理同一个数据库,分散了每一台服 务器的工作量。Oracle RAC 的技术大幅提升架构的可用性、性能、扩展性,即使某些实 例宕机,也能维持系统正常工作;提高集群的事务处理能力,使得多个实例能够并发工作;能通过增加节点提高数据库的性能;Oracle DataGuard是Oracle的高可用性数据库方案, 主要功能是数据保护、数据容灾。Oracle DataGuard 在主节点和备用节点之间通过日志同 步来保证主数据库与备用数据库之间数据的同步,实现数据库的快速切换和故障恢复,最 大程度保护数据库的安全。
d.生态完善
国外数据库公司注重技术创新和边界拓展,不断获得用户粘性。以 Oracle 为例,Oracle 是第一个引入对象概念、多媒体等多种数据格式、并行技术、网格技术的数据库。作为数 据库产品的标杆,Oracle 的 IT 布局十分完备,开发的产品涵盖了行业管理软件、企业管 理软件、中间件、数据库、操作系统、服务器、存储等多个领域。
此外,国外数据库产品的商品化程度高,一系列配套的服务也更为成熟。如 Oracle 为企业提供的 ERP 管理软件,帮助企业迁移到云 ERP 上,助力企业提高弹性和敏捷性, 驱动企业实现业务增长。
(2)云计算巨头:低成本、高弹性需求驱动,以自身应用场景向外延展
云数据库是部署和虚拟化在云计算环境中的数据库,以服务的方式提供数据库功能。 云数据库是在云计算的大背景下发展起来的一种新兴的共享基础架构的方法,它极大地增 强了数据库的存储能力,消除了人员、硬件、软件的重复配置,让软、硬件升级变得更加 容易。云数据库具有高可扩展性、高可用性、采用多租形式和支持资源有效分发等特点, 可满足企业海量数据存储、低成本数据存储、动态变化数据存储等需求。
我们认为,云计算厂商数据库产品快速发展立足的原因有以下三点:
1)成本压力变大,各厂商逐渐开始基于开源进行自研。以阿里巴巴为例,阿里曾经 就是甲骨文在亚太地区最大的客户,但由于 Oracle 数据库的高昂价格,阿里逐渐切换为基 于 MySQL 进行自研。
2)各大互联网厂商依托其专有应用场景不断完善打磨产品,最终向外延伸实现边界 的扩张。以亚马逊、阿里巴巴为例,这些厂商场景复杂,需求快速爆发,传统数据库产品 不能及时响应自身业务需求,程序员又无法看到 Oracle 核心源代码,便依托其电商场景下 庞大的数据处理场景打磨数据库产品。在此基础上,逐步演进为云数据服务提供商,提供 多种云数据库、数据仓库、数据挖掘类产品。
3)实现高自主可控。云计算厂商大多希望可以自己开发底层系统,实现系统软件的 安全可控,基于此,可以更好的保障自身业务和客户数据的安全性。
从供给端看,全球云计算产业快速发展中国增速更高,云时代新型数据库厂商开始持 续涌现。受益于云计算的快速发展,以分布式、微服务、容器等为代表的云原生技术不断 更新迭代与升级,为数据库产业的蓬勃向上奠定坚实基础。2019 年,全球总体云计算市 场规模达到 1883 亿美元,同比+20.86%。根据 Gartner 预测,未来四年全球云计算市场 规模 CAGR 将保持在 18%左右,2023 年整体市场规模将达到 3500 亿美金。我国云计算 市场未来有望是公有云和私有云并存发展,根据信通院预测,2023 年我国公有云市场规 模将达到 2307 亿元,我国私有云市场规模将达到 1447 亿元,整体增速高速全球云计算市 场增速,云时代新型数据库厂商开始持续涌现。
从需求端来看,数据量的爆发以及数据形式的多元化带来了爆发性的市场需求。全球 数据量生产迅猛,IDC 预测,2020 年全球数据产生量将达到 49ZB,同比增长 23%;中国 产业信息网预测,我国产生的数据量将从 2018 年的 7.6ZB 增至 2025 年的 48.6ZB,CAGR 达 30.35%,超过美国同期的数据产生量约 18ZB。2010-2018 年全球物联网设备数量高速 增长,CAGR 达 20.9%,2018 年全球物联网设备连接数量高达 91 亿个。预测 2025 年全 球物联网设备(包括蜂窝及非蜂窝)联网设备将达到 252 亿个。2018 年我国物联网连接 规模为 23 亿,预计 2022 年物联网连接规模将达到 70 亿。
(3)独立厂商:云原生大数据带来多元化需求,各路豪强竞相崛起
我们认为,独立数据库厂商有望快速发展,市场百花齐放,原因有以下三点:
1)对于独立厂商而言,多元化需求带来多重机遇。从需求看,半结构化数据、非结 构化数据快速爆发,各公司借需求多元化发展的趋势,推出适合特定场景的数据库产品。如 SnowFlake 基于云原生,在大数据时代做数据科学、数据分析、商业智能。
2)云计算推动分布式快速发展,各厂商不断实现新品升级。云计算快速发展,分布 式技术逐渐成为主流发展趋势,各独立厂商不断基于新架构发布产品,如基于云原生、存 储计算分离等,带来先进的性能、高弹性、易扩展等优势。而传统数据库厂商在新架构之 上的技术转型往往存在一定难度。
3)多云快速发展,中立优势明显。公有云和私有云结合的趋势日渐明显。中立厂商 开发数据库产品的同时往往会考虑多种环境,打通多个云环境,是企业在选型云产品的时 候更加灵活。以非关系型数据库、数据仓库、HTAP 等品类为例,未来有望呈现多元化发展、百花
a. 非关系数据库(NoSQL)领域:
以 MongoDB 为例,是一个基于分布式文件存储的数据库,旨在为 WEB 应用提供可 扩展的高性能数据存储解决方案,介于关系数据库和非关系数据库之间,具备高性能、易 部署、易使用,存储数据方便等特点。
NoSQL 泛指非关系型数据库,区别于关系数据库,它们往往不保证关系数据的 ACID 特性,对于超大规模和高并发数据具有较好的处理能力。NoSQL 数据库种类繁多,数据 之间无关系,容易扩展。NoSQL 数据库具有非常高的读写性能,尤其在大数据量下,主 要在于它的无关系性,数据库的结构简单。目前对于非关系型数据库主要有四种数据存储 类型:键值对存储(key-value),文档存储(document store),基于列的数据库 (column-oriented),图形数据库(graph database)。
b.数据仓库领域:
OLAP 是数据仓库系统的主要应用,其支持的对象只要是面向分析场景的应用,提供 结构化的、主题化的数据提供给运营,做业务反馈和辅助决策用,同时,有些场景下,也 可以由数据仓库对业务进行支持。
以 Snowflake 为例,提出了云原生数据仓库 Cloud Native DataWarehouse(CDW) 的理念,利用云原生的数据仓库技术,采取计算、存储分离架构,为客户提供了灵活、按 需付费的应用模式。
Snowflake 重视云原生数据仓库的构建。传统大厂例如 Oracle,Teradata,Netezza 因为本身产品架构的局限性,在性能、并发性、易用性上并不能完全良好的解决企业业务 需求,Snowflake 提出了独特的存储、计算以及管理服务分离的架构。Shared-disk 架构指 数据存储在同一位置,共享同样的资源。这种架构容易在多用户访问的情况下导致系统崩 溃,同时也难以满足高频读写、数据复制与迁移等需求。Oracle Exadata 采用了这种传统 的数仓架构,在延展性和并发性上相对落后。Shared-nothing 架构通过优化规则将资源分 摊到各个节点,每个节点不共享任何数据,数据的处理过程不存在争抢资源的情况,从而 提供更有效率的延展性和并发性。Netezza,Teradata,Redshift 采用此架构,也是 Hadoop 工作的基本原理,但此方式节点资源没有将存储和计算分开。当升级或者扩容发生时,系 统 需要重 新分配节 点资源 ,那么 数据本身 就会面 临大量 的迁移。 Snowflake 在 Shared-nothing 的基础上提出了 Multi-cluster, shared data 的概念,这种架构的关键在 于将存储和计算彻底分离,从本质上解决了传统数仓架构的痛点。数据即服务 DaaS 指与 数据相关的任何服务都能够发生在一个集中化的位置,如聚合、数据质量管理、数据清洗 等,无需考虑数据源,Snowflake 完全符合 DaaS 的概念。
c. HTAP 领域(同时支持 OLTP 和 OLAP):
HTAP 架构面向多种场景,系统统一,有望成为新一代数据库的重要发展方向之一。 基于创新的计算存储框架,HTAP 数据库能够在一份数据上同时支撑业务系统运行和 OLAP 场景,避免在传统架构中,在线与离线数据库之间大量的数据交互。此外,HTAP 基于分布式架构,支持弹性扩容,可按需扩展吞吐或存储,轻松应对高并发、海量数据场景。目前,实现 HTAP 的数据库主要有 PingCAP 的 TiDB、阿里云的 HybridDB for MySQL、 百度的 BaikalDB、腾讯的 TBase 等。其中,TiDB 是国内首家开源的 HTAP 分布式数据 库。
国内格局:各方势力迅速崛起,自主可控势在必行
市场格局:关系型数据库占据主流,云数据库借势崛起
超百亿规模,关系型占据主导,但整体占比出现下滑趋势。关系型数据库在数据库市 场的占比常年维持在 85%以上,由于数据量的爆发、数据形式的多元化,关系型数据库市 场比重近年来有所下滑,但未来较长一段时间内仍会是数据库行业的主流。智研咨询数据 显示,2018 年我国数据库软件市场规模为 139.25 亿元,其中,关系型数据库规模约 118.36 亿元,占比约 85%。Oracle 数据库占比关系型数据库超过 46%,国产数据库软件主要有 人大金仓、武汉达梦、神舟通用、南大通用、山东瀚高等。
基于公有云的数据库后来居上,目前与传统部署下的数据库规模基本持平,随着云数 据库的高速增长,未来将超过传统部署下的数据库市场规模。IDC 数据显示,2019 年中 国关系型数据库软件市场规模为 13.4亿美元。其中,传统部署模式市场规模为 7.9亿美元, 公有云模式市场规模为 5.5 亿美元,整体市场同比增长 30.8%。IDC 预测,到 2024 年, 中国关系型数据库软件市场规模将达到 38.2 亿美元,未来 5 年整体市场年复合增长率 (CAGR)为 23.3%。
传统部署模式下,此前国内市场占据优势地位的仍然是国外的数据库厂商,Oracle、 Microsoft、SAP、IBM 四家公司占据 66.8%的市场份额,国产厂商加速发展。近几年国 内传统数据库厂商在国内数据库市场所占的份额在逐渐上升。根据 IDC 数据显示,在传统 部署模式下,2019 年南大通用的市场份额达到了 4.2%,人大金仓的市场份额达到了 2.7%, 其他几家国内厂商如武汉达梦、山东瀚高、神州通用等公司也快速发展。
云数据库领域,阿里巴巴占据领先地位,云数据库厂商上升前景将在未来几年迅速显 现。根据 IDC 数据显示,阿里巴巴集团(含蚂蚁金服数据库业务收入)以 48.1%的市场份 额排名第一;腾讯以 20.4%的市场份额排名第二,2019 年腾讯加快数据库服务产品化的 速度,连续发布多款新产品;AWS 以 10.4%的市场份额排名第三;Oracle、华为、微软 分别以 7.0%、3.0%、2.5%的市场份额位列第四到第六位。云厂商的数据库大都先用于内 部业务的使用,经过多年打磨使技术更加成熟,再针对外界的其他业务场景做出更新,将 数据库云化、产品化提供给其他用户,以阿里、腾讯为代表所研发的数据库均是这种发展 路线。由于之前一直用于内部业务,并未产品化地作为商业数据库软件销售,面向外界开 放的时间较短,因此整体市场份额暂时落后。以阿里巴巴的 OceanBase 为例,OceanBase 立项于 2010 年,2011 年应用于蚂蚁金服的收藏夹功能中,经过多年的打磨与历练,一直 到 2017 年才开始帮助外部客户解决问题。我们判断,未来云数据库将持续快速发展,云 数据库有望成为数据库市场的主流。
国产替代:安全可控势在必行,打磨产品换道超车
二十一世纪以来,我国的信创产业发展越来越受到国家的重视。2008 年的“微软黑 屏事件”,2013 年的“棱镜门”事件,都让我们意识到拥有自主的信息技术的重要性。近 年,中美贸易争端带来了一系列摩擦,尤其是华为、中兴等公司受美国政府的打压面临巨 大困境,许多中国科技公司被美国商务部列入“实体清单”。中美贸易争端的本质也是中 美科技战,只有掌握技术的自主创新能力才能让国家更繁荣发展。在这样的背景下,信息 产业的软件和硬件的国产化需求会越来越强烈,政府将持续出台政策扶持信创产业发展。
我国的信创产业迄今为止可以分为四个阶段:
第一阶段:从 2006 年到 2013 年。我国在 2006 年发布了《国家中长期科学和技术发 展规划纲要(2006 年-2020 年)》,明确提出要大力发展核心电子器件、高端通用芯片及 基础软件产品,这些产品简称“核高基”,其中基础软件指的就是操作系统、中间件和数 据库。
第二阶段:2014 年到 2016 年。在此期间,“核高基”专项开始在多方面突破核心技 术走向产业化,如海思自主研发的国内首款智能电视 SOC 芯片实现了量产。
第三阶段:从 2017 年到 2019 年。2017 年,“核高基”重大专项第二批工程启动会 召开,2018 年“核高基”国家科技重大专项课题实施推进会在京召开。
第四阶段:从 2020 年开始。2020 年被称为信创产业大规模推广的元年,国家将在战 略层次不断支持信创产业前进,推动从软件到硬件构建信创生态。
针对“核高基”中的基础软件产品,阿里巴巴在 2008 年提出了“去 IOE”的概念。所谓去 IOE,指的是在 IT 架构中去掉 IBM 的小型机、Oracle 数据库和 EMC 存储设备。这也是国内整个信创行业一直以来科技创新的努力方向和目标。
数据库作为基础软件的一 种,在信创产业中是非常重要的一类,推动数据库国产化将是信创政策中必不可少的一环。 我国通过前期的科研投入,在大数据相关技术领域已具备加快技术创新的良好基础。“十三五”期间,国家重点科技研发计划实施了“云计算和大数据”重点专项,部分领域 已取得较大进展。大数据也已列入“科技创新 2030—重大项目”,从大数据生命周期和信 息技术体系两个维度全面规划、全链条推进大数据技术体系建设。国家发改委组织建设国 家级大数据工程实验室,加强大数据领域相关技术创新基地建设。各地也陆续推出一批与 大数据相关的政策措施。贵州、上海、京津冀、珠三角等 8 个综合试验区正在开展大数据产业发展试点。十九大报告中明确提出要建设“数字中国”,推动互联网、大数据、人工 智能和实体经济深度融合,实施大数据战略,加快建设数字中国。
安全可控背景下,以党政军为代表的信创行业正加速实现国产替代,传统老牌数据库 厂商是本轮红利核心受益者,党政信创正持续放量。2020 年,以党政公文、OA 系统为代 表的信创数据库招投标工作加速开展,2020 年 Q4 各数据库公司整体进入业绩兑现阶段, 主要代表公司为人大金仓、武汉达梦等。我们认为,自 2021 年起,党政数据库建设有望 从以公文系统为代表的边缘系统逐步向电子政务等核心系统领域迈进,同时伴随十四五规 划的逐步落地,军方信创建设也将逐步加速。
行业信创正部分起量,金融、电信行业引领市场,未来各行业实现全面国产化替代可期。金融行业方面, 2020 年 10 月 19 日,易鲸捷中标 4.26 亿元贵阳银行核心业务系统易 鲸捷国产数据库应用项目。2021 年 1 月 27 日,万里开源中标中国光大银行集中式数据库 定制研发项目;2021 年 1 月 21 日,巨杉软件中标唐山银行新一代信息系统项目集群影像 平台数据库软件项目采购。电信方面,中国移动国产数据库替代走在前列,2020 年 9 月 16 日,武汉达梦中标苏州研发中心 2020-2022 年移动云国产数据库项目;2021 年 1 月 13 日,阿里云中标中国移动福建分公司 2020 年国产分布式关系数据库软件。
在安全可控的背景下,传统数据库厂商、云厂商、独立数据库厂商有望在政策的不断 驱动下投入技术研发,不断打磨产品,进而缩小与海外数据库龙头的差异,借此机会,各 厂商不断在政府、电信、金融领域树立标杆项目,未来有望不断向更多的领域拓展,借此 实现换道超车。
趋势推演:大数据驱动产业变革,云与开源助推企业快速成长
从整个大数据产业链来看,上游是硬件设备和基础设备,下游则是各种应用软件,而 数据采集、数据存储和云平台、数据分析和挖掘则是位于产业链的中游。其中 Microsoft、 IBM、Oracle、Snowflake 等公司的数据库软件实现了数据分析和挖掘功能。由于大数据 一般有数据类型繁复、数据量庞大、分布式存储等特点,仅凭借传统关系数据库存取和分 析大数据存在一定的难度,因此 Oracle、IBM 等公司都尝试将自己开发的一些产品与 Hadoop 等进行融合,取长补短,以满足大数据处理的需求。大数据产业的快速发展给国 内数据库厂商带来众多机遇。
云计算与大数据高度结合,加速产业变革,数据库上云趋势明显,助推国内企业快速 成长。从技术升级来看,云计算快速发展,加速释放相应的配套服务红利,尤其是混合云 趋势日渐明显,不管公有云厂商还是独立数据库厂商均有望得到良好的发展机遇。根据 Gartner 的预测,到 2023 年将有 75%左右的数据库会被部署或迁移到云平台上。从需求 来看,需要处理的数据越来越多,需要处理数据的频率也越来越高,往云端发展,可以同 时解决数据量大和使用频率高两个问题,同时具备高弹性、低成本等优势。
国内云计算龙头多借助自身场景向外拓展,阿里巴巴、腾讯等公司面临过许多短时间 内数据量巨大的场景。如阿里巴巴的双十一,需要处理来自全国的海量用户的数据,阿里 云在 2019 年的双 11,创造了 54.4 万笔/秒的交易峰值,2019 年双 11 单日处理数据量达 到了 970PB。腾讯近几年的爆款手游王者荣耀、春晚的微信红包等也是面对极大的数据流 量。这种在任何欧美国家都不会遇到的复杂多变的应用场景、惊人的用户数量以及瞬息万 变的用户需求,促使中国数据库厂商快速崛起。阿里、腾讯等国内公司在大数据方面通过 了严峻的挑战,有更多的经验去进一步发展大数据技术,类似的数据处理经历也能够让用 户对他们的技术更有信心。由于分布式数据库更多地与云技术相结合,因此分布式数据库 的进步与云的服务模式关系密切。中国信息通信研究院的云计算发展白皮书(2019 年) 的数据,在国内,IaaS 市场占比达到 60%左右,这体现我国在云基础设施的建设方面有 了一定成就,能够为分布式数据库的进一步发展做好基础,但是同时也反映出我国的 SaaS 和 PaaS 市场存在巨大的发展空间。
开源社区的持续火热助推数据库技术快速发展。开源模式是一种相对于专有模式的开 发模式,是指将源代码进行公开,更好的促进软件的快速创新。开源软件层出不穷,任何人可以得到软件的源代码,加以修改学习,甚至在许可范围内重新发放。
热门开源项目持续涌现,科技巨头和开源软件公司积极参与。近年来,开源热度持续 攀升,机器学习、容器、移动端开发等热门领域开源项目持续快速增长。据 GitHub 数据 显示,截止 2018 年,GitHub 已有 3000 万开发人员,200 万家企业和组织,拥有 9600 万个代码库。各大科技公司如谷歌、红帽、微软、阿里巴巴是开源项目的主要贡献者,不 断提升技术积累和影响力,为自身生态的构建和市场的拓展奠定基础。开源数据库包括 PostgreSQL、Hbase、Mysql 等。开源数据库的比例在逐步上升,DB-Engines 的统计 结果显示,截止 2020 年开源数据库和商业数据库的比例已经相近。
借助开源的力量,国内数据库企业快速实现技术创新,缩小差距甚至赶超海外数据库 龙头。根据 DB-Engines 的另一项关于两类数据库的受欢迎程度的调查结果显示,开源数 据库从 2013 年以来受欢迎程度一直呈现出增长的大趋势。经过不断的发展和完善,开源 数据库的功能也变得越来越强大。Rightscale 数据显示 2018 年全球有 24%的私有云的底 层技术使用了开源云计算平台 Openstack,国内许多私有云也都是基于 Openstack 平台。而 Openstack 平台的许多用户在开发时使用了开源的 MySQL 的相关技术。云数据库架构 许多都以开源代码为基础进行开发,缩小了国内外数据库公司在分布式数据库领域的技术 壁垒。在分布式数据库的开发中,国产数据库公司与海外数据库公司的差距较小,拥有赶 超前景。
重点公司数据库业务梳理(详见报告原文)
阿里巴巴:凭借领先的云技术,分布式数据库大放异彩。
腾讯:围绕 TDSQL 系列,提供领先的分布式数据库服务。
华为 GaussDB:与 AI 深度融合,拥有异构计算创新架构。
PingCAP:聚焦开源分布式 HTAP 数据库 TiDB。
星环科技:大数据基础平台综合服务商。
巨杉数据库:以分布式 SequoiaDB 为核心,聚焦金融行业。
人大金仓:政务大数据龙头,与军工领域深度合作。
武汉达梦:背靠 CEC,擅长混合型数据库开发。
海量数据:数据库、数据计算、数据存储一体化服务商。
南大通用:国内份额领先,围绕 GBase 与云技术积极结合。
科蓝软件:专注银行市场,拥有内存数据库 Goldilocks。
万里开源:MySQL 中国的白金认证合作伙伴。
(本文仅供参考,不代表我们的任何投资建议)
为便于研究人员查找相关行业研究报告,特将2018年以来各期文章汇总。欢迎点击下面红色字体查阅!
文琳编辑
今日导读:点击下面链接可查阅
公众号 :文琳行业研究
文琳行研报告,为各机构提供专业的信息、数据、研究和咨询服务。欢迎关注【文琳行业研究】
《文琳阅读》每晚经典,欢迎关注!
文琳编辑
今日导读:点击下面链接可查阅
公众号 :文琳阅读
公众号 :就业与创业