查看原文
其他

ChatGPT 将冲击数据库!中国数据库开发者报告正式发布

屠敏 CSDN 2023-04-24

作者 | 屠敏
出品 | CSDN(ID:CSDNnews)

经过一批批先行者和企业的努力,国产数据库崭露峥嵘,逐渐走上国际舞台,譬如:三年前阿里自主研发的金融级分布式关系数据库 OceanBase 在 TPC-C 基准测试中,拿到全球第一的好成绩;不久前,腾讯云数据库 TDSQL 在 TPC-C的基准测试,性能达到每分钟 8.14 亿笔交易(tpmC),打破了世界纪录;与此同时,当老牌数仓软件巨头 Teradata 宣布将逐步结束在中国的直接运营之时,无论是阿里云的 AnalyticDB,还是南大通用的 GBase、鼎石纵横的StarRocks、华为的 GaussDB(DWS)均已做好了十足的准备。

从过往由欧美软件为主导到如今逐步实现国产替代,我们所处地位在不断刷新的背后是国产数据库的厚积与薄发,沉淀与酝酿。当下,随着 AI 2.0 时代的到来,以及各种类 ChatGPT 大模型工具不断孵化的今天,一些新需求的出现对数据库研发提出挑战,一些旧的观念也在发生变化,一些新的技术将对数据库产品形态产生影响。

为了帮助数据库从业者与企业探索更多可能,CSDN 重磅发布《2022-2023 中国基础软硬件-数据库开发者调查报告》,从工具、技术、应用、趋势等维度剖析数据库使用现状,展望数据库的未来发展路线,同时,我们也特邀腾讯数据库首席架构师李海翔对报告进行深度分析与点评。 

以下是一些重要发现:

▶ 94%的开发者对数据库技术有一定的了解,但是参与数据库内核研发的专业人才仅有 5%;

▶ 有独立的理论原创内容才算是数据库实现了创新,支持这一观点的开发者人数最多;

▶ MySQL 使用率最高、TiDB 是开发者最熟悉的国产数据库;

▶ 68% 的企业计划或者已经应用了云数据库, 但仍有 83% 的开发者对云数据库的数据安全表示担心。

▶ 「工程实现难度大,模块之间的耦合度太高」是开发者认为在数据库引擎研发中最大的挑战。

▶ ChatGPT 的兴起,必然会对数据库的产品形态带来冲击。51% 的开发者看好 AI 融合数据库的发展,认为智能化、自动化运维数据库会一个很重要的方向。


深入应用数据库开发者增加,但更为专业的数据库人才仍然匮乏


作为基础软件三驾马车之一的数据库,它是数据处理和存储的重要组成部分,对于开发者来说掌握其基础知识是必不可少的。

根据调查结果显示,有 40% 的开发者已经对数据库进行了深入的了解,并能够应用到实际的开发中,这一部分开发者可以被认为是数据库的高级使用者,可以独立进行数据库的开发和维护工作。这一数值相较去年 38% 的占比,有所增加。

但是,仅有 2% 的开发者具有深入理解数据库原理的知识,并有数据引擎研发的背景,这些开发者具备编写高级数据库引擎的能力。


图表1 开发者对数据库的了解

在有数据库相关工作经验和技能的开发者群体中,30% 的开发者主要负责数据库业务开发,25% 的开发者从事数据库应用程序开发。这两个领域的开发者充分掌握了数据库操作和应用的技能,能够快速有效地开发各种类型的数据库业务与应用。

图表2 与数据库工作相关的开发者占比

另外,内核研发是数据库中非常重要的一部分,这部分开发者所需的技能与知识更为专业化和深入,不过内核研发的开发者仅占总开发者比例的 5%。


国产数据库:谁能突破理论研究,谁就会受益


从上述数据中也不难看出,相较往年,关注与参与数据库开发的从业者在稳步增长,这离不开云计算和大数据等技术的加持,也离不开国内创业公司和大型企业纷纷涌入数据库市场的引导。

据调查数据显示,31% 的开发者感觉国产数据库发展迅速,表现出极大的潜力与发展前景;当然,也有 22% 的开发者认为国产数据库还缺乏创新,需要更多的技术和功能的升级。

 

图表3 开发者对国产数据库的印象

开发者们对数据库领域的创新展现了极高的关注和兴趣。根据我们所统计的数据显示,38% 的开发者认为,有独立的理论原创内容才算是数据库领域的创新。其次,在工程领域做到世界前列(32%)和基于现有理论独立完成编码实现(32%)紧随其后。

与此同时,也有不少开发者提出,国产数据库如果能支持中文语句、包罗万象、或者兼容其他类型数据库会更有创新性。

图表4 数据库领域中什么样算是创新

事实上,国产数据库在理论方面的研究还没有形成体系和影响力,好在能有一点成体系的研究,如 DTCC 大会近几年内分享过的分布式事务全局读一致性、多级一致性等。李海翔表示,「数据库的发展更需要在基础理论方面,投入更多的力量,取得突破。我们认为,能够引发数据库技术下一场的革命,一定是基础理论层面获得突破性进展。可以肯定的是,谁肯在理论研究层面投入资源,谁将获得收益」。

而在工程领域方面,也正如文章伊始所述,国内先后有阿里、腾讯 2 家公司,在 TPC-C 测评中先后以较大优势赢得榜首。当然,要想国产数据库未来取得无限可能的成就,还需要基于上述这些创新方向持续发力,做出突破。


MySQL 使用率最高、TiDB 是开发者最熟悉的国产数据库


调查数据显示,有 17% 开发者表示企业中使用商业数据库,39% 开发者表示企业中使用开源数据库,这反映出虽然开源数据库在成本、可定制性等方面有很大的优势,但商业数据库在数据安全、服务质量等方面的优势也不能被忽视。

图表5 公司使用或开发的数据库类型

关系型数据库依然是使用率最高的数据库类型,约 73% 的开发者在使用它。

 

图表6 开发者使用的数据库类型

开源的 MySQL 是使用率最高的数据库,占比 70%。另外 Oracle 和 Redis 的使用率也比较高,分别占比 28% 和 24%

图表7 开发者主要使用的数据库

国产数据库持续在特定领域深耕,也受到了不少开发者的喜爱, 数据显示,  TiDB 数据库继续领先其他竞争对手,成为开发者最熟悉的国产数据库之一。同时,AliSQL 和 OceanBase 也保持其强劲的发展势头。

图表8 开发者最为熟悉的国产数据库(Top 10)


云数据库势不可挡


本地部署是最常见的部署模式,占比高达 59%,其次是混合部署,占比为 34%。虽然混合部署、云托管和云原生的占比相对较低,但总体来说仍有相当大一部分的开发者在使用云端数据库服务。 

图表9 数据库部署模式

究其原因,部署云数据库是一种高效的数据库解决方案,具有多项优点,如数据备份和恢复、灵活性、易扩展性以及成本节省等。随着云计算技术的不断发展和普及,越来越多的企业选择使用云数据库提高数据处理效率,并减少数据库维护成本。据调查显示,已有 48% 的企业应用了云数据库。还有 20% 的企业已经在计划中。

图表10 是否应用云数据库

不过,与传统的本地数据库相比,云数据库在许多方面具有更高的可靠性和安全性, 但仍有 83% 的开发者对数据安全表示担心。其次性能、网络延迟和价格等问题也占比较高。在云数据库的使用中,企业可以选择根据实际需求灵活调整所使用的云数据库规模,包括存储容量和性能型号,云数据库厂商也针对这些问题提供各种优化服务,例如定制化硬件和软件、自动负载均衡等。

图表11 企业在迁移上云过程中的顾虑

对此,李海翔表示,云数据库服务,未来还有一定的发展空间;但也表明,云数据库应用的速度并不是非常快,云数据库的技术尚需磨砺并获得突破,才能有望获得更大的份额。

数据库研发面临重重挑战


对于很多开发者与企业而言,在开发数据库有关的应用过程中,也面临重重挑战。

据调查数据显示,最难点是需求分析,占比 30%。其次是数据结构(18%)、表结构的设计(17%)和系统设计(15%)。缺乏研发人才(14%)也是一个比较大的问题。

图表12 应用研发过程中的难点

另外,在数据库引擎的研发过程中,引擎的设计和优化是非常重要的,因为它直接关系到数据库的运行效率和稳定性。数据显示,33% 的开发者认为在研发过程中最大的问题就是「工程实现难度大,模块之间的耦合度太高」。实际上,这也是开发数据库引擎时遇到的一个难点。

图表13 研发数据库引擎的难点

虽然国产数据库发展稳中向好,但数据库迁移成本、兼容性等制约着国产数据库的发展,因此,国产数据库的发展也需要注意到这些问题,加强技术研发和团队建设,提高数据迁移和兼容性的能力,以更好地服务于广大用户。 

图表14 制约国产数据库发展因素

与此同时,数据库需要满足多方面的需求,以更好地服务不同行业和用户的需求。总体来看,数据库需要具备足够稳定和安全性,53% 的开发者更加关注数据库的稳定性。44% 的开发者关注数据库的安全性。当然,数据的正确性、处理速度性能也是非常重要。

图表15 行业对数据库的特定需求排行

李海翔解析道,新的数据表明,在数据正确性方面,采用严格的可串行化隔离级别的用户(40%)已经多于采用弱隔离级别的用户(32%)。这一点和传统的认知有所不同:在 Oracle 数据库一统天下的时代,即使金融类的应用为追求性能也只采用读已提交隔离级别,而把正确性的问题抛给开发者(开发者使用SELECT…FOR UPDATE)。人们普遍认为:弱隔离级别已经足够使用了。其实这一点非常不正确,在 DTCC 2022 大会上,有分享者给出数据证明:采用 SELECT…FOR UPDATE 从外部实现数据正确性的方法会严重导致数据库的性能下降,在较高并发场景下,数据库性能可能下降 70% 左右;所以数据库如何保证 100% 数据正确的背景下提高并发性能,对数据库研发而言是一个艰巨的挑战。

而如何解决上述提及到的数据库内核、数据库引擎以及让产品变得更智能更易用且更稳定的种种挑战,李海翔认为,当下或许可以思考 ChatGPT 技术能为数据库的易用性带来什么。


ChatGPT 的兴起,必然会对数据库的产品形态带来冲击

当展望数据库的未来发展方向,开发者的观点主要集中在以下几个方面:

1. 多模数据库,即一库多用。这种数据库开发技术可以将不同应用所需的各种数据整合到一个数据库中,满足多个应用场景需要,占比为 52%。

2. AI 融合数据库也成为一个热门方向。数据库结合人工智能技术,可以实现数据库的智能化、自动化运维,从而提高数据库性能,占比为 51%。

3. 与云计算深度结合的数据库,作为一种新型数据库技术,将极大地提升数据分析和数据处理能力,占比为 40%。 

图表16 未来数据库发展方向

对此,李海翔表示,当下许多开发者看好 AI 融合数据库的发展,现如今随着 ChatGPT 的兴起,必然会对数据库的产品形态带来冲击,新品类的数据库系统,也许会兴起,可能的方向为:易用的数据库系统,人机交互方式和运维方式将得到巨大改变;数据库引擎的核心组件如查询优化器、执行器、事务处理模块等,都有希望获得巨大变化。

以上便是《2022-2023 中国数据库开发者调查报告》的内容。之后我们将陆续揭晓围绕开源、基础软硬件、云计算、AIOT 四大主题的调查报告,敬请期待。

相关阅读:

超越 ChatGPT ?AutoGPT 爆火,两周斩获 50k+ Star:无需人类插手,自主完成任务!
☞GPT-4 让 Python 程序实现自修复 Bug,国外小哥将工具命名为“金刚狼”,并开源!

优酷回应非会员收看3000秒广告;亚马逊推出Titan大语言模型;Android 14首个Beta版本释出 | 极客头条


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存