查看原文
其他

数据库年度报告:回望 2022

BB仔 Bytebase 2023-01-28
作者|Andy Pavlo
原文链接|https://ottertune.com/blog/2022-databases-retrospective/


又一年过去了,我还活着。现在是回顾去年在数据库行业大事件的绝佳时机。由于 DBMS 供应商之间的性能之争已经平静了下来,这一年安静很多。写去年的回顾很有趣,所以很高兴与你们分享 2022 年的突出事件以及我自己的一些想法。

大额数据库融资大幅放缓
正如我去年提到的,2021 年是数据库融资的一个大年。投资者们在寻找下一个 Snowflake,大量资金被投入到建立新 DBMS 的初创公司。2022 年的开头看起来是前一年的翻版,有很多大的融资宣布:2 月有 Timescale 的 $1.1 亿 C 轮,Voltron ata 的 $1.1 亿种子 + A 轮,以及 Dbt Labs 的 $2.22 亿 D 轮。Starburst 在 3 月宣布了 $2.5 亿 D轮以继续建设 Trino。Imply 在 5 月为他们的商业版 Druid 融到了 $1 亿的 D 轮。6 月,DataStax 在前往 IPO 的路上获得了 $1.15 亿的资金。随后,SingleStore 在 7 月获得了 $1.16 亿的 F 轮,在 10 月又追加了 $3000 万。另外,2022 年上半年还有几家小公司的 A 轮融资令人印象深刻,包括 Neon 为其 severless PostgreSQL 融到的 $3000 万,ReadySet 为其 SQL 查询缓存引擎融到 $2900 万,Convex 为其基于 PostgreSQL 的应用框架融到 $2600 万,以及 QuestDB 为其 time-series DBMS 融到 $1500 万。虽然我们自己的 Ottertune 没在打造全新的 DBMS 或相关基础设施,但我们在 4 月也获得了 $1200 万 A 轮融资。
但随后,大规模的融资在 2022 年下半年停止了。虽然有些规模较小的融资(早期创业公司),但对于更加成熟的公司来说,已经没有九位数的融资了。RisingWave 的流式处理引擎在 10 月获得了 $3600 万的 A 轮融资。Keebo 为其 Snowflake 查询加速器筹集了 $1050 万 A 轮融资。11 月,MotherDuck 宣布了 $4500 万的种子 + A 轮,以商业化 DuckDB 的云版本。EdgeDB 同样在 11 月宣布了 $1500 万 A 轮。最后,SurrealDB 获得了 $600 万的种子轮。我可能错过了一些,毕竟这不是一个完整的列表。
数据库领域唯一另外值得一提的金融事件是 MariaDB 在纽交所灾难性的上市 (通过 SPAC),股价在第一天下跌了 40%。
Andy 的观点:
与 2021 年相比,2022 年大额融资轮次的减少有两个原因。最显著的是,整个科技行业已经降温,部分原因是对通货膨胀、利率和加密经济崩溃的担忧;另一个原因是,有能力拿下大额融资的人都已经拿下了。比如 Starburst 在 2021 年得到了 $1 亿的 C 轮融资后,于 2022 年进行了 D 轮融资。在过去两年中进行了巨额融资的数据库公司将需要尽快筹集更多资金,以保持高速增长。有人评论说这些公司融到的金额令人吃惊。
坏消息是,除非科技行业大环境有所改善,大的机构投资者重新把钱流向市场,否则这些公司就有麻烦了。市场不需要这么多独立软件供应商(ISV)的数据库。这些拥有十亿美元估值的公司继续前进的唯一途径是上市或破产。收购这些公司成本太高(除非 VC 接受大幅降低的估值)。此外,科技巨头(比如亚马逊、谷歌、微软)已经有自己的云数据库产品了。因此,目前还不清楚谁会收购这些数据库初创企业。对于亚马逊来说,以 Clickhouse 2021 年 $20 亿的估值去收购它是没有意义的,因为他们靠 Redshift 每年就能赚数十亿美元。这个问题不是 OLAP 数据库公司独有的,OLTP 数据库公司很快也会面临同样的问题。
我不是唯一一个对数据库初创公司的命运做出如此可怕预测的人。Gartner 的分析师预测,到 2025 年,50% 的 独立 DBMS 供应商将倒闭。显然,我是有偏见的,但我认为能够生存下来的公司将是那些在 DBMS 之上的工具:去改善,而不是取代它们(例如 dbt, ReadySet, Keebo 和 OtterTune)。
我不予评论通过 SPAC 快速上市这个方法是否是一个好主意(就像 MariaDB 所做的)。这种金融行为不属于我的专业领域(数据库)。但是前任美国总统使用了相同的伎俩来上市他的社交媒体公司,所以这看起来还蛮可疑的。

区块链数据库仍然是个愚蠢的想法
有人曾宣称 web3 代表着构建新应用程序的方式将彻底改变。曾经有一名学生从我的教室夺门而出,因为我教的是关系型数据库而不是 web3。Web3 的核心原则是在区块链数据库中存储状态。区块链本质上是去中心化的日志结构数据库(即 Ledger),它使用哈希树的某种变体和 BFT 共识协议来维护增量校验,以更新数据库。这些增量校验是区块链确保数据库的日志记录是不可改变的方式:节点以此来验证之前的数据库更新没有被篡改。
区块链是过去想法的一个巧妙组合。但认为去中心化的账本是人们建立 OLTP 应用程序的方式是被误导了。从数据库的角度来看,除了加密货币外,它们没有比现有的 DBMS 技术更实际的使用案例了。此外,任何声称区块链在数据库中提供比现有 DBMS 更好的安全性和可审计性的说法都是完全错误的。
因此,如果说加密货币是区块链数据库的最佳案例,那么加密货币市场在 2022 年崩盘则是雪上加霜,这进一步阻碍了它们的未来。在这次讨论中,我将忽略 FTX 的崩溃,因为它是直接的欺诈行为,与数据库毫无关系。然而,我要指出 FTX,就像所有其他加密货币交易所一样,没有在区块链数据库上运行他们的业务,而是使用 PostgreSQL。但其他与加密货币无关的区块链数据库用例,如交易和游戏平台,由于不实用或骗局而泡汤了。
 Andy 的观点:
在评估一项技术时要遵循的一条规则是,一旦 IBM 给它拍了广告,它就不再是「新」的了。如果 IBM 拍广告的时候还没有令人信服的案例,那永远不会有了。例如,IBM在 2002 年的广告中把 Linux 作为一个热门的新事物来吹捧,但当时成千上万的公司已经把 Linux 作为主要服务器操作系统了(包括谷歌)。因此 IBM 在 2018 年推出他们的区块链广告时,我就知道这项技术在加密货币之外毫无进展了:因为没有一个问题是去中心化的区块链可以解决,而中心化的 DBMS 不能解决的。今年 IBM 宣布他们关闭了与航运巨头马士基(Maersk)合作的供应链 IT 基础设施检修项目(也是他们在广告中宣传的内容),这并不令人惊讶了。
相比一个由受信任的权威机构控制的、只允许受信任的客户直连的交易型 DBMS,区块链的效率低得可怕。除了加密货币或诱捕等非法活动,几乎所有现实世界的互动都是这样的。我们需要信任他人,才能有一个正常的社会。例如,我授权托管 OtterTune 网站的公司收取信用卡费用,他们信任一个云供应商来托管他们的软件。没有人需要一个区块链数据库来进行这些交易。
从 proof-of-work (PoW) 转换到能量消耗较低的 proof-of-stake (PoS) 确实可以提高区块链数据库的性能。但这只影响到数据库的吞吐量;区块链交易延迟仍以几十秒为单位计算。如果解决这些长延迟的办法是使用参与者较少的 PoS 区块链,那么应用程序还不如使用 PostgreSQL 并对这些参与者进行认证。
可以看看 Tim Bray 的这篇文章(https://www.tbray.org/ongoing/When/202x/2022/11/19/AWS-Blockchain),是关于他与 AWS 高层就区块链是否有可行的用例进行的内部讨论。请注意,他说 AWS 在 2016 年得出结论,区块链数据库是一个寻找问题的解决方案,比 IBM 推出广告还要早两年。而尽管 AWS 最终在 2018 年发布了 QLDB 服务,但它与区块链不是一回事;它是一个集中式可验证的账本,不使用 BFT 共识算法。QLDB 的使用率并不高,特别是和 Aurora 相比。
题外话 #1:我最近参加了一个 SFO 会议的小组讨论,SBF 也从巴哈马飞来参加了。我留下来看了他的演讲,当 SBF 来到舞台上时,观众们都疯了。我的 Slack 聊天记录显示了 SBF 回答主持人问题时用的 yep,乏善可陈。
题外话 #2:在 FTX 暴雷三周前,有人向 Dana Van Aken 和我指出,OtterTune 的全职工程师数量与 FTX 在巴哈马的团队相同。然后这个人告诉我们,既然我们有相同数量的工程师,OtterTune 应该像 FTX 一样更加灵活和积极,他们已经有 $10 亿 ARR 了。Oops。

新的数据库系统
今年有不少新的 DBMS。

谷歌 AlloyDB

今年最大的重磅炸弹是谷歌云在 5 月宣布了新的数据库服务。AlloyDB 不是建立在 Spanner 之上,而是 PostgreSQL 的一个魔改版本,它将计算层和存储层分开,并直接在存储中支持 WAL 记录处理。

Snowflake Unistore

6月,Snowflake 宣布了他们新的 Unistore 引擎与混合表,支持 DML 操作的低延迟交易。更新一个表时,修改会被推到 Snowflake 的列式存储。SingleStore 的某人有点上头,提到他们在这个领域有专利,但没有任何后续了。

MySQL Heatwave

Oracle 意识到亚马逊从 MySQL 上赚的钱比他们多之后,2020 年决定在 MySQL 之上建立自己的云产品。但是,他们没有做一个 RDS 的复制品,而是用一个叫做 Heatwave 的内存向量 OLAP 引擎来扩展 MySQL。去年,Oracle 宣布他们的 MySQL 服务也支持自动数据库优化(但与 OtterTune 提供的不同)。今年,Oracle 终于意识到他们不是领先的云计算供应商,最终不情不愿地在 AWS 上支持了 MySQL Heatwave。

Velox

Meta 在 2020 年开始构建 Velox,作为 PrestoDB 的一个新的执行引擎。两年后,他们官宣了这个项目,并发表了一篇 VLDB 论文。Velox 不是一个完整的 DBMS:它没有 SQL 解析器、Catalog、优化器以及网络支持。相反,它是一个具有内存池和存储连接器的 C++ 可扩展执行引擎。人们可以围绕 Velox 来建立一个成熟的 DBMS。

InfluxDB IOx

就像 Meta 的 Velox 一样,Influx 团队在过去的两年里一直在研究他们新的 IOx 引擎。他们在 10 月宣布了新引擎 GA。InfluxDB 在 DataFusion 和 Apache Arrow 的基础上从零开始建立了 IOx。值得庆幸的是,在我于 2017 年告诫 Influx CTO 使用 MMAP 是个坏主意之后,他们也在新系统中抛弃了 MMAP。
 Andy 的观点:
数据库是我生命中第二重要的东西,所以看到去年的发展我很欣慰。
我认为 AlloyDB 是一个漂亮的系统,有大量的工程投入,但我仍然不知道它的创新之处。AlloyDB 的架构类似于亚马逊 Aurora 和 Neon,DBMS 存储有一个额外的计算层,独立于计算节点处理 WAL 记录。尽管已经有一个坚实的数据库组合(如 Spanner, BigQuery),谷歌云仍觉得有必要建立 AlloyDB,试图追赶亚马逊和微软。
需要关注的长期趋势是Velox, DataFusion, 和 Polars 等框架的诞生。与 Substrait 等项目一起,这些查询执行组件的平民化意味着所有的 OLAP DBMS 在未来五年内将大致平起平坐。与其完全从头开始建立一个新的 DBMS 或者 fork 一个现有的系统(例如 Firebolt fork 了 Clickhouse),人们最好使用像 Velox 这样的可扩展框架。这意味着每个 DBMS 都将拥有十年前 Snowflake 所特有的向量执行能力。由于在云中,存储层对每个人都是一样的(比如亚马逊控制的 EBS/S3),DBMS 产品之间的关键区别将是难以量化的东西,比如 UI/UX 和查询优化。

一位数据库先驱的离去
一个比较沉痛的消息是 2022 年 7 月,我们失去了 Martin Kersten。Martin 是 CWI 的研究员,领导了几个很有影响力的数据库项目,包括 90 年代第一批分布式内存 DBMS 之一(PRISMA/DB)和 00 年代第一批列式 OLAP DBMS 之一(MonetDB)。Martin 在 2020 年被荷兰政府授予皇家骑士勋章,专门表彰他在数据库方面的工作。
MonetDB 的代码库是其他几个 OLAP 系统项目的跳板。在 2000 年末,Peter Boncz 和 Marcin Żukowski fork 了 MonetDB 并打造了 MonetDB/X100,然后作为 Vectorwise(现在称为 Actian Vector)进行商业化。Marcin 后来使用他在原始 MonetDB 代码上开发的很多技术,和别人共同创立了 Snowflake。最近,Hannes Mühleisen 创建了 MonetDB 的嵌入式版本,称为 MonetDBLite,然后又将其重写为现在的 DuckDB。
Martin 对现代数据库系统的贡献怎么强调都不过分。如果你使用任何现代分析型 DBMS(比如 Sowflake, Redshift, BigQuery, Clickhouse),那么你必定受益于 Martin 和他的学生在过去 30 年中的研究。
 Andy 的观点:
我承认,与 Mike Stonebraker 这样的人相比,Martin 可能不太为数据库研究界以外的人所知。我一直认为 Martin 是欧洲版 Stonebraker:他们都是多产的数据库研究人员,都是高高瘦瘦,戴着眼镜,年龄也差不多。但 Martin 可不是什么山寨货,像假冒的任天堂 Smitch。 
在研究之外,Martin 热衷于与任何人讨论数据库架构。我最后一次见到他是在疫情前的 VLDB 2019。他和我争论了将近一个小时,讨论为什么他觉得在 MonetDB 中使用 MMAP 是正确的选择;他声称,因为 MonetDB 专注于只读的 OLAP 工作负载,那么 MMAP 就足够好了。我感觉很糟糕,因为他还不得不面对在 Youtube 上学习我的数据库课程的学生给他发邮件问「为什么 MonetDB 做出了我声称是劣质的设计选择」。
推荐大家看看 Martin 在 2021 年为我们的 CMU-DB 研讨会系列所做的讲座。我向 Martin 保证我不会因为抱怨 MonetDB 对 MMAP 的使用而破坏他的演讲。但是如果你看了前 60 秒,你会看到我雇了个荷兰人为他录制了一段假的介绍。

用数据库的财富来拯救民主
我总是想以快乐的语气结束年终回顾的文章。数据库应该让人们对自己的生活感到愉悦。它们代表了科学和工程突破的顶峰,使我们能够组织有关现代生活方方面面的数据。鉴于此,我的最后一个故事应该让每个人都感觉良好。这是一个有人为正确的理由做正确的事情的例子。
2022 年 5 月,《华盛顿邮报》报道,Oracle 创始人、帆船爱好者 Larry Ellison 参加了 2020 年 11 月的一个电话会议,由美国总统和其他保守派领导人参加关于刚结束的选举。这次电话会议集中讨论了总统的盟友和对手可以采用的不同策略,以推翻大选结果。正如《邮报》的文章所指出的,目前还不清楚政府为什么要让 Larry 参加这次电话会议。一种猜测是,鉴于 Larry 具有很强的技术背景,他可以帮助评估关于利用意大利卫星操纵投票机的指控是否占的住脚。
 Andy 的观点:
Larry 和我都厌倦了人们对他在美国支持右翼事业的离奇说法。有些人甚至说这一通电话是 Larry 做过最糟糕的事。我个人知道这不是真的,在新闻和社交媒体上看到关于他自己的这种说法,对他是一种伤害。这些记者把 Larry 说成是做一些不体面的事情,比如他让他怀孕的第三任妻子在婚礼前两小时签署婚前协议。我可以保证,Larry 只是想利用世界第七大富豪的巨大财富来帮助他的国家。他参与这通电话是令人钦佩的,应该受到赞扬。自由和公平的选举不是一件小事,就像赛船一样,只要你赢了,有时候耍点小聪明也没什么。Larry 用他的钱做了被忽视的伟大事情,比如花 $3.7 亿进行抗衰老研究,以便他能长生不老,并投资 $10 亿帮助马斯克经营推特。所以我支持 Larry 在这里的行为。

明年将是辉煌的一年
对我个人来说,2022 年有很多变化。
  • 4 月,OtterTune 在 筹集了 A 轮融资。

  • 我的头号博士生加入密歇根大学,成为一名数据库教授。

  • 7 月,我被 CMU 无限期「不解雇」了(尽管我仍受制于 CMU 对终身教职员工的道德条款)。

  • 9 月,我回归了全职教学。
我亲生女儿开始上学前班后,我感染了四次非 COVID 的鼻窦炎。
我对 OtterTune 的未来感到很兴奋。我们计划在 2023 年上半年宣布对我们的数据库自动化服务的全面重写。我已经发了现在正在进行的新功能的预览。由于跨州运输水獭(otter),我们与 OtterTune Records 唱片公司(https://ottertune.bandcamp.com/)有一些法律纠纷,但我们已经解决了这个麻烦,并有望在 2023 年发行新专辑。
P.S.: 像往常一样,请不要忘记在假期中对你的数据库运行 ANALYZE,或者让 OtterTune 自动帮你搞定。

Star History 2022 年度精选|Data, Infra & Tools 开源项目
DB-Engines 2022 年度数据库排名和趋势解析
别再让你的工程师用 Navicat 连数据库了
【5000 字长文】从 S3 到 DataZone,AWS 用 16 年讲完一个数据的故事

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存