查看原文
其他

时序数据库方兴未艾,有人却说看到了终局

任朝阳 ITPUB 2023-03-21

近年来数据库领域最火热的两个细分赛道非图数据库与时序数据库莫属,根据DB-Engines的数据(如下图),近几年时序数据库的流行度一直稳居第二。

近些年,一些新的时序数据库创业公司出现,获得资本的青睐,在万物智联时代争相竞逐,尤其是中国的初创公司,在时序数据库领域与全球基本处于同一起跑线,业界普遍认为前景可期。但也有人认为,专有的时序数据库是走了NoSQL的老路,没有未来,在万物智联时代,数据库的尽头是超融合。

数据库的尽头是超融合?

时序数据库是时间序列数据库的简称,也是NoSQL数据库的一种。简单来说,时序数据库(TSDB)是针对时间戳或时间序列数据优化的数据库。与其它数据不同,时间序列数据总是会和时间绑定在一起。比如服务器的指标、网络数据、传感器数据、街道上的监控数据等等,主要应用于分析预测和监控告警方面。

随着物联网、5G等不断发展,时序数据海量爆发,传统的关系数据库无法满足要求,出现了像InfluxDB这样的专有时序数据库,近年来海内外巨头也开始针对时序场景布局推出相关产品,如Amazon Timestream、腾讯云CTSDB阿里云TSDB、蚂蚁集团CeresDB等相继推出,也有很多新的创业公司出现,如国外的TimescaleDB,国内的涛思科技TDengine、智叟科技DolphinDB、四维纵横YMatrix、诺司时空CnosDB、格睿云Greptime等,创业者也获得了资本的青睐。 

值得一提的是四维纵横 YMatrix,该公司于2020年8月成立,仅两年时间,公司已获得累计近2亿元人民币的4轮融资。针对万物互联趋势下的新需求,该公司提出了“超融合数据库”这一新理念,推出了超融合数据库YMatrix。


YMatrix创始人&CEO姚延栋是前Greenplum的北京研发中心负责人,“我们不是说以前做数仓就继续做数仓,我们更多地还是看未来大时代需要什么。”姚延栋告诉IT168&ITPUB,与其他投入时序数据库领域的创业者一样,四维纵横创始团队看到了万物智联时代的到来才出来创业。他指出,2020年往后十年会是万物互联+数字化转型两个趋势叠加在一起,数据组成将发生结构性变化,时间序列数据的产生速度和量级会慢慢成为未来数据的主体,所以对时序数据的处理会有广泛的需求。


姚延栋进一步指出,数据库的本质是接数据、存数据、用数据。他观察到越来越多诸如智能工厂、智能网联汽车、智慧能源、智慧地球等场景数据类型多样,业务复杂,对数据库提出了新的需求。比如对工厂中的设备做预测性维护,既需要存储各种传感器采集来的海量时序数据,还需要结合生产排程、维修记录等等不同的数据源,要求数据库具备强大的综合分析能力。四维纵横团队认为,现在沿着NoSQL的思路做一款专有的时序数据库已经没有意义,如今已经到了超融合时代,用户需要一款超融合数据库以一套架构解决客户更多的问题。


YMatrix 在发展方向上与其它专用时序数据库有很大不同,姚延栋介绍。在DB-Engines常年霸榜的InfluxDB,是一个典型的专有时序数据库,在早期是针对服务器的运维监控场景,对IoT的支持并不是特别好,但分析能力欠缺。与YMatrix比较像的TimescaleDB,虽然同是基于PG研发,但是TimescaleDB是在PG的Heap引擎上针对时序场景进行优化,提高压缩比,并没有专门研发时序存储引擎,虽然能够很好支持热数据的点查,但是对于明细查和聚合查的性能会弱一些。


YMatrix所提供的超融合能力在技术上包含两层,一是对多种模型数据的支持,能够支持时序数据、关系数据、GIS 数据、JSON文档数据、KV键值数据、Text文本数据等多模数据,二是对多种数据操作的支持,包括TP场景并发事务支持,AP分析场景的大宽表、多表关联查询,以及时序场景下的点查、明细查、聚合查等操作,并且支持库内算法建模,零数据搬迁实现机器学习。一方面支持海量多类型数据的复杂高速写入和存储,另一方面也实现以统一一致的体验,支持各种各样的数据操作。


近年来,融合已经成为数据库技术发展的重要趋势,包括HTAP、软硬一体、多模等不断发展,并进一步向着这种超融合方向演进,类似YMatrix这样具备“超融合”特性的产品,已经成为了近年的研发趋势。海外市场,Snowflake 和 Databricks 曾先后提出 “one data platform”理念;日前Oracle推出 MySQL HeatWave Lakehouse,继续扩大融合范围;时序数据库先行者 InfluxDB 和 TimescaleDB,也先后启动了新一代融合型数据库的研发。国内市场,星环科技提出多模型融合技术,阿里云的Lindorm也提出了多模超融合数据库概念。


“未来(数据库)的终局就是超融合,把所有的都融合在一起,现在只是融合了一小部分。”姚延栋指出,就像智能手机融合了电话、MP3、相机,数据库市场正走向超融合时代。市场上一些多模数据库只是融合了第一层对多模数据的支持,而第二层对数据操作的支持往往更重要且是最难的。

超融合数据库的性能怎么样?

在数据库领域,性能为王,是一切功能特性的前提。日前,四维纵横推出了超融合数据库YMatrix 5.0,在发布会上姚延栋强调:“性能加持下的超融合,才是真正的超融合,才能给用户提供价值”。

“在YMatrix团队内部,我们关注全场景性能表现,包括写入能力、时序查询能力、单表OLAP分析、多表关联OLAP分析、Machine Learning性能以及 OLTP 能力等诸多方面”,姚延栋指出,去年发布的4.0版本其实还算不上团队理想中的超融合数据库,4.0验证了HTAP和时序场景的支持,不过在通用分析方面的性能还有差距,所以4.0版本称为超融合时序数据库。但是YMatrix 5.0真正做到了超融合数据库,能够支持多模和各种数据操作,在性能、功能和易用性方面都实现了很大提升。


来看一组四维纵横提供的最新测试数据:


  • 真实生产环境实测数据写入速度可达 1.52亿点每秒;

  • 对比同是基于PG打造的时序数据库独角兽TimescaleDB,查询耗时是YMatrix的5.1倍;

  • 对比OLAP数据库产品Clickhouse,YMatrix在SSB基础测试上快27%;

  • 对比MPP数据库主流厂商Greenplum,YMatrix在多表关联分析场景上实现了数倍的性能提升;

  • 对比Spark,YMatrix在机器学习场景上的性能是其8倍;

  • 在Intel实验室的TPC-B 国际标准测试中,YMatrix主键查询tps高达160万,可以满足绝大多数企业的业务需求。


能够在短短两年时间内取得这样的好成绩,有多方面因素。其中比较重要的原因是四维纵横并不是从零开始重新研发一款新数据库,而是选择站在巨人的肩膀上。YMatrix基于开源数据库最新版本Greenplum 7(基于PG12)研发,创始团队曾在Greenplum工作多年,是分析型数据库领域少见的完整建制团队。YMatrix 基于Greenplum数据库和PostgreSQL数据库进行的优化,继承了上述两种数据库中的优点,如标准SQL的丰富性,查询速度较快,并发数较高等。


另一个重要因素是不断自研创新,最重要的创新是YMatrix采用了独创的微内核架构,一个分布式数据库,内核主要包括优化器、执行器、存储器、并发控制和事务管理、分布式集群管理五大方面。YMatrix 打造了面向TP场景、AP场景、时序场景的三个微内核,每个微内核由不同存储引擎和执行器组成,其它部分共用。比如,面向TP场景的微内核,由基于PG Heap存储引擎+火山模型执行器组成,而面向时序场景的微内核,由自研的时序存储引擎+向量化执行器组成。


微内核架构是YMatrix实现超融合的关键。通过微内核架构,可以在一个数据库里面支持多种数据模型,支持不同场景的数据操作,降低研发复杂度。YMatrix 5.0在面向分析和时序场景的执行器、存储引擎、分布式集群管理三大方面都是自研。如向量化&新存储引擎 MARS2,实现了高性能。


比如在时序场景,压缩比是衡量时序数据库的重要指标,数据库基于存储引擎进行数据的创建、查询、更新和删除等操作,海量的时序数据需要高压缩比节省存储空间。三一重工泵送研究院泵诵云平台大数据负责人褚凤天在YMatrix 5.0发布会上介绍,YMatrix在MARS2中提供高压缩比的存储方式,可将数据从320GB压缩至9GB左右,压缩比达30倍左右。


据悉,YMatrix 5.0 包含了多至138项的性能优化,特别是针对写入和分析等重点领域,进行了深度的指令级优化。在架构方面,YMatrix 5.0 将数据库集群状态管理从数据库 Master 转移到 etcd 集群。实现了数据库集群组件状态管理功能与数据库本身的解耦,同时使得状态数据实现了高可用。此外,YMatrix 5.0 引入了面向服务的架构,使得数据库集群的安装、运行和维护更加简单方便。


姚延栋进一步介绍,YMatrix 5.0重写了整个GP故障检测和高可用机制,提出了segment set 特性,实现了在扩容的时候对表的读、写支持,几乎不影响读写性能,真正做到了扩容对业务零影响。目前,有些数据库仅能够做到扩容过程中支持读,但不支持写。


在易用性方面,YMatrix设计了用户体验的图形化installer,只需10分钟左右就可以完成数据库集群的搭建,暴露了100+监控指标,帮助DBA更好地运维。


目前,YMatrix 超融合数据库已实现商业化,在智能制造领域取得初步规模化,客户包括宁德时代、比亚迪、三一重工、理想汽车等制造业头部企业。与行业共创4大场景方案,包括集团敏捷湖仓、智能工厂数据基座(边缘数仓)、高端装备智能运营平台和智能汽车大数据平台。


面向未来,姚延栋介绍,后续,YMatrix会在已经存在海量需求的时序场景深耕,尝试替代传统数据库和专用类产品,“数据量大、指标量多的车联网、智能制造、智慧能源、智慧城市、智慧园区、智慧医疗等场景会是重要方向。这些场景所产生的业务需求,将最大化体现超融合产品的价值”。


随着万物智联时代到来,在数据技术融合趋势下,数据库巨头和创业公司都在积极探索,时序数据库方兴未艾,超融合架构的创新理念还有待于更多市场检验,数据库的终局还在路上,但是更多真实场景历练有助于产品的完善与提升,期待YMatrix能有更好的发展。





 SACC2022大会现场PPT大派送 


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存