访谈 | “中国模板”数据库 未来可期
中国人民银行《金融科技发展规划(2022-2025年)》提出,要力争到2025年实现金融科技核心竞争力跨越式提升。金融科技企业积极深挖数据综合应用场景,发挥数据与技术双轮驱动作用,致力于打造出一个“中国模板”。
互联网开启数据库新篇章,推动企业打造“中国模板”数据库
随着移动互联网的快速发展,人们的消费数据、行为数据带来了数据的爆炸式增长,金融行业正在快速地进行数字化转型,以更好地发挥金融科技力量,赋能业务发展,更好地实现普惠金融,服务小微企业;银行、证券、保险在数据存储方面不止需要数据的规模化存储,更需要针对不同业务条线设置个性化数据服务,同时对数据库的权益计算与实时结算的要求也在逐步增强,开始越来越多地强调交易和分析场景的一致性。
数据库作为基础软件王冠上的明珠,经历了由Oracle、MySQL为代表的,利用系统中心服务器统一管理所有共享资源,并处理用户请求的传统IOE体系到以MPP为代表的分布式数据库体系,再到如今可同时支撑OLTP场景和OLAP场景的HTAP数据库体系阶段。数据库的发展推动了业务数据化向数据业务化进阶,促进了数字经济时代业务创新需求。由此可见,在如今这个对实时结算、随时访问、产销合一有着高要求的互联网时代,HTAP数据库的产生就显得尤为重要,它可以满足实时、高并发等迫切刚需,既支持交易数据库的替代,也支持数据仓库流批一体的升级;传统的数据库厂商由数据供给与消费者一体化向新兴的消费状态升级,弯道超车还是供应链升级?这将是摆在数据库厂商面前的最大问题,也将是未来企业的核心竞争力之一。
据雷涛介绍,“天云融创数据科技(北京)有限公司(以下简称天云数据),十二年前基于HBase社区开源,默默耕耘,通过多年的摸索,从最开始的计算层、调度层、存储层最后到解析层,自下而上,在没有行业经验可借鉴的情况下,最终走向了自研数据库的道路,从而逐步形成了自己的数据库市场,可以说是经历了数据库由“拿来主义”到自主研发的整个发展阶段;如今天云数据作为一家提供分布式计算平台和AI平台基础设施的国家级科技高新企业,顺应趋势,历经长周期的自主研发,打造了代际更迭的无第三方开源代码的HTAP数据库Hubble。天云Hubble数据库同一产品同一软著同时通过国家权威评测体系(信通院)的事务和分析能力评测,这无疑印证了Hubble数据库的HTAP能力。”
近期,围绕“天云数据Hubble产品的研发与迭代”,记者与天云数据拥有着二十多年IT从业经验的CEO雷涛进行了深入交流与探讨。
潜心耕耘,另辟蹊径,打造自主研发的混合负载数据库领跑赛道
“全球信息科技领域正在展开一场看不见硝烟的战争,很多企业以Oracle、开源的 MySQL和PostgreSQL为底座进行物理资源融合,进而实现数据同步和跨节点事务一致性等数据库集群功能。这种方法虽然也完成了工作,但存在不可预知的风险。因此只有打造属于自己的独特优势,才能在金融科技领域站稳脚跟。天云数据凭借其多年来在大数据分布式计算领域的经验以及通过与多家大型银行的实践,在信息、人才、技术没有前路可借鉴的情况下,完全依靠自身,自主研发了混合复载的数据库Hubble,它可支持不同存储结构,也可针对不同数据库做优化,从而做到多功能延展支持融合业务场景和数据库融合即多源异构”,雷涛向记者描述道。
随着近年来金融机构业务量的不断增长,应用程序需要每秒支持数十万甚至数百万个事务,每个事务的处理延迟均以毫秒为单位,数据作为流通的副产品,需要有高并发、高扩展、松耦合的高服务能力做支撑,为此某商业银行急需通过数据库的更新迭代来提升客户体验感及同行业竞争力,目前该行通过使用天云数据Hubble产品,已经可以实现TP、AP业务场景下的数据存储向上兼容。
对此,天云数据CEO雷涛表示:“在开放的大数据生态中天云数据Hubble融合了Oracle交易和MPP数仓的功能,实现了对两类数据库替代升级;一是可以作为计算组件与开源组件协同工作,嵌入并服务主流数据中台环境;二是可高并发实时流升级,完成Flink不能处理更多事实表的金融反欺诈和复杂权益服务;三是可通过引入损失函数动态评价SQL逻辑计划的执行成本、CBO代价优化解析、Sharding切片线程级别物理资源匹配不同计算负载、TP和AP双引擎调度执行、随机和序列化IO对存储的访问、依靠数据副本机制同时支持KV键值存储和列存存储交出了完美的答案”。
这意味着一张表可以同时支持行存和列存,真正的融合了存储结构,避免了在交易和分析数据库间每夜ETL数据搬家的繁琐运维工作和数据冗余。
硬核技术是刻在血液里的基因,多副本数据同步技术,使金融业务连续性产生质的飞越
随着信息化社会的不断发展,人们随时都有大量数据产生,传统分布式数据库在架构上是主从架构,除了元数据存储和调度功能外,集群中的Master节点同时承担工作负载,雷涛认为数据中心化已经发展到了必须更改的阶段。
对此,雷涛表示“天云数据Hubble采用了领先的分布式去中心架构设计,所有节点在集群中是对等的,任一节点都可以处理客户端的请求,并使用GOSSIP协议发现、管理节点,每个节点都可以缓存完整的顶层路由数据,摆脱了传统分布式架构中管理节点瓶颈的束缚”。
金融机构日常工作中需要长期与大量数据打交道,数据作为其日常业务的使用工具,解决数据存储瓶颈,成为了其工作的突破点,对此,为帮助其更好的完成岗位职责,解决原有数据库并发量高时,等待时间较长的问题,Hubble数据库将负载进行平衡、分摊到每个节点去执行,有效地提高了吞吐量,从而打破了传统分布式架构中管理节点的瓶颈。
天云数据CEO雷涛表示:“天云数据Hubble抛弃了传统管理节点架构设计,并结合多副本数据同步技术,让全部节点具有同等数据服务能力,使跨中心部署数据无差别多化具备了技术栈基础;同时结合采用混合时钟机制,大大降低网络延时影响,节点间网络延时容忍度可达数百毫秒,这就让跨中心下数据无差别多活成为了可落地的实际操作,也使得金融业特别是银行的业务连续性体系支撑发生了质的飞跃,打破了只能“主备架构”或Oracle Rac 模式,从数据层面不再必须执行“切换”操作,从而将大家都很头疼的实战演练难度降到“故障节点”恢复的级别,这是之前难以想象的质的飞跃”。
顶层设计,实现1+1大于2,算法的机器数据消费实现了数据库与AI相结合的双赢闭环
据雷涛介绍,如今,数据消费已经从传统的可视化转向了算法的机器数据消费,比如利率市场化,大量的权益服务是没有清晰指标的,需要用特征建模来表达数据,就像金融机构在做二维表结构时5层已经是极限了,但如果是在图上,就是一个简单的闭环,秒一级就能解决。这些闭环服务都是算法对数据的直接使用,而数据库和AI的组合便是这样一个双赢的闭环。未来数据将成为生产资料,智能成为新的生产力,AI-native数据库将通过更多的逻辑计划丰富数据消费能力和形态,更好地成为各行各业尤其是金融业的基础设施,替代可视化数据消费成为主流。
图 基于三维数据的实体识别
某股份制商业银行信用卡反欺诈项目通过Hubble数据库,将超过30万基础数据构建成了社交网络图,基于图谱网络实现32种关系构建,网络特征引入提升AUC值12%。
天云数据CEO雷涛表示:“天云数据Hubble作为一款HTAP数据库,在设计时并不是简单的功能叠加,而是从顶层设计的角度去思考如何将ML机器学习、图、分析、交易等真实融合在一起,从而打造一款具备实时事务查询引擎的高可用HTAP数据库,可针对海量数据实施模糊搜索查询,形成完整的支持分布式数据一致性的实时模糊搜索服务解决方案。目前Hubble在技术上,一是可通过底层存储以及流技术直接支持流技术融入Stream sql;二是在框架之上实现了图逻辑化融合,实现图数据可以直接存储到Hubble之上,并通过Hubble多源异构与图进行交互;三是在ML机器学习方面,Hubble数据库内置了36个核心算法,支持NL2SQL,Hubble数据库通过逻辑计划融合了SQL、Graph、ML等,这为未来的AI-native数据库提供了强有力的保障”。
图 点云数据低质量重建
务实奋进,积累传奇经历。回顾过往,天云数据凭借着自主研发,由最开始的运营商平台一步步变为了如今知名的数据库厂商,展望未来,天云数据将继续深耕细作,笃行致远,秉持以客户为中心的价值观,与客户及上下游伙伴共同为行业客户提供优质的数据库产品,助力金融科技数字化发展。
(点击查看精彩内容)
● 访谈 | 抓住那只捣乱的猴子——红帽 “混沌工程平台”实践分享
● 访谈 | 开放融合,深耕新发展格局下的金融创新——访思科大中华区资深副总裁贺骏
新媒体中心:主任 / 邝源 编辑 / 傅甜甜 张珺 邰思琪