查看原文
其他

【科技百咖】对他来说,这个世界上有比金钱更重要的东西

刘佩雯 中智观察 2022-07-14

信仰是心中的绿洲,思想的骆驼队是永远走不到的。—— 纪伯伦

  中国软件网每日精选集


0


风起于青萍之末。

回头看,从2018年1月特朗普政府宣布“对进口大型洗衣机和光伏产品分别采取为期4年和3年的全球保障措施,并分别征收最高税率达30%和50%的关税”起,这场持续到现在的中美贸易纷争就已经悄悄拉开了序幕。

此后,

对从中国进口的高端制造商品大规模征收25%的关税...

限制中国企业对美投资并购...

禁止美国公司向中兴通讯销售零部件、商品、软件和技术

......

眼看着这场纷争从摩擦变成争端直到可以用战争来形容。

而有一个人,曾经在这场纷争到来之前,就做好了应战的准备。

 

1


▲柏睿数据董事长兼CTO  刘睿民

五年前,刘睿民离开了世界五百强企业高管的岗位创立了柏睿数据。

在此之前,他曾将几个国外的老牌数据库像Teradata、Greenplum等带进了中国市场,甚至帮它们拿下了早期的几个大单,bonus拿到手软,是外人眼中事业有成的海归精英。

但“做的越久就越不开心”,他坦言。

因为他发现,这些他曾引以为傲的客户在数据库的建设中投入了大笔的支出,却没有得到该有的同等回报,尤其这些客户里面有很多都是我国各行各业的支柱企业。

“国外的公司仗着我们没有自主的数据库,要价高服务差”,直到今天谈起这件事他还是愤愤不平,“你不自主你就肯定要被人要挟”。

这种不平越积越多,越积越深。

直到他渐渐生出了自己做一个数据库的念头,“什么叫自主可控技术?要自己做的才可控,不是自己做的就不可控,就这么简单”。

这可不是头脑发热,他依仗的是在数据库领域摸爬滚打二十来年的经验和深刻的理解,他曾师从在数据库开创性方面获得图灵奖的Jim Gray,曾加入Tandem做Nonstop SQL商业数据库的开发,也曾在数据库领域做过实施、研发和销售等不同类型的工作。

▲数据库语言国际标准制定,也就是刘睿民(右一)主笔制定《SQL9075 2018流数据库》、《AI-in-Database 库内人工智能》两项国际标准的全会

机遇有时候就是这么奇妙。

刘睿民刚冒出这个念头不久,还在为研发团队的筹建一筹莫展的时候,就听到了惠普实验室解散了很多队伍的消息。

当打听到他曾经工作过的HP Neoview数据仓库研发团队也赫然在列时,他心中窃喜,开始给曾共同奋斗过多年的小伙伴们一个一个打电话“联络感情”。

在发现很多伙伴都不想轻易放弃数据库研发的时候,他就觉得这事儿成了。

而后,这个包括他在内的12人核心研发团队就正式成立了。

 

2


记者:要做一个什么样的数据库?

刘睿民:基于MPP架构的海量内存数据库。

记者:为什么要做这个?

刘睿民:爆发式的海量数据让我意识到这以后一定会成为刚需。

是的,我们现在的时代是一个信息爆炸的时代,信息爆炸的同时也就意味着这是一个流量爆炸、数据量爆炸的时代。

如果说十年前企业需要处理的数据量是一杯水的话,今天就是一条奔腾的河,那要如何应对这种爆发式的增长做到快速的处理数据呢?

说到这,我们不得不先来讲一下核心知识点:

目前市场上的商用数据库主流系统架构有两个流派——对称多处理器架构(SMP)和海量并行处理架构(MPP)。

SMP架构的特点在于共享系统的CPU、内存和I/O资源。这种技术诞生于内存昂贵时期,在数据量小于10T的情况下,可以应对自如。

但这种架构也有着十分明显的局限性,即多个CPU都是通过内存总线来访问统一内存资源的,在数据量增加到一定量级时,内存访问冲突将会加剧,最终造成CPU性能的浪费,甚至会遇到明显的性能瓶颈。

MPP架构的特点在于是节点协同工作。每个节点都拥有独立的内存,是一种完全无共享的架构方式,因而有很强的扩展能力。

但MPP架构也有一个问题,就是在节点之间进行数据拷贝时可能会形成网络风暴。举个栗子,当对300张表做JOIN联合查询,其中有30张表都大于1TB并且需要拷贝1/10的数据时,就将会有500多个G的数据在网络上运转,导致网络卡顿。

因此,刘睿民的团队选择以技术路线,并结合InfiniBand结构以摆脱基于传统PCI架构的I/O性能瓶颈。

过去数据分析时需要在内存及磁盘间,做多次的电信号和逻辑、场理寻址的转换,消耗大量用户状态和系统状态切换时延。

而跨节点内存间直接地址转换+InfiniBand后,允许直接对应用程序内存做读取和写入,不管数据存在哪一台服务器,直接都是系统态,只需要在电信号层面完成传输就可以,极大的提升了数据的运转速度。

同时,这种架构也实现了服务器与存储系统之间网络占用的降低。

就这样,刘睿民带领他的12人研发团队,一行代码一行代码的,逐步打造出一个不同于以往,也不同于国外厂商的,完全自主可控的数据库。


3


眼见着这个数据库就要落地,柏睿数据也应运而生。

过硬的技术实力带来的是丰硕的回报。

仅仅在产品落地的第四个月,柏睿就拿下了第一个单子。

说到这儿,刘睿民笑了起来,“说起来也是巧,当时其实已经定了另一家的产品了,基本上就要下订单了,结果我们的产品进去一测试,快了将近六七倍的处理速度,直接定了我们的产品”。

刘睿民表示,这与他们分三步来实现数据处理的实时性有关。

首先是提升了Hadoop文件系统的效率,在HDFS上做了大量优化,能把读取文件的速度,从网络访问提升到相当于读取本地盘的速度。

其次做了内存数据网格,先用HASH把数据分层,在几秒钟之内形成数万个模板,每个模板对应数据处理的不同粒度,相当于尺寸不同的筛子,对数据做预处理。

最后,对清洗后的结构化和半结构化数据进行精确查询。举个栗子,我们的数据可以在很短时间内,实现数据库节点的横向扩展,实现100张表的联合查询和精确的查询记录。

我问他:“我们现在已经有很过硬的技术了,那下一步想做什么?”

刘睿民想了想告诉我,“首先还是花大力气做自主可控,尤其是中美贸易战的爆发更是让我感触很深,这是我们未来规划中非常重要的一块,本来这也是我们企业建立的初衷。除了在自主可控方面之外还会着重的关注信息安全,尤其是对数据库来说信息安全非常重要,中兴、华为等企业数据泄露事件的发生,给我敲了一个警钟。最后,也想把我们这种技术推到国外去,也让发达国家看一下我们做出的数据库。”

那一刻,我仿佛看到他的眼睛里有光。


4


我让刘睿民用一个词形容一下他们自己。

他想了想,告诉我,是“持之以恒”。

是的,从最初的开始,他们这个团队就在没有任何东西可以参考的情况下,一个字一个字敲出了一行行的代码。

1998年,李彦宏曾在书里描写雅虎的杨致远:他追求的东西并不是金钱上的满足。我觉得这也是刘睿民和柏睿数据的剪影。

只是为了当年的愤愤不平,他们毅然决然从零开始,赶赴一条前路未知的旅途。

而今回首,蓦然发现,曾为梦想付出的所有都已结成了果实。

这是对所有为梦想而奋斗的人最好的回报。

也是他们自己的骄傲。

—END—

《科技百咖》

风起于青萍之末。

《科技百咖》,是中国软件网年度重磅策划、独家出品的高端对话栏目。

我们立足7.3万会员单位——中国企业服务生态各个领域,

以国内企业级ICT领域的权威媒体、研究机构的立体视角,

注视大信息产业、科技行业的每一次细微变动,

洞悉行业每一次“风起”的“青萍之末”。

知名企业一把手亲身讲述,

最真实的一线鲜活案例,

几年至几十年的从业经验,

深刻揭示企业的痛点和赢点,

探讨行业成败得失,

前瞻未来潮流趋势。

观察、思考、总结、讨论、预测,

我们走在行业巨变的前方!!!

专访事宜,请联系:

中国软件网副总裁 汤宁

联系电话:138 1181 9315

互动区

快来留言区谈谈你的看法叭~

昨天获奖人员昵称名单:“史占军”“浩怀Wright”:“t”

截止到明天下午18:00,同样,评论精彩的粉丝有获得红包机会,并将结果在下期互动区公布~


作者联系方式

工作邮箱:lpw@soft6.com

还不够爽?来CDEC吧!点击阅读原文这有更多专家、协会、CEO现场讲解行业和趋势,限时免费报名哦!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存