十年比肩?看国产数据库如何突出重围! | 新程序员
长久以来,如何“去IOE”不仅是数据库产业的热议话题,更是国产数据库厂商纷纷致力的方向。但事实上,想要通过核心技术弯道超车几乎是不可能的。但在国家整体规划逾趋清晰下,进一步完善人才机制建设,不断加强市场培育,未来依然可期。
作为核心技术“三大件”之一,数据库在中国的发展可谓龃龉前行。1978年,中国人民大学经济信息管理系创建人萨师煊提出了发展数据库的理念,并在1979年汇集成《数据库系统简介》和《数据库方法》,成为我国最早的数据库学术启蒙读物。
20年后,国内第一家数据库公司人大金仓创立。据人大金仓总裁杜胜介绍,人大金仓之所以有“人大”两个字,是因为从人民大学信息学院中脱胎而来,“金仓”则原本是信息学院的一个研究课题。
“数据库门槛太高,国外很早就已经发展成熟,大家都知道在这个领域投资会赔钱,所以当时没有人投。后来是人大的老师们凑了50万元一起创办,才有了今天的人大金仓。”
【小提示】点击下方👇查看专访视频
从数据库概念的提出,到产业化的落地,都是自“人大”开始。本期《新程序员》与人大金仓总裁杜胜,就数据库的技术演进逻辑、产业的发展周期,以及核心研发人员如何培养等方面进行了深入探讨。
人大金仓总裁杜胜
杜胜,北京人大金仓信息技术股份有限公司总裁。拥有近20年IT行业产品设计、研发及上市管理经验。曾主导慧点科技GRC.platform、indi.Mobile、GRC.mobile、indi.platform等产品的设计、研发及上市,历任企业管控事业部总经理、通用产品事业部总经理、公司副总裁。
业务逻辑趋向应用端,数据库集群并行运算
《新程序员》:经过数十年发展,数据库技术不断迭代更新,从File形式存储到层次型数据库,再到关系型数据库……你是在哪个阶段进入到这一领域?后续发展呈现怎样的特点?
杜胜:我是在关系型数据库时代切入到这个领域的。应该说我们现在看到的大多数数据库应用都是关系型场景。关系型数据库最早是基于传统C/S架构,比如20年前我们会用PowerBuilder,或者Delphi这类语言去做客户端的展现。
一般前端很少写业务实现逻辑,它的实现主要通过数据库来进行运算。当数据库在存储过程中把逻辑实现后,再通过前端按钮触发逻辑运行。
《新程序员》:从数据库发展历程来看,演进的逻辑是什么?
杜胜:关系型数据库之所以登上历史舞台,主要在于它对应用的支撑作用。传统C/S(Client/Server)应用,Client端模式非常简单,更重的落脚在Server端,Server对于数据库来说是至关重要的部件。后来,应用从C/S演变到B/S(Browser/Server),出现中间件,一些逻辑就开始往中间件迁移。当然,还有部分应用依然没有摆脱C/S架构的特点,依托数据库完成业务逻辑计算,但当中间件发展到一定程度后,逻辑开始向应用代码中迁移。
再到未来云原生的模式,用户对应用的投入越来越高,对数据库的依赖则在降低。整体上,数据库更多在于提升伸缩性和弹性,以应付更大的并发量和负载压力。所以,数据存储和吞吐能力整体在提升,业务运算方面则在弱化。
《新程序员》:一直以来,数据库行业都在讨论如何实现技术“去O”,你认为该如何实现?
杜胜:过去有两个说法,一个是“去O”,一个是“替O”。这是两种思路的差异,“去O”主要因为Oracle足够复杂,很难取代。那么,就从应用的角度入手,让应用端承担更多的运算,从而避免使用Oracle的复杂能力,绕开它。我们当然可以用应用代码来编写业务逻辑,比如用MySQL开源数据库来满足需求,但这样的话,所有的应用都必须重写,不能再利用历史资产,相当于重构一个新的体系。
另一条路径是“替O”,延续原本的规则和体系,依然使用存储过程和函数。“替”的含义在于让国产数据库产品具备同等能力,从而替换Oracle。
相较而言,“替O”路径对于应用厂商而言成本更低,因为“替”的过程实现对于应用厂商来说更容易,客户的历史资产能够得到保留。对于一些传统企业和党政客户来说,尽可能利用历史资产是最优选择。但在互联网领域,对成本不是很敏感,一般会选择“去O”。
《新程序员》:从“数据库”到“数据仓库”,只是一个字的变化,看上去只表现在量级上的差别。你认为从“库”到“仓库”之后,有哪些延续了?有哪些升级了?
杜胜:从数据库到数据仓库的变化主要基于社会信息化程度越来越高。
在早期,数据库能够解决交易和分析两方面的问题。但近三十年来,信息化逐渐兴起,随着数据量的不断积累,我们遇到了两个问题:第一,数据存储遇到挑战,设计的容量不够,需要把它扩大;第二,有了这么多数据之后,该怎么用?数据本身没有任何价值,只有把它们用作分析、统计或者运算才有意义。
要解决数据容量不够和数据处理不足这两个问题,在单点的运算能力难以支撑下,就需要构建大的数据库集群,进行并行运算。
《新程序员》:目前产业还面临哪些普遍的技术难题?
杜胜:在传统领域,共享存储集群还是非常困难的技术。对于数据库软件来说,稳定可靠是第一位,如果这个问题没有解决,其他都没有意义。但目前来看,只有Oracle能做到这点。
虽然我们想要弯道超车,但这类硬核技术的研发几乎是不可能的,同时也不太可能用某种新技术来代替。无论软、硬件,底层技术的要求都非常高,很难通过走捷径解决,只能一点点消化、学习,希望市场能够给我们沉淀和试错的时间。
数据库产业处于成长期,产学体系仍需优化
《新程序员》:相较于AI、物联网、云计算等动辄万亿产值的技术,数据库在早年没有被追捧,但近年资本也逐渐涌入这个领域,为什么会掀起这样的热潮?
杜胜:确实,如果放在前些年,人大金仓想要在资本市场获得关注是很困难的。但最近三年我们发现,资本对数据库产业的关注明显提升。近期有几家产业链友商获得大额融资,最多的获得了2.6亿美金。这在过去是不可想象的,说明现在国内态势正在转变。
为什么会出现这样的趋势?说白了就是核心技术要掌握在自己手里,才能从根本上保证产品的自主可控。
《新程序员》:从产业周期看,你觉得国内数据库是处于成长期,还是已快到成熟期?
杜胜:我个人感觉还是在成长期,我们评价产业发展阶段有一个标准,就是产业从业人员,尤其是核心技术从业人员能否支撑产业的可持续发展。很明显,我们在核心技术人员的储备上严重不足。再从市场来看,自2001年中国加入WTO,国外品牌纷纷进入中国,二十年过去了,依然占据大多数市场份额,垄断是一直存在的。
在现象背后,是后进者与先进者的历史差距。Oracle 1977年创立,人大金仓1999年创办,尽管是国内最早的数据库公司,但还是落后了22年。
《新程序员》:在硬核技术领域,你觉得很难“弯道超车”。但面对这样既重要又困难的现实,产业界往往又寄希望于有这样的弯道,对此,你认为该怎么办?
杜胜:需要从两个方面来说,一个是技术的底层逻辑, 一个是人才和市场。
首先,做基础软件需要端正心态。在整个产业链上,过去做得好的是应用,比如淘宝、美团、抖音等软件,满足了客户需求并持续深耕,就能在市场中下沉。
然而,基础软件开发有客观规律和周期。比如,目前我们的高等教育、研究与产业界之间仍然不能紧密衔接。学校的老师大部分是本、硕、博“直通车”,上完学就回到学校教学,很少有在产业界扎根的经历,学校和产业是脱节的。如何达成人才培养闭环和产业闭环?可以借鉴一些成熟的经验,比如国际名校的很多老师曾是产业界的高级经理人,或者是技术人员。他们退休后利用闲暇回到学校,将产业中遇到的难题和研究方法教授给学生。这样,理论可以有的放矢,产业界的实践也通过大学的进一步研究而系统升华。我们的学校也开始有这样的趋势,但还需要持续发展形成闭环。
其次,每个人有不同的个体禀赋,我们的学生也都非常聪明勤奋,现在世界上很多知名科学家都是华人。从主观能动性的角度,我还是相信整体的学习氛围能让我们在某些领域赶超,然后带动其他领域。
再者,以人大金仓的经历来看,市场也是转折的关键。在创立的前十年我们发展比较慢,国外软件几乎没给我们留什么机会。09年被中国电科收购之后,我们加入了“国家电网核心电力调度系统”这个项目,通过这个系统应用获得的良好声誉,让我们的产品和服务打开了市场。
所以,技术落地要符合客观规律,还需要在体系建设上持续优化。从人的主观能动性和市场培育角度,我觉得还是有超越的可能。未来十年,我们希望进入国际市场,再过五年,或许可以做到世界领先。
DBA与核心研发人员的培养
《新程序员》:对于数据库核心研发人员的培育,人大金仓是通过怎样的方式来培养?
杜胜:我们现在的人才体系有两类:
第一类是数据库的使用人才,就是常说的DBA,培养核心是怎么使用和维护数据库。这类人才的培养相对容易,美国数据库软件公司已经帮我们培养了很多人。对他们来说,在我们这里的学习不是从0开始,而是“再学习”。在共通的数据库技术下,他们转换很快,可以把以前Oracle、Db2、SQL Server等的DBA很快转化到国产数据库,这样就多掌握了一门技术。我们现在面向全国开设免费学习课程,包括KCA、KCP、KCM,国外这类课程都是收费的。对于我们来说,为产业培育人才不是为了盈利,是为了让生态快速建立起来。
第二类是核心研发人员,这类人才培养非常困难。就目前情况来看,中国有非常多的程序员,但做数据库内核研发的只有一两千人。以传统师傅带徒弟的自然培养方式显然是不够的,我们要把人才体系真正建立起来。目前国内开设数据库相关课程的高校只有二十多家,我们已经和人民大学、武汉大学、山东大学合作开发课程,增设了数据库内核专业。
《新程序员》:你要“从IT应用软件产业中寻觅人才”,《新程序员》的核心受众正是庞大的软件开发者群体,你对开发者有什么要说吗?
本文出自《新程序员·新数据库时代&软件定义汽车》,即将正式上市!
2018年图灵奖得主、深度学习三巨头之一Yann LeCun(杨立昆),2020年图灵奖得主、龙书《编译原理》作者Jeffrey Ullman,英特尔副总裁Erez Dagan,阿里巴巴集团副总裁李飞飞,腾讯自动驾驶总经理苏奎峰……《新程序员》第二期,我们以「软件定义汽车&新数据库时代」为主题,邀请到国内外60余位学术领航人、技术大咖与产业先锋,为智能驾驶及数据库产业奉上酣畅淋漓的理论交锋及实战演练。
何谓新数据库时代?需要从过去和现在看未来。在“十问数据库”中,华东师范大学副校长周傲英、达梦数据库副总经理冯源、TiDB创始人黄东旭、OceanBase CTO阳振坤……各路产学研大神齐聚,从数据库国产化历史,到开源、云,再到数据安全,共话未来数据库走向何方。
扫描下方二维码,添加小助手,即刻加入《新程序员002》「读者群」,抢先一步获取杂志最新资讯,精彩内容不再错过。
《新程序员》立足于行业前沿,深度探索技术未来,通过音视频、图文专栏等丰富的多媒体形式为载体,全方位解读技术与产业,为中国开发者打开新时代的技术之门。
60位+ 技术大咖的经典观点与实践干货; 34篇 精彩文章; 13个 配文视频; 1000位+ 技术人才共同学习成长; 2张 开源核心技术全景工具收藏图。