其他
IT168:很高兴有机会采访到您,请您介绍一下自己,所在公司及主打产品?陈雷:毕业之后去了方正,然后IBM11年,创业4年,一直从事数据领域的产品研发,系统交付工作。业务经验主要集中在金融、通信、能源等信息化领先行业,现在所在的公司DatePipeline是一家年轻的中国本土企业,我们致力于成为中国的世界级数据中间件厂商,产品也叫DataPipeline,是一款数据集成领域的下一代中间件产品,功能覆盖了实时数据采集、异构数据融合、实时数据处理等数据集成领域的主要场景。IT168:您是何时进入这个行业的?这其中有没有特别的原因或者契机?陈雷:中间件行业可能和互联网行业还不太一样,还是有一定门槛的,我相信从事软件行业的人大部分都和我一样,没有什么特别偶然的原因或者契机,就是从小喜欢计算机,根据兴趣选择了专业然后一路走过来,如果一定要说原因的话,我觉得可能是我们国家近几十年信息技术的高速发展为我们提供了一展拳脚的空间,没有让我们放弃自己的兴趣,这也是一个很幸福的事。IT168:国内的市场格局是怎样的?都有哪些玩家?DataPipeline处于怎样的位置?陈雷:主要分为三大类。第一类是传统的外企,比如IBM、Oracle、Informatica等,有很成熟的产品和服务体系,但面对中国市场的新技术要求的应对稍显缓慢,比如Informatica今年宣布解散了中国公司,IBM和Oracle对国内正在逐步兴起的数据库都无法提供支持。第二类是云厂商,特别是公有云厂商,在大规模数据管理和应用上有非常深入的探索和实践,比如OceanBase,也代表了未来的发展方向,但在数据集成这个领域还没有特别有力的产品,而且在面向重点行业企业信息化建设服务这一块还是有很多的工作要做。第三类是一些有技术实力的行业集成商也在做相关领域的工作,但大部分都是在项目实施过程中基于开源项目慢慢积累,从商业产品角度来说适应性还有待验证。DataPipeline从成立之初就坚持专业化、产品化发展的道路,坚持技术驱动,深耕企业服务,准确地讲在产品的适应性上已经超过了传统外企,但在产品成熟度上还有很多工作要做,我们现在也广泛的和云厂商与行业集成商合作,共同为企业客户提供更好的服务。IT168:据您所知,数据融合市场的规模大概是多少?陈雷:数据中间件的上下游市场正在快速增长,倒逼数据融合需求不断增长,可以说中间件和数据库及数据应用市场在同一量级,2018年全球市场320亿美元,预计到2022年,数据融合市场大概在120亿美元以上,符合增长率14%,数据融合是中间件增长最快的细分市场。IT168:对于企业来讲,在搭建数据管理平台过程中都会面临哪些挑战和问题?陈雷:这个内容就比较多了,讲最重要的三个挑战吧。第一,各类数据管理技术差异越来越大,全面、准确的实时数据获取困难。随着数据技术的不断发展,针对某些具体场景的特性在不断被增强,使得各类数据技术的差异性进一步扩大,但被纳入其中的数据本身不应该因技术栈不同而阻碍其价值释放。1、交易系统、账务系统、管理系统、分析系统、主数据、数据仓库与大数据平台采用的数据库管理技术都不尽相同,数据交换困难重重;2、数据价值不断凸显,业务创新需要数据支撑,但大量数据没有纳入主数据管理系统,数据仓库与大数据平台又无法满足时效性要求;3、数据时效性要求越来越高,批量数据交换无法满足需求,但针对不同数据库的增量数据实时采集需要大量的技术储备与研发成本;4、增量识别字段等方式无法获取准确完整的增量数据,经常为实时数据应用造成障碍,也提升了实时数据的使用成本;5、不同数据库管理技术在实例、库、模式、表等数据对象上,字段类型、精度、标度等语义模式上都有区别;6、对上游的结构变化感知与应对都需要针对不同数据库技术区别对待;7、传输过程中的一致性、冲突、特定类型的数据处理也需要区别对待。第二,如何快速响应实时数据需求,把握机会快速建立竞争优势。业务需要更高的敏捷性来应对外部环境的变化,这需要整个数字化组织可以体系化的进行多速、敏捷的业务场景支撑,以及对突发业务活动有更多的可见性,以确保可以利用新出现的机会并快速建立竞争优势。1、端到端实时数据链路的构建,往往是以月为单位交付的,甚至更多;2、新的数据需求需要大量的代码开发,交付周期也是以周为单位计算的;3、数十种数据库技术,多家供应商,十几个支持电话,感觉自己也是是集成商;4、实时数据处理技术栈门槛较高,人员流失率较高,刚刚用顺手的供应商总是换人;5、数据组的要求无法通过DBA的审核,应用研发对系统运维要求怨声载道;6、资源使用与研发人员水平紧密相关,无法准确评估,遇到关键业务需求时捉襟见肘。第三,实时数据链路兼具业务运营与管理支撑要求,稳定性与容错性问题重重。从客户行为分析到非交易类的触客业务到事件营销再到风控评分,实时数据链路逐渐成为业务运营的重要支撑,但作为打通各业务系统数据通道的中间层,受到的上下游的各类制约,对稳定性的影响尤其严重。1、上下游节点的业务连续性和服务级别均高于实时数据链路,实时数据链路需要遵循上下游节点的认证、加密、权限、日志等管理机制;2、上游数据对象结构变化与数据对象的处理机制对实时数据链路影响巨大,例如结构变化采用rename方式;3、实时数据流量不仅仅需要参考业务交易量,与上游系统的数据处理方式有很大的关系,经常出现一个语句百万行增量的情况;4、随着企业多中心及多云战略的执行,部署在不同网域或云环境的系统配置,网络连通性乃至专线供应商与带宽都对稳定性有影响;5、对计划、非计划的网络不可用,上下游系统维护,物理删除等非规操作及偶发的错误数据及主键冲突数据没有相应的容错性策略配置;6、出现系统故障时,无法保证各个组件的高可用,系统恢复困难,特别是实时数据链路的数据完整性与数据一致性很难恢复。IT168:在过去一年中,DataPipeline在产品功能、技术研发,有哪些创新和突破?陈雷:在过去的一年里,我们针对产品进行了一次较为彻底的改造,主要体现在几个方面。第一,进一步加强了基于日志的增量数据获取技术(Log-based