【金猿技术展】基于复杂网络的高维元数据管理系统和方法——为客户解决数据治理的元数据血缘关系问题
天云数据技术
本项目由天云数据投递并参与“数据猿年度金猿策划活动——2022大数据产业创新服务产品榜单及奖项”评选。数据智能产业创新服务媒体
——聚焦数智 · 改变商业
复杂网络:是指具有自组织、自相似、吸引子、小世界、无标度中部分或全部性质的网络。
元数据:为描述数据的数据,主要是描述数据属性的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。
逻辑计划:是对传统数据库中SQL解析的逻辑计划的一次进一步提炼,这里是对数据库上层逻辑的一次抽象,如有SQL的逻辑计划、图的逻辑计划、AI的逻辑计划等。
Hubble数据库支持多种逻辑计划如图逻辑计划、SQL逻辑计划、AI逻辑计划等,其中图的逻辑计划可以提供标准的图的访问接口等。本次项目首先用到了Hubble数据库的图逻辑计划;其次在元数据表达层,通过图的方式来表达元数据之间的关联关系,使元数据在更高的维度被表达出来。因为高维的表达,带来更多新的特性,数据的相似性、关联关系、健壮性、中心性等可以很好的做分析。通过Hubble做为支撑,从SQL的反解析、应用的逆向工程,自动的构建元数据网络,符合Dama2.0的设计,为数据治理提供新的方法论的支持。
技术说明
元数据管理作为数据管理框架中一项重要的管理职能,被广泛地应用于企业的数据管理体系中。元数据是指描述数据的数据,是对数据进行描述、解释、定位使其更方便检索、使用或管理的数据。元数据包括技术元数据和业务元数据。其中,技术元数据是从数据结构和数据处理细节方面对数据进行技术化描述,业务元数据是从业务术语、业务描述、业务指标和业务规则对数据进行描述。
元数据管理系统包括:业务对象生成模块、关联节点获取模块、关联关系解析模块和元数据加工模块,用于根据至少两个原始节点生成业务对象,获取业务对象的关联节点,并获取业务对象和关联节点之间的关联关系,根据业务对象、关联节点和关联关系形成复杂网。
Hubble数据库创造性的提出逻辑计划的概念,是对SQL解析中逻辑计划的升级,把数据库对不同逻辑的支撑定义为逻辑计划,如SQL逻辑计划、图逻辑计划、AI逻辑计划、3D点云逻辑计划等。所有的逻辑计划共用存储层、调度层、资源管理层,在对元数据的处理中采用了复杂网络的方式来做高维表达,对元数据的相似性、关联关系、健壮性、中心性等在复杂网络层通过图的算法快速实现。对于应用,该方法通过对SQL的反解析,以及应用逆向工程,实现元数据网络的自动构建。在逻辑计划层,Hubble通过对底层底层接口资源的进一步抽象,对存储、调度、资源等这在SQL逻辑重点对SQL的解析、SQL计划转化、SQL优化做处理,在图的逻辑计划中对图的点、边、属性等做对应的映射,使图的基础元素可以方便的映射到底层存储中。
在对应用的SQL反解析中借助了Hubble数据库的SQL解析可以对Mysql、Oracle、DB2、Hive等常用的数据库的语法全部做到兼容并解析为抽象结构树,在对树型结构做关系抽取,映射到表与字段的关系、表与表的关系、字段与字段的关系,从形式真正的血缘关系图谱,并通过算法对图中的相似关系进行计算,得相似性关系图谱。每个图谱中的基础节点就是原始节点,由于原始节点代表了技术元数据,根据原始节点生成业务对象并形成以业务对象为中心节点的复杂网络,实现了技术元数据和业务元数据的融合,从而,使得元数据管理系统能够更好地适应企业不断发展的业务需求,提高了元数据管理的灵活性和有效性,提升了数据资产的价值。
通过对图谱技术元数据和业务元数据进行图算如Pagerank、最短路径、删边、介数等计算得图元数据的活跃性、连通性、健壮性等图的基础特性,赋予元数据对应的表与字段,形成对应的血缘关系。在图谱的辅助下方便做进一步的主题构建。在主题构建中基于图谱的血缘关系以及基于Hubble数据的计算能力、多源异构的能力,可以实现虚拟主题的构建,做虚拟视图映射,减少数据的移动,以及存储空间的占用。
★专利申请号/公开号:CN112364096A
开发团队
·带队负责人姓名:乔旺龙
乔旺龙先生,金融科技产业联盟分布式数据库专委会委员、参加国家级相关发明专利编写多项,曾主导编写"智慧粮食系统内部数据采集研究"发表与《中国科技纵横》,2013年入职天云融创数据科技(北京)有限公司,现在我司担任副总裁,负责我司分布式基础组件的分布式产品线,包括分布式数据库、图计算等,其计算机相关知识扎实,在分布式、数据库等多个领域都有突破。
·隶属机构:天云数据
天云数据,首批国家级专精特新小巨人企业,数据库及人工智能基础软件独角兽企业。
在数据供给侧:天云数据荣膺全球领先的信息技术研究和顾问公司Gartner代表性中国数据库厂商TOP5;数据库产品Hubble同一产品同一软著同时通过信通院的事务和分析能力评测;工信部开展的2022年大数据产业发展试点示范项目, Hubble数据库作为唯一一款国产HTAP数据库入选,获得国家级重点项目推荐。
在数据消费侧:天云数据荣膺全球资讯机构Forrester魔力象限图“认知层”第一象限公司;提供认知层AI模型流水线生产平台AI PaaS; 中国证监会公布的“首批纳入资本市场金融科技创新试点项目”,天云数据的“单账户配资异常交易监测系统”从51个行业优质项目之中脱颖而出、位列三甲,成为“证监会版”监管沙盒项目之一。
天云数据已经为50+家五百强及上市公司提供服务。
2021年底,天云数据完成数亿元D轮融资,本轮由北京市国资基金、上海市国资基金、苏州市政府等多家国家队基金共同投资。
相关评价在过去的数字化、智能化建设工作中积累了海量的数据,但各系统相对孤立。今天要做数字化转型,需要面向整体业务板块进行全域数据管理。中石化公司在几年前开始规划"集团——板块——企业"三级数据湖架构和逻辑一致、物理分级的数据治理和数据管理体系。规划设计集团统一的分布式数据资源目录,并制定统一的数据管理权限,作为公司数据资产唯一的发布和共享平台。天云数据的AI平台,切合公司的需求,在智能油田、数据治理等项目中得到了很好的应用。
——中石化数字与信息化管理部处长 肖波
数据质量管理不单纯是一个概念,也不单纯是一项技术、也不单纯是一个系统,更不单纯是一套管理流程,数据质量管理是一个集方法论、技术、业务和管理为一体的解决方案。通过有效的数据质量控制手段,进行数据的管理和控制,消除数据质量问题进而提升企业数据变现的能力。天云数据质量智能分析工具设计理念---- (双模) IT 架构,模态1是可靠IT,持续稳定现有业务的发展,像马拉松运动员。模态2是敏捷(Agile)IT,推陈出新,布局新产品和模式,像短跑运动员。在企业向第三平台转型过程中,二者缺一不可、相辅相成。天云数据“数据质量服务”服务就是可靠IT和敏捷IT之间的“变速齿轮” 。
——国网普华项目负责人 尹将伯
提示:了解更多相关内容,点击文末左下角“阅读原文”链接可直达该机构官网。《2022中国企业数智化转型升级服务全景图/产业图谱2.0版》
❷ 创新服务企业榜
❸ 创新服务产品榜
❸ 最具投资价值榜
❺ 创新技术突破榜
联系数据猿