查看原文
其他

押注图结构存储,铺向金融、物联网赛道,国内外厂商竞逐

张瑞 DT Insights 2022-12-18


企业级 AI 应用兴起了新趋势,低代码、AI Ops、流处理都是这一轮落地中的新技术,图数据库也是目前关注的焦点之一。


大多数机器学习技术被设计用于表格数据或关系数据库。但随着 Amazon Neptune(亚马逊推出的图数据库)、Neo4j(美国的代表图数据库)和 TigerGraph(美国一家图数据库公司推出的数据库)等图数据库的兴起,为图形量身定制的机器学习技术开始逐渐被需要。


图数据库由节点(个体 / 实体)和边(它们之间的关系)组成。图数据库应用于高级材料发现、药物研发、反洗钱、反欺诈和企业推荐系统等方面。


因而,图神经网络(Graph Neural Networks,GNN)将机器学习与神经网络应用到图数据库,引起了人们的广泛兴趣。


图 | 图数据库专利数量在上个十年中呈上升趋势(来源:CB Insights)


简单来说,图数据是指采用图结构存储的数据,基于事物关联关系的模型表达,通过将实体与关系点边化的方式将知识结构化地保存。


相比关系数据库,图形数据库是 NoSQL(非关系型)数据库中的一种,是表示和查询连接数据的最佳方式。


相对其他非关系型数据库,采用的数据结构和分布式架构,适合离散、关联关系弱的数据存储管理。图数据库可以实现更好、更快地查询和分析,更简化地数据建模,由点及面地挖掘知识体系,面向对象的思维,以及更强大的问题解决能力等。


最常见例子就是社会网络中人与人之间的关系,传统数据库效果并不好,查询复杂、缓慢、超出预期,而图形数据库的设计恰恰弥补了这一缺陷。


图 | 图数据库技术示意图,“节点”与“边”是核心要素(来源:公开资料整理)

 

图数据库技术被用于社交关系挖掘、网页检索与排序、推荐系统等,并获得了商业成功。

 

目前,图数据库主要应用于金融、物联网、社交网络等领域,尤其是在反洗钱、反欺诈上。

 

主要适应的需求有两类:一是对时间有要求,希望快速分析并得到结果的场景;二是对分析深度有要求的场景,如一些区块链金融客户希望对数字货币交易可追踪不只深入到几十步,而是上百步甚至上千步。

 

图 | 图数据库主要应用领域(来源:CB Insights 中国整理)


据 CB Insights 预计,到 2027 年,图数据库市场将以 17.7% 的复合年增长率增长,达到 46 亿美元,这推动了为图形量身定制的机器学习技术的需求。


国外图数据库厂商


对于图计算技术的研究,最早可追溯至 20 世纪四五十年代。但图计算逐渐进入人们视野,则是由于 2010 年谷歌发布的一篇图计算论文。随着新技术和新业务的推动,目前图计算技术已进入临近爆发的前夜。


目前,在主要研究厂商上,亚马逊、谷歌等首先推出了自己的图数据库,一些初创公司也在跟随,如 Neo Technology 开发了主流图数据库 Neo4j,TigerGraph 等初创公司等。


亚马逊推出了 Neptune ML,用于客户留存、欺诈检测等


2017 年,亚马逊推出了自己的图形数据库 Neptune。三年后,这家科技巨头推出了 Neptune ML,这是专门为图形设计的机器学习技术。该解决方案为企业客户提供数据库和分析支持。


Neptune ML 构建在深度图库(Deep Graph Library) 上,一个由亚马逊开源,英特尔、英伟达等贡献的图神经网络库。

 

图 | 亚马逊 Neptune ML 应用于帮助被诈欺用户,识别诈欺设备和地址(来源:CB Insights)


谷歌改进了地图路径预测、先进材料研究


谷歌地图团队已经与 Alphabet 子公司 DeepMind 合作,使用 GNN 来改善地图 ETA 预估时间预测。DeepMind 利用 GNN,成功提升了谷歌地图在柏林、东京、悉尼等大城市的实时 ETA 路径准确率。

 

在 2020 年第二季度,DeepMind 还发布了关于使用 GNN 来解释玻璃的形成、并对制造业和其他行业产生影响的研究。DeepMind 使用 GNN,仅仅用粒子的初始状态就能预测玻璃态系统的长期演变,在不同温度、压强和密度范围都表现良好。在这个项目中,节点和边分别是 “粒子” 和 “它们间的相互作用”。其中 AI 被用来预测玻璃分子在液态和固态间的运动变化过程。

 

图 | 谷歌地图应用 DeepMind 实现道路预测提升(来源:CB Insights)

 

图 | DeepMind 发表研究探究“玻璃”的形成(来源:CB Insights)


集成图数据库和机器学习的服务产品


Neo4j 在 2020 年第四季度发布了面向企业的图形机器学习工具。同时,筹集了 3000 万美元,达到 5.32 亿美元的估值。


Neo4j 从 2000 年起开始研发图数据库,目前 Neo4j 已经成为领先的图数据库产品,思科、惠普、德意志等跨国企业均成为其客户。

 

图 | Neo4j 2020 年新推出的 Graph Data Science 图算法库示意 (来源:CB Insights)


图数据库推荐系统


图 | Twitter、亚马逊、Uber Eats 推出的基于图数据库的推荐系统 (来源:CB Insights 中国整理)


中国数据库发展


而中国,图数据库市场已经引起了一定的关注。首先是互联网厂商已经开始推出自研的图数据库,初创公司在后跟随,已经出现了原生图数据库领域的初创企业。


除此之外,研究机构和传统 IT 企业也涉足这一领域。

 

图 | 国产图数据库主要研究企业(来源:信通院,CB Insights 中国整理)


代表企业有:


阿里云


2021 年 3 月,阿里云图数据库 GDB 应用于上海华瑞银行,完成 “风险图谱” 项目的构建,打造企业级图分析平台。


阿里云共开发了 GraphDB、GDB 两款图数据库,GDB 于 2019 年 12 月 31 日商用。GraphDB 包含在阿里云云数据库中,购买 HBase 数据库服务时,就可选择 GraphDB 作为图数据引擎。


GDB 则是 2019 年阿里云发布的标准图数据产品,可用于淘宝、天猫进行商品推荐以及图谱的构建和管理。


阿里云作为云服务厂商,除了在中国公有云服务市场占有领先份额,在分布式数据库、图数据库等方面都有布局。


百度


百度的图数据库产品也有两款,BGraph 和 HugeGraph。


BGraph 是面向商业的图数据库产品,基本百度知识图谱的技术沉淀。BGraph 能支持数亿级顶点的图数据,通过分片和副本分布式可扩展,满足业务的快速增长。


HugeGraph 是 2018 年百度安全部开源的图数据库产品,用于反欺诈、威胁情报、黑产打击等图数据存储和图建模分析需求,在此基础上扩展及支持了通用图应用。


费马科技


2020 年 7 月,费马科技成为中国第一家通过图数据库国际标准基准测试程序 LDBC-SNB 官方审计测试的企业,同时打破了 LDBC-SNB 已公布的纪录。


费马科技是中国图数据库中的初创公司,成立于 2016 年,目前已完成 A 轮融资,由多位清华大学博士创立。


其自主研发的图数据库产品 LightGraph,实现单机大数据量、高吞吐率,以及灵活的 API,同时支持高效的在线事务处理(OLTP)和在线分析处理(OLAP)。目前,已应用于中国工商银行、京东金融、搜狗搜索、国家电网等多家企业。


欧若数网


欧若数网 2021 年 5 月推出了其 Nebula Graph 数据库 2.0 版本,提升了查询性能和运维便捷性能。包括腾讯、美团、京东数科、快手等在内的大型互联网厂商已在使用 Nebula Graph 进行海量数据的实时处理,提升其产品的反作弊、风控和数据治理等。


成立于 2018 年,欧若数网面向社交、支付、金融等领域,提供图数据库服务。欧若数网在 2019 年完成了产品 1.0 版本的研发,达到了高可用、高性能的标准,将其进行开源。2020 年开始,Nebula Graph 开始面向全球提供开源式图数据库服务,目前完成 Pre-A+ 轮融资。


图数据库主要发展现状及未来趋势


谷歌、Twitter、Facebook 等公司很早就采用了图数据库,此后这一技术不断升温。云服务提供商巨头亚马逊、微软、IBM 等在过去两年都增加了图数据库。


但当数据量变得非常巨大,或问题需要深度关联分析,又必须实时提供答案时,大多数图数据库都会在性能和分析能力上碰壁。由于图数据库对数据规整度要求较高,一旦数据规整性差,就会影响计算,且分析难度增高。图计算对数据全面性要求也很高,计算时往往涉及到多个数据源,数据源多分属于多个系统,数据集成也是难题。


对于中国市场,收费模式也是一大问题。客户的使用频率和重要性不完全成正比。如网页排序计算会涉及到万亿级别的网页数据处理,数据量收费对客户来说,就太高。


目前,中国的图数据库初创公司还普遍处于 A 轮,还有待于更多时间的发展,尚未形成格局。


在未来的发展上,原生的图数据库研发,以及图数据库与图处理引擎深度融合的研究、软硬件一体化,都是值得关注的方向。中国也正在研究 HTAP 混合事务分析处理等,底层数据库技术正在不断加强。


-End-


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存