其他
保姆级拆解向量数据库的结构和应用场景
导读 大家好,我是来自九章云极DataCanvas的王庚,我今天分享的题目是《保姆级拆解向量数据库的结构和应用场景》。
主要内容包括以下几个部分:1. NewDataStack 时代的数据架构地图
2. 向量数据库发展历程
3. 企业面临痛点&挑战
4. 向量数据库整体形态
5. 向量数据功能特性
6. 多模态向量数据库未来发展趋势及核心能力
7. 向量数据库重点支撑场景
8. 基于大模型的知识管家(Agent)向量数据库应用
分享嘉宾|王庚 九章云极DataCanvas
编辑整理|陈沃晨
内容校对|李瑶
出品社区|DataFun
01
向量数据库发展历程
第一个阶段是探索阶段。主要以文件形式存储向量数据,还没有具备有效的索引以及查询的能力,代表产品如 Lucene 等。 第二个阶段是发展阶段。大家已经开始使用像 KD 树等索引结构,可以实现一定查询性能的提升,但是在高维空间的查询效率还是远远不够,代表产品如 Annoy、FAISS 等。 第三个阶段是应用阶段。随着大家对大模型认知的提升以及一些应用场景的扩展,又对向量数据库的发展提了很多新要求,因此向量数据库也具备了一些新的特性,比如高效的向量索引和查询、处理海量的高维向量数据,这个阶段也涌现出了大批比较优秀的向量数据库,代表产品如ElasticSearch、DingoDB、Weaviate 等。
企业面临痛点&挑战
第一个是如何有效地去应对大模型时代数据架构的变化。从底层数据的角度来看,向量是人工智能理解世界的一种通用的数据形式,特别是在大模型时代,整个基于 Transformer 架构的计算,以及对数据快速 Embedding 的转化,其实都是基于向量去做的,大家常常把向量数据库称为是大模型记忆的存储核心,因此企业如何结合向量数据库进行企业级大模型数据架构的规划就变得非常重要。 第二个是多模态数据联合存储、分析、服务难题。这里面包含结构化与非结构化数据混合存储的问题,以及在保障性能的前提下,实现向量数据、标量数据的混合检索。为了支撑丰富多样的数据服务场景,要求我们的数据架构要能很好地应对多模态的数据在存储、分析、服务等各个方面可能会面临的问题。 第三个是如何满足高性能、易运维的企业级应用需求。海量的数据索引会带来运维的难题,包括怎样去优化当前的索引,以及把大批量的数据做初始化;向量数据库在运行的过程中,对于不同业务场景的响应是否能满足多并发低延迟的服务响应,如何降低运维的复杂度,减少企业的应用成本,这些都是企业要去实际考虑的问题。 第四个是企业数据如何安全可靠应用。数据高可用会涉及到像 HAI 分布式环境下的数据管理、备份等问题。数据权限除了多租户数据隔离,企业通常还要保障数据的安全和被高效地利用。当然,还有很重要的一点是当前形势下对于国产化信创的要求。
向量数据库整体形态
向量数据功能特性
多模态向量数据库未来发展趋势及核心能力
第一个是支持标量、向量数据的混合联合查询。既要同时支持传统的数据库索引的类型和比较丰富的向量索引的类型,又要能够无缝衔接标量向量混合检索体验,还要有领先的检索能力。 第二个是具备多样化的访问接口。向量数据库对外提供服务时,我们还是希望它有像 SQL、SDK、API 等多样化的服务形态,在不同场景下提供合适的访问方式。比如在时效性要求特别高的场景适合集成 SDK 或者高频 Serving 的 API。在面向 Table 和 Vector 数据模型时,不管是用向量或者关系型,都可以做一些灵活的配置跟转换。 第三个是全自动的弹性数据分片。当我们把大批量的数据导入进来之后,向量数据库可以自动对数据分片大小进行动态设置,并完成自动分裂与合并,为用户提供灵活的空间和资源配置策略。 第四个是实时索引构建自优化。数据存储之后,可以实时构建标量和向量的索引,并且具备用户无感知的后台自动索引优化。而且索引不仅仅局限于某一种类型向量数据库,在向量入库的时候,我们就可以选择一种索引去作为数据组织的基本形态,提供无延迟的数据检索能力支持。 第五个是内建的数据高可用。我们希望向量数据库无需部署任何外部组件,所有功能和高可用全部内置,这样既能减少跟其他组件的适配成本,同时也可以极大降低企业的部署及运维成本。
向量数据库重点支撑场景
基于大模型的知识管家(Agent)向量数据库应用
往期推荐
专利大模型的实践与知识问答探索
蚂蚁集团 EB 级大数据治理架构与实践
平安银行智能化数据安全分类分级实践分享
大语言模型对汽车行业的影响和实践探索
告别信息过载:大模型驱动的搜索与推荐,精准定位用户需求
阿里巴巴技术实践:BI+AI技术的融合与应用
官宣|Apache Paimon 毕业成为顶级项⽬,数据湖步⼊实时新篇章!
从0到1,聊聊货拉拉如何搭建数据指标体系
领域模型生产指南
点个在看你最好看
SPRING HAS ARRIVED