老店迎新客:向量数据库选型与押注中,没人告诉你的那些事
某家云计算厂商员工告诉我,拜访客户,刚坐下,客户说的第一句话就是:
“你先给我推荐一个向量数据库吧。”
大模型火了,把向量数据库带火了。
向量数据库是小众技术,也是已有的成熟技术,突然间就出圈了。
确实,数据库技术非常底层,极少蹭到热度。
好不容易,天降流量。
这得一顿猛吹,要不然怎么配得上热情的营销号和多金的投资人呢。
客户迫切选型,融资烈火烹油。
不过我一向认为不知深浅,光看钱多也没劲。
这是一个“老店接新客”的故事。
向量数据库不是一个新技术,而它要面对的新挑战是:
如何服务好大模型这个“新客”。
但凡知道向量数据库,
几年前,不能不知道脸书公司的Faiss算法。
几月前,不能不知道Pinecone公司。
Pinecone公司凭借和大模型的“暧昧关系”,拉高估值,一跃成名。
我先点一笔,Pinecone确实干了一件好事。
它用一句话向全世界解释了向量数据库的用处,
将大模型和向量数据库的关系,用一言概之:
“为大模型提供长期记忆力。”
这个说法非常巧妙,尤其是面对投资人和吃瓜群众的时候。
建议轮次创业公司的创始人都好好参详。
别光埋头苦干,教育市场重要。
当然,还得有风口。
顺承记忆力的逻辑。
于是,向量数据库被推向人工智能重要基建的高位。
于是,有人断言:“大模型和向量数据库的组合拳,会对传统数据库产生冲击。”
猛一看,道理都对。
在大模型到来之前,向量数据库虽是“区区小事”,但又“不可或缺”。
要我说,这里并非AI的主战场,三千越甲可吞吴,二十精兵亦可挡。
谁能料到,大模型来了。
它的理解力被追捧,记忆力被吐槽。
你上次和它交互的话,到了下次也不会是已知背景。
槽点是,大模型没有长期记忆力。
这是病,得治。
有人认为解药是向量数据库。
还有一句据说是红杉投资人也认可的说法:
向量数据库是大模型的内存。
要我说,向量数据库吧,起初就是互联网大厂里的一个秘密武器。
我发现它的时候,它就已经在互联网大厂里存在了挺多年。
谭老师我是怎么知道向量数据库的呢?
那是2021年的冬天,我一不小心摔断了脚趾骨。
拄着双拐在寒风中寻访科技大神非常困难,只好这样身残志坚地在一家互联网大厂里找了个工位,大概待了两个月。
那段时间,我参观学习了AI软件栈、中台、中间件、编译器等秘密武器。时间一长,和他们研发团队上上下下都脸熟了。
于是,我大声宣布,来吧,展示。
你们都有什么秘密武器?
以谭老师我口风紧、做事规矩的行事风格,
我亲眼见过不少大厂AI软件栈的内部文件和秘密武器。
一款向量数据库曾令我眼前一亮,居然还是开源的。
我内心的OS是这句:
像所有优秀的秘密武器一样,一开始都是低调研发,且专供内部使用。
向量数据库在电商大厂诞生的时候,有其明确的场景需求——自用。
用技术术语来说就是,针对业务中的相似性搜索(similarity search)需求发展而来。
在这个需求之下,一个好用的工具能够给厂商节省巨大的经济成本。
你用20块GPU干事,我用2块GPU干了同样的事。
卷王独白:我升职加薪,你离职走人。
接下来的两个问题比较重要:
现实需求中,人们为什么要用图来搜索?
技术实现里,为什么要用向量来搜索?
现实需求的答案是剁手党给出的,而且已经被淘宝APP的一个常用功能回答了,那就是2014年问世的拍立淘,也就是淘宝首页最上方的搜索框里的照相机。
从其出现的位置就能大概知道其好用程度。有了拍立淘,谭老师我找穿搭王者白百何同款、杨幂同款不再犯愁。
我转述华先胜老师的观点,图像搜索通过拍立淘(电商拍照购物搜索)所创造的商业机会,将技术潜力极大地释放出来。
拍立淘的背后,是一款向量检索引擎,名叫Proxima,它的底库规模有几十亿张图片。不止于此,Proxima还用于阿里巴巴“老集团”的众多业务,如优酷视频搜索。
京东零售虽迟但到,2018年初,构建起十亿规模的实时分布式图片搜索系统,向量数据库Vearch问世。出生之时便是“劳模”体质,很多活等着它去干:
解决重复铺货,商城APP同款推荐,商品详情页去重等等。
放眼全球,向量数据库这事儿不是中国两家头部电商最先做的。
而是美国硅谷那家叫做Meta(脸书)的公司。
这位AI算法开源狂魔,做向量数据库那帮人都特别感谢它。
因为该公司的人工智能基础研究小组(Fundamental AI Research Group)向全世界开源了FAISS(全称为Facebook AI Similarity Search)。
极客们认为,FAISS本身是很棒的算法,是向量数据库界的“风清扬”前辈。
甚至有人内心忍不住这样想:
“这个算法把这件事解决得这么好,那我何不赶紧拿来做封装?”
忍不住直拍大腿,谁说这不是一个好办法呢?
有的国产向量数据库创业公司是封装了Faiss,Nmslib和Annoy等ANN库。
不过,阿里巴巴和京东零售都没靠封装“别人家”算法来解决问题。
阿里巴巴向量检索内核Proxima是纯自研,京东零售向量数据库Vearch是基于Faiss自研,均做到了工业级大规模场景,高性能、高可用、低成本。
贴着自有业务做不复杂,但是想要通用并向外提供,且支持工业级场景,那就复杂了。
阿里巴巴和京东零售仅自用,也投入了很多年。
按道理,一个向量数据库能提供高效的向量存储、索引和相似性搜索功能,那就是一个很厉害的产品了。
不过,抄近路的人看似更猛。
这里可以讲一个挺出名的江湖段子,
暗戳戳指向向量数据库创业公司Chroma融到了千万美金的“方法论”:
底下是实时分析数据库 ClickHouse,搭上个开源向量检索算法,中间花几千行Python代码接起来。
下一步:融钱。
用ClickHouse而不用图数据库的原因是,没必要,点边会令复杂度增加得太多。
这是什么逻辑呢?
实现一个OK版本的向量数据库的门槛儿并不太高。
我不要求它在推荐系统、图像搜索和自然语言处理等领域全球最快,
也不要求它为全球规模最大的大模型服务。
能用就得嘞。
我无意贬低Chroma,
一家种子轮的创业公司,
还提什么严苛的产品要求呢?
(四)关键词:本质与竞争
回答“为什么用向量来搜索”这个问题。
有句高雅的表达:一切皆可向量化。
深度学习技术让计算机能“读懂”图片,原理是程序先把图像的特征抽出来。
我把向量简单理解为一种图片特征。
图片检索的根本是向量检索,也就是通过找特征,来找到有类似这个特征的图片。
专业说法是,非结构化的数据向量化之后去做相似度匹配。
要我说句粗朴表达,那就是:一根筋。
管你是图片、文本、音频,还是视频数据,
都一根筋地从中提取以向量为表示形式的特征。
内心OS:向量数据库我呀,只给你简单粗暴的爱,数据都给你向量化了。
向量数据库的本质是什么?
向量检索功能的背后,是向量相似度检索这个能力。
把数据以向量的形式存到一个数据库里,用向量相似度匹配的方式查找出来。
市面上有很多数据库产品都能做相似的事情,都能扩展出类似的能力。
就看看阿里云,云上有这个功能的产品就达七个之多,分别是:
阿里云实时分析数据库AnalyticDB,
阿里云PostgreSQL,
阿里云Redis版,
阿里云交互式分析产品Hologres,
阿里云OpenSearch,
阿里云多模数据库Lindorm,
阿里云托管Elastic search。
这些有此功能的数据库并不为阿里云所独有,AWS(亚马逊云)同样也会有这个能力。
这些数据库,并非刻意做向量检索,也不是因为有了大模型之后才做的,他们在更早的时候就具备了这个能力。
在大模型的定势所趋之下,
支持向量搜索功能的数据库并不少,
而且还会有更多数据库往这个方向去做。
搜索引擎数据库Elastic Search就是很好的例子,
我也很负责任地地说:“它也要吃向量数据库的蛋糕。”
观察Elastic Search的高版本(8.8和8.9版本),
迭代了非常多这方面的东西。
数据库Elastic Search有“雄心壮志”,在原有赛道里面增强自己这方面的能力,
在已有存量能力的基础上,提高新能力的权重。
无论是大模型的势头,还是投资人的态度,这块的竞争只会加剧,不会减弱。而且竞争对手也不是无备而来,均会侧重考虑和设计如何为“大模型”服务。
这是新的增量市场,兵家必争之地。
一家公司有多少文档?假如100万份,将整间公司的知识沉淀在文档上,存在向量数据库里,实际上,一台服务器就足够了。
我们不可能举全球之资源、之算力,拥有一个全知全能的大模型。正常的情况会是,一个具备“基本素质”的大模型,日后不断接受来自新知识的考验。
我们有两个办法让大模型的效果变得更好,用新知识数据集微调,或配备向量数据库来检索新知识。
大模型微调成本非常高,以千亿参数大模型为例,一次全面微调大约需要两个月,过程中可能需要50T的数据,而仅大吨位的数据下载,可能就需要两周。
微调和向量数据库,这两个办法并不互斥。
有人认为:哪怕微调做得再好,也可以再上一个向量数据库,达成更好结果。
市面上有很多把数据向量化的模型,着急的客户们迫不及待地把数据向量化,再寻求咨询,如何选择向量数据库。这也就造成了云厂商销售拜访客户,客户心急向量数据库选型。
极客们已经撸起袖子,他们用向量数据库存向量,再用相似度查询来获取结果,然后用LangChain把提示(Prompts)作为输入传递给大模型,从而生成更好的内容。
或者说,极客们用LangChain来给大模型加上内存。
LangChain 最初是一个开源项目,由AI工程师Harrison Chase创建,在 GitHub 上获得大量关注之后迅速转型为一家初创公司。
LangChain以大模型为控制器连接各种工具,从而拓展能力边界。
开发一个有关大模型的新应用,远远不止是API调用。
基于大模型开发应用程序时,还有很多“手工活”要做。
极客们已经出发了,而大模型在生产环境下的要求会更高。
行文至此,不禁感慨:
LangChain真是个好东西,实现不需要太多代码,非常方便。
看上去,大模型革故鼎新,气象一新,新的软件栈正在形成之中。
比如,LangChain就是AI大模型技术堆栈里的编排层。
举个例子,让ChatGPT帮我干活(翻译),
为了效果好,像彩虹屁一样加上各种提示词(Prompt):
“you are a helpful translator” (你好棒),
“do not answer anything beyond what is provided”(你别管闲事),
“do make sure things are accurate”(你别做蠢事)等等,
好工具,看似简单,实则关键。
比起国内大模型团队的同质化竞争到了白热化,这种别出新意的工具令人耳目一新。
大模型、向量数据库、LangChain三者关系密切,
国外社区甚至还造了一个新词:OPL。
取自OpenAI,Pinecone和LangChain首字母。
连类比物,我想到了“钢筋混凝土”。
在混凝土中加入钢筋网、钢板,构成一种组合材料,
强调共同工作来改善混凝土力学性质。
有不少人认为,向量数据库投资过热。
其中一个原因是:
把大模型分成三层,
上层应用层竞争增量太大,
戏称,睡一觉起来多了100个应用程序;
基础模型投入太重,一些投资机构跟不了;
中间层的投资,能力适中就可为。
现在,有两派不同的声音:
一派认为技术上不复杂,其他的数据库顺带做了就完事了;
另一派认为大语言模型颠覆性强,向量数据库会因大模型而变成主流数据库。
我们未能把大模型的边界摸清。
我们也未能把向量数据库的边界摸清。
向量数据库的未来究竟如何,这个时间点上下结论,也许过早了。
我更关注的是,
哪家国产大模型跑通了“大模型+向量数据库”?
哪家大模型用户企业在生产环境中用上了向量数据库?如何用?
毕竟,崭新的组合材料,好不好使,用了才知道。
热烈欢迎,向量数据库先行者们和我联系。
拜了个拜。
(完)
One More Thing
(《我看见了风暴》谭老师新书,京东有售)