估值超5亿美元,体验碾压Bard、Bing,AI搜索引擎Perplexity的想象力在哪里?
The following article is from 海外独角兽 Author 拾象
要点快读:
Perplexity AI 最大的特点是产品迭代速度快,Retrival 系统优化好:具体体现在生成速度快、模型 Hallucination 少,且回答中的每一句话都明确标注了引用来源。
但由于核心用户都在知识领域使用 Perplexity,目前尚很难成为一款低门槛的大众化使用产品。生活/购物助手等更高价值的场景可能是其用户泛化的路径,但该领域要竞争的是对于 Workspace、Shopping、Map 等深入积累的 Google。
作为创业公司,Perplexity 的重心在于打磨产品和召回系统,而不是自建模型+搜索技术栈。后者现在用的是 OAI 和 Google/Bing 的 api,但这样做成本偏高,且定价权掌握在别人手里,Bing 已经将其 search api 的价格上调了 10 倍。
作为一款知识生产力向的产品,Perplexity 目前以 20 美元的订阅制进行商业化,但这个商业模型对于问答引擎这样高 inference 成本的产品是不可持续的,尤其所挑战的搜索引擎有一套极其成熟的商业化模型,能使用户、商家、创作者同时受益。
接下来 Perplexity 必须要在商业化方面发力:如何帮助开发者和企业优化其搜索体验,如何将广告无缝地衔接入 AIGC 和 UGC。
如果没有长期新的商业模式出现,Perplexity 当前的形态更可能成为 Gen AI 时代的新 Quora + Wikipedia;如果探索出了 LLM native 的商业模式,Perplexity 具备挑战传统搜索的潜力。
01
Perplexity AI:AGI 时代的搜索引擎
Perplexity 几乎是最早推出的生成式搜索引擎,或者叫做回答引擎。借用大模型的力量,用户可以直接提问,Perplexity 会直接从各种筛选过的来源进行总结,提供准确、直接的答案,同时提供来源参考。
按照 Perplexity AI 联合创始人兼 CEO Aravind Srinivas 的解释:「Perplexity 基本上是将传统搜索索引与大型语言模型的推理能力和文本转换能力结合起来的产物。所以每次你输入一个查询到 Perplexity 时,我们会理解你的查询,重新构建它,然后将其发送到一个非常传统的搜索引擎和多个搜索索引,这些索引不是我们自己的,而是外部的。
从这些索引中提取出相关的链接,有时甚至有上百个链接。然后我们将简洁回答用户查询的任务交给大型语言模型。我们要求它阅读所有这些链接,并从每个链接中提取出相关段落,用这些段落来以学术或记者的写作风格回答用户的查询。也就是说,确保你的答案每部分都有支持性的引用、支持性的链接。这些都来自于我们的背景。」
当 ChatGPT 刚推出时,它凭借出色的自然语言理解能力和生成丰富回答的能力,曾一度让人们认为生成式 AI 可能会取代传统搜索引擎。然而,随着用户体验中的幻觉现象、无法联网和知识更新滞后等问题逐渐显现,人们开始回归现实,转向由大型模型增强的搜索引擎,例如 Perplexity 和 Bing Chat。这些「回答引擎」利用 RAG(Retrieval Augmented Generation)技术,对搜索引擎的结果进行处理,以减少误导信息并提高信息的及时性。除了 Perplexity 和 Bing Chat,其他一些曾企图挑战 Google 搜索引擎霸主地位的平台,如 You.com 和 Neeva,也转向了 AI 增强的答案生成模式。
与传统搜索引擎相比,回答引擎主要在以下几个方面进行了优化:理解用户问题的能力、总结搜索结果的能力、保留搜索结果索引的能力,以及扩展用户问题的能力。这些优化旨在降低用户使用门槛,节省用户在不同网页上搜索和浏览的时间,确保搜索结果的可靠性,同时为用户提供深入挖掘问题的能力。
正是因为这些特点,当 Bing Chat 于今年 2 月正式推出时,微软 CEO 纳德拉对其寄予了厚望,将其视为开启搜索新时代的重要标志。他认为这是对谷歌在搜索引擎市场长达 20 年的主导地位的前所未有的挑战。然而,到了 10 月的谷歌反垄断案时,纳德拉表现出了转变,坦诚 Bing Chat 尚有许多待解决的问题,且在市场份额竞争中未达预期效果。全球范围内,搜索引擎市场的格局依旧稳定。
尽管在访问量上 Perplexity 仍远不及主流搜索引擎,而且也有许多批评声音将其视为仅是表面包装,但自推出以来,Perplexity 一直保持稳定增长,在同类产品中保持最高访问时间,其表现甚至超过了有多年 AI 结合搜索引擎经验的 You.com。在 a16z 发布的月访问量前 50 的 GenAI 产品中,PerplexityAI 排名第十。从 3 月到 10 月的半年时间内,Perplexity AI 每天处理的搜索请求量增长了 6~7 倍,目前每天要处理数百万个搜索请求。
即使在其他大型模型纷纷引入联网能力后,Perplexity 仍保持良好发展势头。
02
产品优势:精心打磨的问答引擎
出色的产品迭代速度
Perplexity AI 是一家 Gen AI 应用层公司,模型或技术栈能力不是核心价值,产品迭代能力强是重要特点。Nat Fridman,Github 前 CEO 在今年初称赞过 Perplexity:创立不到六个月,比很多公司全生命周期发布的产品迭代都更多。
回到其产品公测的第一天:22 年 12 月 8 日,Perplexity 发布了其 beta 版本的搜索产品 Ask。根据用户的问题,输出用 Bing 搜索引擎结果验证过的 GPT 3.5 回答。其最早的产品与搜索引擎很接近,将文字输入顶端对话框之后,出现下面两段式内容:
第一部分是 AI 生成的总结,其中包含有引用内容和索引;第二部分是 AI 生成过程中参考的链接来源,会且只会出现 3 条。在生成内容下方可以给反馈:like 和 dislike,也可以转发到推特促使自然裂变。
最早产品形态
12 月 16 日,Perplexity 紧接着发布了第二款产品:Bird SQL,能够根据自然语言搜索推特中的内容。其实现方式是,用 OpenAI Codex 模型将自然语言变成 SQL,从当时还开放的 Twitter SQL 接口去查询到最相关的 post。
由于 Twitter 自身的搜索功能优化得很差,这一功能在早期受到了很多好评。因为产品的查询是基于 SQL 实现的,还产生了很多有趣的数据可视化,与 ChatGPT 最近受到热议的 code interpreter 有些相似。
可惜在今年 2 月底,Twitter 关闭了这个接口。从这个产品能看出 Perplexity 对搜索理解很深,且能抓住当时 Google、Bing、Twitter 都没有通过 LLM 优化自己搜索能力的时机,快速推出市场认可的产品。Twitter 的搜索经验在未来也能帮助其他公司的数据库优化其搜索能力。
今年 5 月,Perplexity 又大幅迭代了产品,问答引擎中的 Agent 实践:推出基于 GPT-4 理解和规划能力的 Copilot。在这款产品中,输入的问题中缺失的细节会由 Copilot 给出一些选项和输入框,使其能够让用户更精准地传达自己的需求。这一能力在输入复杂问题的时候,能给到更可控且准确的回答。当前的 copilot, 虽然只是一个界定了能力边界问答引擎助手,但却可能在尝试定义和探索未来基于 LLM 能力的 AI agent UI 形态。
与这一产品发布的还有 AI profile 和 Perplexity Pro 方案,前者是用户自己的背景和偏好介绍,在使用 Copilot 的时候能体验到一定的个性化内容;而后者是一个月 20 美元无限使用 Copilot 的额度。
根据 Lilian Weng 最新博客中的定义,Agent = Planning + Memory + Action with tools。Copilot 本身是 planning 的体现,AI profile 是 memory 的形式,而 Actions with tools 是当前 Perplexity 当前相对缺失的,也是最可能在之后和 Google 的竞争中落下风的:Google Workspace 中可以给 Bard 使用的工作和地图工具很多。
除了上文中这些重要迭代,Perplexity 产品还经历了一系列小迭代:
Perplexity 推出产品已经 7 个月了,开发和迭代速度很快,对 LLM 的想法也非常的应用思维:用好模型是第一位的,尽管他们有了自己的模型也不做任何宣传,因为认识到模型能力很难和 GPT-4 level 直接竞争。他们对搜索也有着很深的执念,目前 Ask、Bird SQL、Copilot 都围绕着核心命题:如何用 LLM 优化搜索的体验。
功能创新,补足回答引擎的短板
「Devil in the details.」,Perplexity 的卓越搜索体验得益于其众多创新功能,尤其是 Source Edit(信源编辑)、Focus Search(专注模式)和 Perplexity Copilot。
Perplexity 并不总是都表现良好。例如,在查询「Twitter 的 CEO 是谁」时,尽管同类产品均能正确回答 Linda Yaccarino,Perplexity 却有时会答错。这一错误源于其引用了未及时更新的维基百科条目。针对此类错误,Source Edit 功能可提供有效解决方案。
Source Edit 允许用户编辑参考信源并重新搜索。目前,这一功能仅支持删除而非添加信源,有效减少无关信源对结果的干扰,通过人工的方式,对潜在的不稳定性进行修正。可以看到,排除了包含错误信息的维基百科后,Perplexity 能够给出正确答案。
此外,用户可通过 Focus Search 功能,在开始新搜索前限定搜索范围,提升搜索效果。该功能在学术搜索、数学计算、YouTube 视频和 Reddit 论坛搜索等方面进行了特别优化。特别是 YouTube 视频搜索,其引用可直接链接到视频中相关内容的准确时间点。
Perplexity Copilot 则增强了搜索结果的准确性和可信度。作为用户的搜索助手,Copilot 提供更细致、深入和个性化的回答。
对于同样的问题,通常 Copilot Search 参考的信源更多、回答更长、展示方式更结构化,同时在搜索过程中,Copilot 会对用户的问题含义进行延伸,在一次用户的搜索中,实则进行了多次对于不同关键词的搜索。如下图所示,使用 Copilot 搜索同样的关键词,Copilot 会自动对用户的意图进行延伸,使用不同的关键词进行搜索并最终总结。
个性化的搜索。Perplexity Copilot 不仅深入理解用户意图,还根据用户的个人情况提供定制化内容。例如,询问餐厅推荐时,会自动要求用户补充必要的信息,如餐厅所在的地点;同时,Copilot 会根据用户的 AI Profile 所需补充信息,如下图(右)可以看见,在作者在 AI Profile 中提前设置好了自己所在城市后,Perplexity Copilot 便不再要求用户补充地址信息;最后,当 Copilot 要求用户补充信息时,会采用更加 LLM Native 的交互方式,会根据要求的补充信息类型,Copilot 自主选择最合适的交互方式来让用户输入,如下图(右)就自动生成了一组复选框。
Perplexity Copilot 使用了 Fine-tuned GPT-3.5 而非 GPT-4。根据测试,Fine-tuned GPT-3.5 在大多数情况下(69%)能提供与 GPT-4 同等甚至更好的性能,甚至在少数问题上,能够提供比 GPT-4 更好的表现。
Perplexity 的愿景不仅是成为更好的搜索引擎,而是打造一个全面的知识中心,助力用户轻松学习新知。为此,Perplexity 自开发之初便专注于优化其引用信源和发散性问题处理能力。
9 月份,Perplexity 围绕此愿景推出了「合集(Collections)」功能。在 Perplexity 中,每次查询对话被视作一个线程(Thread),而合集则是线程的容器,功能类似于收藏夹。合集不仅能整理线程,还能围绕主题拓展新问题,邀请协作者共同构建知识社区。
产品评价与反馈
Quantative Analysis
体感效果:
• 文本流畅度
引用能力:
• Recall(引用是否完整)
Qualitative Analysis
显示文本引用来源:每次生成的回答中会有 3-5 个链接,来佐证其生成内容的准确性。阅读体验非常类似学术文献阅读,且来源可以控制:如果不喜欢华盛顿邮报的内容,就可以将其从 source 中删除,重新生成。 有完善的查询历史和内容分享:每次对话会生成一个链接 permalink,成为与其他用户分享的知识百科页,自己过去查询的历史也会完全记录下来。(详见 reference)其他的产品更多的是将查询内容当作聊天记录随用随抛,而 Perplexity 则将其作为维基百科,可见其对自己生成内容是更有信心的。
焦点搜索功能:在搜索框下方,有个下拉菜单,其中包含多个领域,例如 YouTube、新闻、Reddit、学术等(学术专区增加了 SemanticScholar、Arxiv 和 NIH 等资源)。这个能力可以使搜索效果更为聚焦,用户调研中常见使用于学术研究和创意写作相关。
生成内容简洁且可靠:在与多问题引擎对比的时候,Perplexity 是最能用有限的字数准确回答问题的产品。Bing Chat 有时回答过于简短需要反复追问,Google Bard 有时回答太过冗长,需要从中提炼出关键信息。结合有用户反馈 Perplexity 生成的内容有大约 650 字的字数限制,能够精炼地提供言之有物的回答,是问答引擎这个场景的重要标准。 理解问题并拆解、主动反问的能力:在 Copilot 产品中,AI 能够根据问题理解,并且深入问题的细节反问得到更多信息,再去进行搜索。这里是灵活使用 GPT-4 的规划和理解能力,通过 prompt engineering 去引导其提问和反问,使生成的内容质量更高,可控性更强。
多轮对话:在同一次搜索中可以不断追问,得到更接近自己想要的内容,在产品形态上兼具了 Chat 和 Search 的优点。实际使用时,偶尔会有多轮记忆和理解上的遗忘现象。 基本没有 Hallucination:有主动表示搜索结果中没有符合问题答案的能力。 多语言能力不错,生成速度快:Google Bard 目前只支持英语,Bing Chat 在浏览那一步的速度较慢。
03
技术:定位应用层,使用技术巨头的 api 开发产品
抓取:谷歌的抓取器,也称为 Googlebot,负责访问网站并下载页面。它们使用各种技术来避免使网站过载,例如限制每秒访问的页面数量和遵循 robots.txt 文件。 解析:页面下载后,会对它们进行解析以提取内容。这包括页面上的文本、图像和其他媒体。解析器还识别页面的标题、关键字和其他元数据。 过滤和整理:从页面中提取的内容接着进行过滤和整理。这包括删除重复页面、检测垃圾邮件和按主题分类页面。
索引:经过过滤和整理的内容随后被索引。这涉及到创建一个包含页面及其内容、元数据和排名信息的数据库。 排序:索引中的页面使用各种算法进行排名。这些算法考虑到页面的内容、指向页面的链接等因素。
谷歌搜索网站:谷歌搜索网站是谷歌搜索引擎最著名的用户界面。它允许用户输入搜索查询并查看搜索结果。 API:谷歌还提供了一些 API,允许其他应用程序访问搜索结果。这使得开发人员可以创建与谷歌搜索引擎集成的自定义搜索应用程序。
Google/Bing 搜索返回:从他们的查询引擎 api 返回与用户 query 有关的网页内容。 索引系统:将内容向量化进行细粒度的处理和组织,目标有二,其一是方便排序时能理解和定位到网页中与用户问题最相关的内容,其二是可以将 api 返回的内容存储以用作之后复用。 排序系统:以语义搜索的方式 retrieve 最相关的内容,交给 LLM 作为 input 进行学习。 问答系统与 LLM 调用:LLM 根据召回的内容进行学习,输出对用户 query 的解答,并在其中对引用内容进行标注。学习过程中根据用户选择和系统判断决定使用自研模型还是 OpenAI 的模型。
成本测算:长期需要自研 search stack 以降低成本
04
团队与融资情况
创始科学家比例高,LLM/search/ranking 经验丰富
融资历史:天使投资阵容豪华
2022 年 9 月,获得 310 万美元种子轮融资 2023 年 3 月,Perplexity 在 A 轮融资中筹集了 2560 万美元,估值 1.5 亿美元 2023 年 10 月,完成由 IVP 领投的新一轮融资,估值达到 5 亿美元
05
商业化发展及未来
早期核心用户稳定,尚需跨越鸿沟
提供问答引擎 api:成熟需求,上千开发者来询问过。 专业版个性化 Indexing:
To C:个性化体验(用户自己的链接、书签); To B:工作流工具,Index 工作中的合作仪表盘等。
未来发展分析
Reference:
https://www.perplexity.ai/search/4f22f1bd-e957-4a50-bc9e-591f16f42464
https://youtu.be/ix4_rdogcVI