OpenAI DevDay 是 AI 创业者的末日吗?创业者和投资人们不这么看
OpenAI 开发者大会结束后,关于 OpenAI 是否在抢开发者饭碗的讨论成为了 X 上的热门话题。除了降价和新的 GPT-4 Turbo 之外,对于 GTPs 和 GPT Store 的未来可能性也有很多讨论。
到底如何看待「AI 春晚」以及它对于 AI 创业的影响,我们选取了来自科技媒体、创业者和投资人的一些观点。
如果你还没看发布会,这里有关于发布会的详细介绍:抢占生态位!更强GPT-4、GPT商店、Agent工具、API降价!OpenAI开发者大会开启AI大规模落地
飞哥说 AI
开发者的真正壁垒是数据和场景
GPT Store 对标 App Store,但大模型真的是「手机」吗?
GPT Store,其实是以前的 plugins store 的延伸,不仅便于 GPT 的定制化使用,还让开发者通过 GPT 创造收益。
很多人认为 GPT Store 是大模型版的 App Store,可能加速应用生态的建设和巨变。但,作为入口没有流量,store 的价值真的存在吗?
首先,如果 App Store 提供的是更底层的 infra(流量、支付等),分发的应用形态可以很丰富,再加上流量的入口以及封闭的分发体系,使得应用开发者都将跟随其中。
那么 ChatGPT 提供的仅是语言的基础设施,语言在过去最主要用于搜索和聊天,其应用量未必那么多。
当然 ChatGPT 接下来可以提供语言之外的多模态基础设施,但是能在多模态上一统江湖成为流量入口吗?
或许 OpenAI 很难在语言之外的其他模态上重现 ChatGPT 发布时一骑绝尘的辉煌了。因为竞争对手都看到了,也都在努力。
总之,如果 ChatGPT 自己的日活和流量不再快速增长的话,他的应用生态(plugins、GPTs 等)也只是空中楼阁。
如同开设一个商场,如果这个商场自身疲于客流增长,那么即使再装修得富丽堂皇也形同虚设。
其次,基于语言类的应用能做的设计其实非常有限,语言是必须的,但它还不是最底层的东西——相比生态应用,App Store 是更底层的东西。
所以 GPT Store 有望成为大模型时代的 App Store 吗?
如果 OpenAI 将 API 视为「手机」,而非 ChatGPT 是他的手机,那么先证明「手机」的必要性,才有在此基础上做所谓「生态」的价值。
就像今天的 ChatGPT 还不能颠覆滴滴、美团、抖音快手和微信,但它有潜力颠覆搜索引擎。
既然 OpenAI 的使命是 AGI,ChatGPT 更应该专心加注 GPT-5——模型及 ToC 的应用本身,其产品形态可望取代搜索引擎,同时也满足搜索之外新增的信息和知识需求,先把用户时长和频率做起来,之后才有可能做所谓开发者生态,而 API 和所谓生态可能都是一种「身外之物」的干扰。
开发门槛降低,独有的数据场景成为真正护城河
作为生态利器,GPT Builder 和 Assistants API 的能力也不新鲜,早已在各开发团队中开始尝试、探索和应用,但 Open AI 这次是把这些能力整合了,并提供平行调用多种工具的能力,工具调用的可靠性据称极大加强了。
利用 GPT Builder 制造各种 GPTs 意味着每个人都可以配置不同的角色。开发者利用 Assistants API 更易于开发自己的场景 bots,以前需要几周才能开发的智能助手,现在是 days or even hours,这就为普通人创业创造了条件。开发门槛的进一步降低,大量的各种细分场景,无论巨细,都会涌现各种 GPTs(或 bots/copilots/assitants)。
这意味着,很多以前专事开发不同场景 Copilot 的团队,面临既喜又忧的处境。
喜,工作效率会大幅提高,曾为 Copilot 努力所做的很多探索和努力,现在可以直接从平台方得到更加简单易行的解决赋能。
忧,其门槛降低了,意味着技术护城河逐渐消失,会有更多人来竞争。
这样来看,这股平台潮流(GPT Builder / Assistants API / GPT Store) 具有改变生态的可能性。应用开发者真正的护城河不再是模型及其定制的能力,而是其独有的数据和场景,以及自己可以触达的目标用户盘。
领域壁垒仍然是大山
这次发布几乎没有任何超出预料和想象的黑科技,所有的能力都有它清晰的来路。新的生态平台究竟能不能成功,还有待时间的判定。
新平台的发布再次证实了一个道理:那些专做 LLM 下游应用开发者的技术护城河进一步消退,但同时他们的工作效率也大幅度提升。可以说是喜忧参半。
最终胜出的应用团队,应该是那些懂得市场需求,具有独特数据、场景和目标客户的数字人开发者,而不是数字人制作的技术本身。
OpenAI 解决的是各种数字人制造的平台工具的建设问题,它并不能解决大模型落地应用的商业模式问题。
民间有高手,数字人应用能不能爆发靠的是越来越多涌入的开发者,而不是赋能的OpenAI。
数字人渗透各行各业的趋势只会加速,在这个过程中能不能建立起广阔而有效的商业模式,还有待观察。这是因为数字人的有用性以及数字人制造成本的降低,都不能保证有足够的市场买单的意愿。
另一个 OpenAI 还解决不好的问题,是垂直纵深的领域壁垒问题,这里所牵涉到的数据安全、用户隐私以及种种业务逻辑的复杂性,都是目前的平台难以覆盖的区域。
尽管 Assistants API 这类 Agent 方向的工具,可以帮助应对浅度领域的应用场景,领域壁垒仍然是大山。
一方面可以看到 App Store 改变生态的潜力,但商业模式完全靠 GPT Store 的分成,难以造就有规模的 killer App,毕竟 Store 只是入口。
Atom Capital
Vertical Agent 公司不会被取代
解析 DevDay
目前 OpenAI 的战略已经非常清晰,是两条腿走路:一是提升基础模型能力(剑指 AGI),二是构建开发者生态和应用平台。
OpenAI 之所以在意应用生态的构建,是希望在早期阶段尽量多地占据用户场景、扩大用户基数,我们认为,这背后 OpenAI 最看重的东西,是对它的基础大模型的使用。当前大模型头部玩家拼抢的最重要资源是算力和数据,而构建开发者生态、让更多开发者创造出更好的产品、让用户源源不断地涌入生态,是基础。
OpenAI 通过 GPT Builder 和 GPT Store 搭建 ChatGPT 的应用生态。
这其实是对年初发布的 ChatGPT Plugin Platform 的一次改版升级。Plugin Platform 的意图是将 ChatGPT 打造成超级流量入口,用户通过 plugin 在 ChatGPT 内完成各项任务,而 ChatGPT 成为一个大的流量分发平台。但 Plugin 在落地使用上遇到了种种问题,并未真正火起来。
这次 GPT Builder 以及随后即将推出的 GPT Store 仍然是瞄准流量分发这一目标,不过改换了形式:在用户侧,是以「应用分发」的形式呈现一个个应用(而非让用户自己挑选相关插件),用户的体验更好。从开发者角度,也提供了更大的灵活度。开发者可以在一个 Custom GPT 里整合更多相关信息、API 调用等,对比 plugin,更有可能完整解决用户在某一场景中的问题。
同时,它的利益分配机制也更加明确。GPT Store 能否成为像 App Store 一样改变行业还尚待观察,不过,这已经给那些原本做「GPT 套壳」的项目带来比较大的威胁,比如基于 2B、2C 知识库做问答客服的项目,现在用户可以轻松地通过 GPT Builder 构建类似的应用。
Assistant API的发布,实际上是为开发者提供了基于 LLM 的 Agent 开发框架,让开发更加灵活高效。
这也大大挤压了许多基于 LLM 的开源应用开发框架的生存空间。一个公司的长期价值,在于要么它拥有大模型,要么拥有应用(用户/场景/数据)。两者都没有掌控的公司,它的生存空间和价值在未来会急剧减小。
DevDay 对创业格局的冲击和重塑
大模型层:开源 vs 闭源
开源模型与开源基础软件有个根本性的不同,即众多开发者对前者的贡献非常有限。基础软件的开源是开发者们都可以在其中贡献代码,把软件打磨得越来越完善。但开源模型是开放使用,开发者可以做一些周边的工具,但对模型本身(从数据到算法)做不了贡献,改不了模型。这样无法建立用户数据的反馈闭环,没有开源软件「众人拾柴火焰高」的生态效应。
闭源模型始终领先于开源模型,OpenAI 让这个差距变得更大。
影响大模型发展核心的资源是算力与规模,开源模型均处于劣势。算力上的劣势主要在于没有足够的资本投入,OpenAI 在开发者生态和应用平台的发力,让它占据更多的用户、落地场景、数据和市场份额。因此,OpenAI 在性能上将始终领先于开源模型。即便从现状看,开源模型跟 OpenAI 的性能差距还是相当大的,推理同样的事情,前者的幻觉更多、对确定性事情的拆解更差。OpenAI 新模型的发布只会让这个差距变得更大。
OpenAI 成本下降和企业版本的支持,会进一步吞食开源模型的市场空间。虽然开源模型在性能上无法匹敌闭源模型,但胜在「便宜」与「安全」(方便微调并做私有化部署)。但本次 DevDay,我们看到 OpenAI 成本在快速下降。未来随着 OpenAI 技术提升和规模扩大,闭源模型成本将进一步降低。而从数据安全性角度来看,OpenAI 通过与微软 Azure 的合作,来保证企业级客户的数据安全。在海外,许多中大企业数据本身就在 Azure 上,对于 Azure 的数据保护是有信任的。OpenAI 的成本下降和数据安全保护,会进一步挤压开源模型的生存空间。
那么,开源模型的未来在哪里?我们认为,是它的小规模、定制化。未来,通用大模型会成为水电煤一样的基础设施,其中最好的一两家胜出,占据绝大部分市场。开源模型则可以应用于为一些特定领域/垂直场景下提供定制化服务。
小的开源模型有应用价值。开源模型的主要场景,是为了数据安全,企业在公司内部部署。这个场景下成本非常关键——没有几家企业会有大量的显卡来 host 模型,大的开源模型性价比也不合算。Llama2 7B 模型在单卡上可以跑起来,这是对企业使用场景性价比最好的,也是应用最广的。
定制化 DIY。闭源模型是个通用的基础设施,它的定制难度很大(除非只是简单的定制,比如 DevDay 上的 GPT builder demo,涉及复杂流程的则会困难很多)。在特定领域的场景要做一些定制化,使用开源模型会更灵活。
我们观察到,目前有些创业公司一般先用 OpenAI GPT 做验证,一旦验证成功,再用开源模型训练一个更小的模型,在垂直任务上达到 GPT 的类似水平。开源和闭源一定会共存,服务不同的场景和用户。
应用层:AI AgentAI
Agent 是今年下半年 AI 领域最受关注的创业方向,有大量相关创业公司拿到融资。从年中到现在,GitHub 上爆火的 AI Agent 框架也不在少数——从最初的 AutoGPT 到最近最火的 AutoGen。而 Assitant API 的推出无疑给目前热闹的市场投下一枚重磅炸弹,将可能重塑 AI agent 领域的格局。
具体而言,当下 LLM based AI Agent 领域的创业公司可大致分为如下两类:
中间层 infra:主要提供实用可复用的 agent 框架,降低开发 agent 的复杂度,并为 Agent 的合作提供机制设计。主要从模块化、适配性、协作等几方面进行创新。
Vertical Agent:深入某个垂直领域,理解该领域专家的工作流,运用 agent 思路设计 Copilot 产品,用户介入使 agent 思路更为可控。快速形成 PMF 开始累积用户数据。
随着 Assitant API 的推出,我们认为,大量 Agent 框架公司将失去存在价值,开发者会因为生态便利性等原因转移到 OpenAI 的官方框架之下;而 Vertical Agent 类的创业公司则不会受到太大影响,其核心原因还是在于「数据壁垒」。我们对 AI Agent 在具体生产场景的落地做了很多调研,发现在垂直领域中,建立相应的「世界模型」是做好 AI Agent 的核心关键。Agent 落地要理解当下任务并预测未来情景,需要超越简单的文本学习,深入获取领域知识、领域相关的私有数据以及相关任务的「过程数据」(领域专家是如何分解任务、产生结果的)。这些数据是大模型所难以获取的,尤其是「过程数据」,许多甚至还只存在在相应岗位专家的大脑里。这需要相关公司做大量的工作收集、整理、理解具体业务的工作流等等,是一个相当复杂的系统工程。尤其在法律、医疗、金融等数据庞杂、专业性极高的领域,并不是」大模型套壳「就能解决的。所以,一旦有 Vertical Agent 的公司能够建立、掌握这些垂直行业的」世界模型「,也就拥有了在这个不确定时代极强的竞争壁垒。我们依然非常看好这类创业公司在未来的前景。
创业方向选择
由 AI Agent 创业格局的变化可以延伸到另一个话题:在底座大模型突飞猛进的今天,选择什么样的创业方向是相对安全的?如前文分析,对创业公司而言最核心的价值壁垒构建,还是来自于领域专业知识/私有数据/行业世界模型的积累,以及原有客户关系、渠道、工作流场景的占据(有了后者,天然地相对更容易获得前者)。这样的公司不太容易被大模型能力升级/生态扩展所淹没,反而可能会受益于大模型生态扩展的红利。但那些既不掌握大模型、也不掌握私有数据/世界模型的创业公司——比如很多做 2D 的开发者工具的公司,其面对的不确定性就要大很多。
向量数据库 & Memory
AI Memory 是困扰大量开发者的问题之一。因为 Context 长度有限,现阶段惯常的解决方案是使用向量数据库做 embedding 检索,也因此涌现了一批向量数据库的创业项目。我们观察到,大量开发者对向量数据库褒贬不一,最大的问题是很多时候准确率无法保证。实际上,在大模型时代之前,向量数据库主要用来做召回及图片的检索。在过往实践中,向量数据库更加适用的是长尾的匹配,做那些真正意义非常相近的匹配通常效率不高。这也是为什么许多开发者诟病向量数据库的精准性问题。
此次 OpenAI 针对 Memory 提供了自己的解决方案:128K Context 及 Assistant API 的 retrieval。随着这两个功能的开放,我们认为一些小体量的数据存储将不再需要向量数据库,可以直接放在 context 中,或使用 Assistant API 提供的 retrival,进一步优化开发体验。这意味着向量数据库的应用场景会大量缩减。
Ben Thompson
ChatGPT 不想只是一款 app
知名科技作者 Ben Thompson 在自己的博客上点评了这次发布会,Founder Park 节选了部分评论。
关于发布会
Altman 本人在舞台上表现出色,他的紧张气氛让人感觉到他就像一个现场的主题演讲者一样充满活力。他始终不清楚同事从哪一侧的舞台升上来,反倒显得更加接地气。同时,现场的示范不仅进行得一帆风顺,而且利用了它们正是现场直播的优势:曾有一次,演讲者让她开发的 GPTs 向 Altman 发送一条文本信息;他举起手机展示他收到了这条信息。还有一次,GPTs 随机从观众中挑选出五名幸运者,赠送他们价值 500 美元的 OpenAI API 额度,后来这个福利又扩大到了所有人。
同时,新的产品和功能已经可以「立即」使用,而不是像 I/O 或 WWDC 这样的活动,常常需要我们等待数周或数月;所有这些因素融合在一起,给人带来了一种切实感受到的进步和兴奋,至少在 AI 领域,这种感觉基本上是对的。
关于价格和微软
下一个「新功能」与 GPT-4 Turbo 的介绍相关:API 正变得更便宜。在场的开发者对这个公告无不欢呼,我作为一名分析师也同样欢呼,原因是 Altman 清晰地阐述了公司的优先事项:先降低价格,然后提高速度。你当然可以质疑这是不是正确的优先顺序(我认为是,因为当前最需要的是加大实验规模,而非优化),但是我欣赏的是这种明确的表达。
毫无疑问,微软从 OpenAI 中获益;但这一事实同时也清楚地表明,OpenAI 同样也从微软中获益,这是其他云服务提供商所无法提供的独特优势:因为微软作为一家产品公司,在为 OpenAI 的模型提供运行基础设施的同时,还可以提前对其进行优化和投资,这是仅凭 OpenAI 自身,即使有其他云服务提供商支持,也无法做到的。在这种情况下,这种投资回报在于开发者支付更少的费用,或者更理想的情况下,能够有更大的发现余地,从而导致他们支付更多费用,因为使用量激增。
关于 GPTs 和 GPT Store
我之前提到了 GPTs,你可能感到困惑,因为这个名字可以说是极好的,也可以说是很糟糕的。当然,对于 ChatGPT 也可以这样说:在事后看来,大量消费者的接受总是能够让一些看似不太好的选择变成了伟大的选择,我能够理解为什么 OpenAI 希望将「GPT」(生成式预训练变换器)这一术语打造成 OpenAI 的聊天机器人品牌。
这个新产品在一定程度上解决了(插件没人用)问题:现在,你不再需要选择正确的插件(从而重新启动对话),而是直接使用相应的 GPT。换句话说,如果我想创建海报,我就不需要在 ChatGPT 中启用 Canva 插件,而是直接在侧边栏上找到 Canva GPT。注意,这并没有真正解决需要选择正确工具的问题;它所做的是在过程的更合适阶段让用户更明显地做出选择,这是非常重要的。我还怀疑 GPTs 的速度会比插件快得多,因为它们从一开始就被集成进去了。最后,独立的 GPTs 更适合 OpenAI 正在努力开发的商店模式。
关于 ChatGPT 的新功能
根据 Altman 的说法,GPTs 是主要的内容。但是我认为这个功能的增强实际上更为重要。正如我刚才指出的,GPTs 是基于一个插件概念而改进的用户界面(UI),通过这个概念,一个概率性的大型语言模型可以与一个确定性的计算机进行交互。然而,最好的 UI 是根本没有 UI,或者更确切地说,只是一个 UI,我的意思是「通用界面」。
在这种情况下,「浏览」或」图像生成」基本上是插件:它们是专门的功能,以前你必须明确调用;而现在,它们将自动运行。ChatGPT 可以无缝切换文本生成、图像生成和网络浏览,用户无需改变上下文。要使插件/GPT 理念最终扎根,需要广泛扩展相同的功能:如果我的对话涉及数学,ChatGPT 应该自动知道要独立使用 Wolfram|Alpha,而无需我添加插件或使用专门的 GPT。
我可以理解为什么这种能力目前还不存在:显而易见的技术挑战是如何适当地呈现能力并训练模型在何时调用这些能力,这正是 Clayton Christensen 教授关于集成和模块化理论的典型例子。理论中指出,当产品的表现不够出色时,集成效果更好;只有当产品超出预期时,才会有标准化和模块化的空间。因此,ChatGPT 现在才刚刚具备生成图像的能力,无需事先选择相应模式:我预计寻找不那么显而易见的工具的能力会相当困难。
在某种程度上,幻觉是一种功能而不是错误,但事实是,尽管 ChatGPT 在涉及真实性时有明显的缺陷,但很多人仍然使用它来获取信息;这个缺陷是可以接受的,因为对于客户来说,为了易用性而牺牲准确性是值得的。或者看看插件:最初实现的概念已经被放弃,因为用户界面的复杂性比任何可能的实用程序都更有害。这种模式似乎会继续下去:当然,客户会说他们想要准确性和第三方工具;他们的行动将继续证明便利性和易用性是最重要的。
虽然这是 OpenAI 的第一次开发者大会,但我并不相信 OpenAI 会成为一家真正以开发者为中心的公司。我认为这是 Altman 的计划,但 ChatGPT 作为 OpenAI 最重要的面向消费者的产品出现了,改变了这一局面:ChatGPT 是继 iPhone 之后最重要的面向消费者的产品,使 OpenAI 成为一家意外的消费科技公司。这也意味着集成将继续比模块化更重要,这对于微软的计算架构而言是有好处的,但对开发者可能没那么令人兴奋。
The Information
这可能是不少 AI 创业公司的「末日」
人工智能初创公司的末日
对于许多人工智能初创公司来说,今天可能是末日的开始。
举例来说,OpenAI 宣布了一系列变化,允许开发者从其模型之外获取专有信息,如特定领域的数据或产品描述。这意味着他们不再需要将这些信息转换成 AI 模型能够理解的格式,然后存储在 Pinecone 或 Weaviate 等向量数据库中。同样,这些开发者现在可以以不到 ElevenLabs 价格的 20% 的成本访问 OpenAI 的文本转语音 AI 模型。正如某 X 用户指出的那样,来自 YC 的许多人工智能初创公司可能面临即将消亡的危机。
Assistants API 的威胁
随着 OpenAI 推出「助理 API」,我们可能正逐渐迈向「AI Agent」的未来,即能够自主规划和执行任务以实现更大目标的 bots。
助理 API 允许开发者在其应用程序中构建类似 agent 的体验,这些体验可以生成图表、跟踪对话历史并从外部文档中检索信息。虽然距离全知全能的 AI 机器人还有很长的路要走,但新的 API 可能对像 LangChain 这样将自己定位为连接这些 AI 应用程序的关键组件的热门初创公司构成威胁。如果 LangChain 想要生存下去,它应该利用其热情的开源开发者粉丝群体,而且要快行动。
昨天, OpenAI 开发者大会发布一系列 Agent 平台,Character.AI 作为全球范围内最受期待的大模型 C 端应用之一会被OpenAI 干掉吗?全球范围内,角色扮演类 AI 产品和技术的现状如何?除了游戏以外,AI 角色还有怎样的落地场景?
明晚(周四)20:00,AGI Playground Workshop 邀请到已发布 CharacterGLM、专注于超拟人大模型的聆心智能,聊聊他们如何看待角色扮演类 AI 。
有任何想聊的问题欢迎直接留言,我们不见不散!
🚀名额有限,扫码一键报名!