MindOS:站在AGI风口,创业两年的教训与思考
The following article is from Kisson不聊广告改煲鸡汤了 Author Kisson
Mindverse心识宇宙成立于2022年1月,自主研发了一套以大模型为底座的脑启发AI模型。心识宇宙旗下的产品MindOS在2022年11月初发布了内测版本,面向少数B端客户试点。这是一个AI角色生成引擎,通过简单的填写配置、拖拽上传,就能完成一个具备专业知识、记忆和人格的AI角色,大大提升应用交互的体验。
这篇文章,是心识宇宙联创&COO林宋琪根据其在阿里的分享整理的稿件,分享了他们创业两年来的思考。01
MindOS: 创业一年,风口来得太猛烈
https://v.qq.com/txp/iframe/player.html?width=500&height=375&auto=0&vid=g3531mt56c6
MindOS第一支演示视频 (2021年)
2021年底我们拿着这个视频出来融资的时候,我们跟投资人讲 AGI,讲AI agent,讲LUI与未来的人机交互,讲AI-native的操作系统。投资人问:AGI是什么?多久能实现?
投资人最常问的一些问题:AGI是什么?多久能实现? 有哪些单点问题AGI能解决得比现在的AI好? 大厂都没搞出来,凭什么你们能搞出来? 大厂搞出来了,你们凭什么能跟它们竞争? 一个做虚拟人的干嘛叫OS? 护城河是什么?差异化打法是什么? 你们商业模式是什么?今年打算赚多少钱?
当时我们想大概20年,但我们很鸡贼地给投资人画饼说5年左右吧。
事实证明我们还是格局小了。创业不到一年,ChatGPT横空出世,让几乎所有人一夜之间知道了AGI的概念,给世界,也给我们,带来了非常深远的影响。
ChatGPT推出之前,我们判断当时的AI就像自动驾驶的L1, 那么从L1到L4的过程中最重要的是什么?是技术不成熟的时候怎么落地赚钱,让现金流可以支撑到技术成熟的阶段。所以我们选择了2B, 并且切入营销场景,因为他们有钱且愿意尝鲜 -- 即使这样,还是碰了很多壁,因为当时大家关注虚拟人、元宇宙、文生图;客户对AI agent的理解就是有个形象的客服机器人。也的确,2B不能创造新赛道,也不能在技术还没成熟去强推。ChatGPT推出之后,我们最大的挑战一下子变成了如何一夜之间滚动飞轮,在千团大战中搭建壁垒。于是我们就做了两个大的转型决策:1是从2B转向2C,因为2B的决策周期会大大拖慢构建规模壁垒的速度;2是从尝试用开源fine-tune到直接接GPT的API,因为用户不在乎你是否自研,他们只在乎多快好省。当然还有另一个大转型就是从国内转向国外,但这是另一个故事了。
那时候Character.ai也很火。和每况愈下的经济对比,AI赛道显得格外如火如荼。我们也因此得到非常多关注。对于我们这帮第一次正儿八经创业的人,第一次创业就遇到互联网一样大的风口,真的是爽。但又爽又痛,因为一夜之间,竞争就变得非常激烈,尤其是OpenAI自己什么都想做且又快又好。
这个是我在ChatGPT出来的时候在即刻上写的思考。也是我们创业时就有的思考。只是,未来来得比预计的快好多。我们以为超前了好几年的认知,最后也可能只是超前了几个月。再加上公司小执行慢,到我们做出产品的时候巨头也已经准备好了。作为创业公司,在今天这个时代,要么看的更远一点,做你觉得有5年时间窗口的产品,因为实际时间窗口也许就2年;要么就做小而美,巨头肯定不想啃的骨头。我们还是坚定选择博一票,往更远更大的事出发。第一阶段 - AI去改变分发,这已经发生,并且创造出很多千亿级公司 第二阶段 - 自然语言改变UI,这就是后来很快发生的copilot。这个阶段很适用于低频刚需app, 或者场景式搜索,或者信息密集型app。 第三阶段 - Agent作为新的软件形态,这就是最近发生的GPTStore。这是聊天作为UI和生成式AI结合,实时生成服务和内容,以Agent和chat UI提供给用户。 第四阶段 - 但是聊天并不是最immersive的方式。就好比人与人在讲话时有时会想在白板上比划比划。所以真正AI-native的交互应该是你一打开电脑,界面是一张白板,你画出或描述你的工作流,AI可以自动创建这样的软件给到你。这就是Canvas。而真正的AGI,就像made-to-order于制造业一样,会重新改写供给与需求的关系。
我们之前做的是第三阶段的事,AI agent。这之后,我们应该聚焦更远的第四阶段,Canvas. 于是6月我们开发出Canvas的最雏形。7月初,整个带Agent创建后台(包括API,workflow),Agent marketplace (当时已经有数十个agents),Canvas交互能力的MindOS,首次在ProductHunt上发布, 作为我们正式踏入国际舞台的第一步,当天就获得了最高票数。一直到现在也还是好评最多的AI产品之一。
这是我们7月初发布的版本。这几天看到字节coze.com的agent创建后台,感觉他们在有很多功能上都对我们表示了肯定(包括当时产品经理随便找的图标),让我们这个小团队备受鼓舞。😝
当然,作为小公司,要去做一件大事,无异于以卵击石。一直到移动互联网时代,创业者还可以因为认知更超前打一定的时间差,但现在AI极大降低了创新门槛,让数据、设计都不再像以前那样可以差异化,剩下的壁垒就只有规模(客户、用户)、资本、供应链这些优势。无论在技术还是产品上,创业团队多数时候只是帮助大厂探路罢了。
果然,还没等我们把规模优势积累好,OpenAI就在两周前开放了GPTStore。有些同事一时间忧心忡忡。但这种情况我们早有预料,只是没料到OpenAI行动力这么强这么猛。Dev day的第二天我们紧急进行了数小时的战略探讨,还是坚定去走更大更长更远的路线。Be LLM agnostic,be the all-in-one interface. 这个结论我在最后一部分会展开讲。
没等我们消化掉焦虑,一周后,Sam Altman就被OpenAI辞退了。再一个周末过后,神反转来了,Sam Altman要被Microsoft收编。结果两天后,神反转又来了,Sam Altman回归OpenAI,还重组了董事会。同时也暴露了惊天大瓜,超越人类智力的通用人工智能也许真的到来了。作为一个刚在蹒跚学步的创业公司,这个风口真是一下把我们吹到高空,一下把我们狠狠拍到地上,这感觉就像一边坐过山车一边修车轮,你永远不知道下一刻会发生什么。
https://v.qq.com/txp/iframe/player.html?width=500&height=375&auto=0&vid=d3531iy0tu1
MindOS今年7月全球发布的版本
那么OpenAI到底想做什么呢?AI的终局是什么?我的猜想不一定对,但我可以分享一下,也欢迎大家多多评论,一起探讨。02
OpenAI的野心
鉴于OpenAI最近极其抓马的宫斗,要说OpenAI的野心,还是得加个前提: Sam Altman统治下的OpenAI。Again,这里不做科普,不谈技术,因为论信息量和价值许多公众号已经非常高了。本文仅论我的看法和猜想。
继年初放出Plugins失败后,OpenAI在6月发布了Agent框架的论文 (作者Lilian Weng),开启了Agent这个篇章。
如果把大模型比作大脑前额叶,负责计算,那么Agent也许更像整个大脑,有记忆,规划,行动,和使用工具的能力,包括搜索、管理日历,等等。你可以上传知识和文档,让它更好的代表你,也可以用它的自主性训练它自动写代码和完成复杂任务的能力。所以对比大模型,Agent更像一个完整的app。想象一下你要去健身,现在你需要打开健身app,选择时长、要健身的部位、周边仪器、难易程度... 这么一套点击下来几分钟没了,更别说选择困难症或者不熟悉app的情况。在Agent时代,你的虚拟健身教练直接帮你计划一套适合你的课程,每天提醒你上课,实时演示给你看,帮你矫正错误动作,锻炼完还帮你点餐,指导你的饮食。Agent时代的人机交互就像人与人的交互一样,更自然,更沉浸,更个人化。最近Bill Gates的发言也说明了AI agent的前景: Preference + automation作为基本的闭环元素。
03
API+OS+硬件+芯片 的超级帝国
而第三阶段,agent的到来,会和现在的app生态有非常大的不同。
首先,供给会大量膨胀。科技的作用就是增加供给,就像移动互联网时代的App数量比PC时代的软件数量多,AI时代的Agent数量对比App又会暴增。但供给越多,对于中心化的分发就越是依赖。所以未来的分发权,比现在会是更大的生意。
与此同时,在AI时代会产生一个前所未有的飞轮 - Data to intelligence。商家和开发者为了制作AI员工,会上传自己的服务和数据;用户在和AI对话的过程中也会帮助AI学习提升。
综上,AI时代的OS会拥有比iOS更强的壁垒。
04
GPTStore的悖论
要达到上述的理想阶段,GPTStore还有很长的路要走。其中一个重要问题就是任何平台都避免不了的 - economic mobility。你认为Agent究竟是分散的还是集中的市场?
今天GPT的能力还是有很明显的限制:8000 token - 虽然以后会继续提升,但不会到无限量的程度。比如创建GPT时喂进去的数据越多反而表现力越差,这个问题我们在年初就发现了。这就意味着一个Agent不能做到无限多事情。需要多个agents,就像这个世界有许多理财顾问、法律顾问,不仅仅因为每个人供给有限,也是因为术业有专攻。从供给角度说,会需要许多许多agents,每个专注在一个特定领域,甚至理财顾问都可以分出许多不同投资理念的专家。
但一个人的注意力不能分散给无数agents。移动互联网时代,90%的app在下载后仅仅被打开过一次就没有再被用过。何况对比app的一目了然,用户要和agents聊才能知道他们的能力 - 验证门槛更高。所以从需求角度来说,agents必须要更中心化。
那就意味着大量agents得不到关注。除非有agents之间能自动协作。比如一个健身教练agent自动找到适合的膳食专agent,和膳食agent协作一起帮用户制定和指导健康计划。
这还是会带来两个问题:
1. 成本大幅上升,因为市场上会充斥着大量UGC低质agent,健身agent需要在GPTStore广撒网,发布同一个prompt, 才能筛选出适合的膳食agent来协作;
2. 变现很难,因为协作模式会导致按月订阅不可取(大量agents是一次性消费),更合理的是收取服务佣金,或者按每次对话付费。佣金在短期内很难,因为目前阶段AI的服务无法闭环。按对话付费有可能,但ROI不太高,收入天花板也会有限(试想Apple不收过路费了,按流量收费)。
而且无论是哪种状况,只要供需存在这么大的失衡,就意味着有其它平台的机会,就像有Amazon还有Shopify,不同分发机制能有不同平台承载。
所以,AI的终局会长什么样?05
AI赛道的终局猜想及创业者的机会
再次申明:我只是说自己的猜想,肯定不一定对,欢迎一起探讨。
硬件形态现在还没有统一认知:下一代硬件来临时间还早。Sam Altman投资的Humane在11月推出了AI pin,很多人觉得是OpenAI对未来硬件的理解。我觉得不是。OpenAI有硬件野心是肯定的,Humane未来会和OpenAI合作推出真正下一代的硬件也是极大可能的。但现在这一代的AI pin更像是OpenAI要获取更多现实影像数据的渠道。两个原因导致我有这样的猜测:1. OpenAI过往的投资都是为了获取更多数据;2. 现在的大模型缺乏对现实的理解,需要补上这个能力(Rewind可以了解一下)。Anyways,我们离离开手机的时间还早。硬件会有更多形态,也会有不同LLM,不同OS。
硬件+OS会有一超多强的格局:移动互联网时代各大OS的差异化点还是在交互(包括硬件)、品牌、生态。AI时代,硬件、交互、大模型能力、生态、品牌、算力,会有更多的考虑因素。Apple, Google, Meta, OpenAI, 微软都会推出自己的硬件+OS,还会有一些小而美的硬件+OS,他们的差异化点可能是更好的数据隐私保护,或更开放的生态(开发者可以在所有有API或开源的模型中进行选择)。
中间层的机会:今天iOS和Android,以及多种机型并存的情况已经让开发者很头疼了。未来多种硬件和大模型、私有化和非私有化部署,只会更加复杂。这就是面向开发者的中间层的机会 -- 兼容不同大模型,统一标准,一站式开发Agent并部署到不同平台。另外还有上面提到的不同分发逻辑的垂类Agent store,可以作为面向用户的中间层机会。
OS会很像微信:这仅仅是我个人对于AI-native的操作界面的猜想。左边有各种AI agent,包括你的personal AI, 像人一样可以联系他们,与他们聊天。聊天界面可以打字、语音、voice call, 以及使用各种程序,在聊天界面直接画画。你不觉得,很像微信吗?而微信就是一个操作系统,只是把现在微信里面你的各种朋友换成AI agents,这很有可能就是未来OS和App的形态。在移动端它像微信,在工作流它像钉钉/飞书,但不变的是发信息成为最主要的command机器的方式。上面聊到Agent市场的最终形态,以及Agents的分发,我们类比微信好友列表以及搜索好友,就可以有更具象的感知了。真是这样的话,Agent给用户主动发信息就会很有意思了(AI时代的私域流量,哈哈)。
是否存在AI-native的垂类应用:今天的平台(淘宝、携程)起到的中心化排序推荐的作用,将来会被OS自身的个人AI助手替代,而各个应用的壁垒,就变成供应链和供给端的内容。比如你让AI助理帮你买新年礼物给各位朋友,它可能把适合的东西都放到淘宝购物车,然后给你展示购物车页面让你最终确认下单;或者在OS聊天框里,各种agent给你推送购买消息。无论哪种方式,重要的不再是各个app的UI和智力,而是供应链。AI会进一步缩减供应->需求的路径,供应商可以自己训agent,直接通过agent把货品和服务给到终端用户。
创业公司的机会:上面说到的都是非常非常宏观的猜想。对于创业公司,机会还有很多很多,比如Gleen.ai,做企业服务;比如给一人公司做工作台OS,一个完全AI-native的钉钉;比如可以接入所有大模型的Agent框架,可以开源,或者做成平台,让大家来创建之后发布到不同的OS和硬件;比如更好的数据存储和传输解决方案;比如给应用和个人做定制化开发。这个图可以很好地把我能看到的一些创业机会串联起来: 在不同LLM和硬件之间做用户信息/数据隔离和传输,尤其是非结构化、无标签的数据
更好用的AI-native的界面,让开发者接入自己的agents
LLM以外的其它AI能力 - 虚拟人、文生图、视频、实时翻译、语音、3D等等
能结合human in the loop的AI应用或操作台
帮助开发者更好发现和连接供应端的服务商,以及帮助供应端更好开发的开发者
托管各种模型和数据的平台 (LLM agnostic)
深度创建Agent的开发者工具,或者简易创建的模版类工具 --- 可以理解为Agent的Shopify
Agent的各个组件的'淘宝’,包括各种知识库、API、workflow模版、虚拟形象、声音、prompt
AI社交/内容赛道
等等。。。。。。
06
创业感想和给想创业的同学的建议
技术型 vs 商业型的两条路径:之前很多投资人不敢投技术型创业团队,怕这类团队拿着锤子找钉子。但我觉得关键在于技术是否能带来9x体验提升。我还记得去年初大家谈论的还是元宇宙、虚拟人,所以我们一直说我们是AI角色;于是我们拿着并不是很聪明的AI虚拟人,跟品牌们演示,教育他们虚拟人代言不能解决任何用户痛点,虚拟人能做销售和客服那才牛。我跑了50多家客户,没有一家成交。一个很大的原因就是当时的大模型连营销的场景都不够,远没有达到让人惊艳的程度。技术没有达到临界点,需求就不存在。所以很多技术的同学出来创业被人说是拿着锤子找钉子,其实因为技术还不够好。要改变用户习惯,需要比现有体验更好9倍 (9x effect)。当然这是一个比喻,但点就在于量变到达临界值,就能引起质变。大模型也是一样,模型参数到达临界值,真的能涌现出AGI。你看当character.ai和chatgpt推出的时候,管理层并不知道用户可以用它来干嘛,但因为技术太惊艳了,用户自己发掘并分享了很多玩法。所以从技术还未成熟,到技术刚成熟,到完全成熟,这个变现路径是完全不同的。而AI的时代,技术成熟的那一刻,之后的进度条就会爆发式推进。天时地利人和,天时是第一:
OpenAI的战斗力让大家都望而生畏。AI时代的竞争和创新也会变得越来越快。之前创业者很重要的优势必须是看的比巨头远,是那个Vision。但现在我们很难估计技术突破的那一刻,也难估计市场,不确定性会越来越多,变化会越来越快。时运就越发重要了,因为太早入场和太晚入场肯定都不行,但现在难以估计太早还是太晚(比如ARVR到现在都还没成熟),最好的做法就是不停地蓄力,活下去,看更远,保持组织韧性,去等待属于你的‘天时’。