查看原文
其他

王小川创业 8 个月:大模型还没到谈 PMF 的时候

Founder Park Founder Park 2023-12-30

这是王小川创业做大模型的第 8 个月。
很多过去行业的常识、惯性的做法,都不再适用当下的大模型时代,
王小川认为,当前很多大模型的应用,并没有真正扣应用户的需求,继续做下去会卷到大厂的竞争赛道里。
曾经红杉和 a16z 极力推崇的 PMF(产品/市场契合度)创业标准,因为技术范式的迭代和现状,不再适用于大模型应用的创业。王小川认为当前更需要寻找的是 TPF(技术/产品契合度),「不是一群产品经理先去考察市场,而是应该先思考,当前不完美的(大模型)技术,适合用来做什么产品。」
过去人们习惯开发工具,但「我们用 AI 造的,不是工具,而是一个新的『物种』」。
在极客公园创新大会 2024 上,王小川分享了他在八个月实践后,对大模型落地的新理解,以及在新一轮技术浪潮下创业的思考沉淀。
以下是百川智能创始人、CEO 王小川与极客公园创始人 & 总裁张鹏的对谈,经编辑整理。

01
国王与画匠

寻找 AI Native 的寓言

张鹏:刚刚 Robin(李彦宏) 也说到,至今也不是很确定什么是 AI 时代的 super app,那我们应该从哪出发?
我们之前做产品时,会先制定一个 PMF(Product-Market Fit,产品市场契合度),现在呢?
王小川:有两个层面,一个是「拉远」,一个是「拉近」。
「拉远」就是重构,在原有的应用中去做改变,比如说,「微信再重构一次」,但这个思考角度会把我们的思路限制住。
于是,我想继续「拉远」,如果不把市场当作是这个 super app 的远期目标,而是对人的根本诉求的满足呢?
人需要这三样东西:健康、快乐、创造力。前两个无需多讲。至于创造力,人都希望自己的存在会让世界因此变得不同。那 AI 应用怎么帮助人们去改变世界呢?就像「DIKW 模型」(Data-to-Information-to-Knowledge-to-Wisdom Model)这个概念一样,它为人提供信息,提供知识,甚至是智慧。这就是一个远大愿景。
而目前很多 AI 应用,比如营销文案撰写,客服对话……这些在我看来,没回到人的根本需求里去;再者,如果大家还这么做,也会和大厂卷入一个竞争赛道。
再说「拉近」,你刚提到 PMF——产品市场契合度,现在我想提出一个新词,「TPF」(Technology-Product Fit,技术产品契合度),之前人们只讲求产品和市场的 match,把技术给丢了。我们以前做淘宝、微信时,技术虽说是瓶颈,但只要工程师的水平上去,成本拉上去,基本能够突破这个瓶颈。而现在的 AI 技术,它本身就有一些不完美和不确定性。比如幻觉、时效性等问题,只会自然语言,技术本身有局限性,有不完美所在。
既然 AI 技术有这么多的不完美,那就不应该是先派出一堆产品经理去想市场,洞察完了回来就开始做,而是应该先思考这么一个目前不完美的技术,适合用来做什么产品。
这里我想聊聊 Character.AI,他们公司的创始人(Noam Shazeer),Transformer 论文作者之一,并非产品背景出身。他非常清楚大模型这种底层技术,知道它肯定会犯错,因此他先拿大模型来做娱乐向产品,再之后,他想到这个技术首先能承载自然对话的形式,于是他就把产品做成一个个角色,一个个人设。
张鹏:放在娱乐化的场景里,缺点就变成了特点。
王小川:之前,我们在造工具,工具有很多确定性;现在,我们用 AI 造的,不是工具,而是伙伴——一个新物种,一个更像人的应用。它有优点,也有缺点,就和人一样。人有幻觉,我们也能用,那为什么机器有幻觉,我们就不用了呢?最后还是回到具体技术要匹配到什么需求上。
这对产品经理来讲是有要求的,公司一号位带着产品经理要产生这样一个共鸣:对这个技术,什么事究竟它擅长,什么事不擅长。
再讲一个故事,以前有个国王,瞎了一只眼睛,瘸了一条腿,但他特别自恋,就把全国的画师拉来为他画自画像,结果是画一个杀一个。因为有人画的太像,因诋毁形象被杀;有人刻意美化,因为欺骗君王被杀……直到有个画师,画了张国王打猎的画像,国王因为站在大石块上,瘸腿的缺陷会被遮盖,拉弓的一瞬间国王的那个眼睛也闭上了,这么一来,既不诋毁,又不美化,一下就兼顾了。
所以,我觉得现在的产品经理,应该明确 AI 技术有所长,有所不长,去做 TPF 这样的匹配和兼顾。

02

PMF 考核用户量

TPF 要看测试集

张鹏:PMF 我们是会设定一定的目标,能在某些指标上看到我完成了 PMF,而 TPF 这个事情在今天看来是一个起点,如果说未来我们要做 super app,什么情况下可以认为是做好了 TPF 呢?
王小川:以前,产品经理更多是写个文档,描述功能、定义和要求,画个结构设计图给老板看:产品长这样就能满足用户什么样的需求,功能又是如何每步都精确做到的。
但这种方法论在大模型场景里不适用。因为你每给大模型一个输入,它的输出都是不确定的,面对这种非唯一的对应关系,你很难用一套演绎规则就能做好。
那现在怎么办?你得把它拆解开,变成一堆评测集 ,也就是模型在什么输入上能给什么输出的一个测试集合。产品经理不仅要去定义这个产品,还要把定义的产品转化成评测集。
这个时候,产品经理拿着评测集去找对口的算法人员,后者通过调 prompt、SFT(supervised fine-tuning)、Post-training 等不同方法去优化算法。也就是说,产品经理去定义评测集,(技术)算法寻找数据集(或叫训练集)训练系统,以满足评测集。

张鹏:就像是给大模型定个 OKR?
王小川:只要干过算法的工程师都会适应这样一种工作方法,给他们一种既给评测集又留白的方式,在我们内部已经变成一种标准工作方法。算法驱动型的产品,用的就是评测集驱动的方式。
之前在互联网高速发展的阶段,技术已经不是阻碍的要素了,甚至产品开发已经不是算法驱动,而是工程驱动,只是执行快慢的不同而已。
(大模型时代),PMF 不是不对,只是我们缺了一层 TPF,这会使得我们最后发现,不是说产品出来之后市场不满足,而是我们一直在迭代,做不到一个阶段性的产品出来。
张鹏:你刚才提到的「设定目标 - 转化评测集 - 让数据集有效训练出满足评测集的要求」,这是你们开发的引擎?
王小川:对,这就叫 AI Native。如果是 AGI Native 的话,需要把 AGI 的模型能力更加深入融合进去。
张鹏:再追问一下,判断 TPF 做得不错,是说产品的用户量起来了?还是用户评价你的产品体验很好?拿什么判断?
王小川:TPF 对产品经理有要求,在产品面世之前,要满足两条。
第一,要能够把需求转化成一个测试集,这个测试集能够使得技术工程师在满足过程(目标)的时候,也发现结果是在进步的。
第二,一旦做好 demo,也能发现用户提的需求,他可能是简单一句话提的需求,这个需求分布跟产品经理的评测集的分布是一致的。
这里用了一个统计/概率的概念,用户需求的分布跟产品经理测试集的分布是一致的,而且评测集的结果是满足用户需求的。所以 TPF 是用测试集的形式来满足的,一方面内部指标满足,然后面世的时候,PMF 反馈会反应用户的需求反馈跟测试集的分布是不是一致,用户是否满意。
张鹏:所以用户先要用得爽,还是用得好?前者就是一下子爆发、起势,后者是可以一步步来。今天我们应该追求一下子做爆?还是一层层地,先解决少数人的问题,再解决多数人的?
王小川:其实两者不矛盾。
但什么是做得好?你很容易和自己比,自己比自己好,一不小心就落入大厂人的老习惯里。如果是成熟大厂,那好 20% 到 30%,已经有巨大的收益;但如果是创业公司,做出的 AI Native 应用,一开始就要让用户用得爽。在满足特定类的需求中,你的产品必须提供 10 倍于竞品的爽感,不是好一点,要让人有惊喜感。
因为在今天,大模型并非全能,你只能选亮点,做出 10 倍优秀的来,周边(功能)是 5 倍、3 倍甚至更差的,这样你的波峰就拉得足够高了,后面再逐步将它拓宽。如果一款产品一开始不让你爽,不到一定高度,只是比原来好一些,是不够用的。

03

新时代的创业者

首先要是大模型的超级玩家

张鹏:产品范式进化之下,面对新变局(新范式),创业者应该如何入场?
比如刚刚这么兴奋的在聊现在做产品的范式不一样,我们要做新范式下的产品经理。他们应该怎么出发呢?不是所有人都像你,做过搜索,做过很大的产品。我们不能每个人都打这个标签才能入场。其他人应该怎么入场?
王小川:我认为要看公司属性。一种公司是端到端的,它(公司)本身是既要做应用,也要做模型;另外一种公司是不怎么碰模型或者用小模型解决,更多是做应用的。因此我认为在路径上会有一些不同,但通常有一个必要的前提——成为大模型用户,就是要把自己当成一个大模型时代的粉丝,去狂热的体验,去感受大模型给(你)带来了什么样的不同之处,先去好奇,去欣赏,去感受(它)做的好不好。
张鹏:某种程度上得先成为一个大模型的超级用户。
王小川:(你)要把市面上的产品都用到了,极客公园的读者们是天生有这样的动力,充满这样的好奇心的。用起来之后,你的灵感就会冒出来,就会知道这件事情什么是它擅长的,由此再(把它)变成你后面产品的构思。


04

未来两年想做 Super-App

还是得加入大模型公司

张鹏:在今天这个技术涨潮的过程中,可能就得先跟着它一起往上涨,得离它近一点才能考虑怎么运用它。
今天,公司不断在发展,你在选人的时候,会关注他的什么气质,或者哪些历史经验?
王小川:百川明年要发超级应用,目前还是在路上。我认为今天离目标还没有做到足够的好,那我们只能谈部分的经验,和过程中看到的不足所带来的一些想象。
我们蛮希望选有经验的人,如果你真的没(产品)经验,就是小白一个,这种情况反而会更有要求。比如,你要能把产品完整的画面感抛出来。
你需要对大模型未来长什么样,包括里面有什么东西是有充分的准备的,就是你要有好奇心、想象力能推动你能做出什么东西,得具备这样一个能耐。同时,我们希望你之前有传统的经验,得把它打散掉,去滋养大模样的产品。
我们遇到的不少产品经理,有一套很完整的思维范式和框架。但是做大模型的时候,他想把大模型的技术带到原有的框架范式里面去,而不是把原有的东西再解构出来,这就会带来巨大的挑战。
因此,我们希望(你)既有之前的成功经验,但是又能够把自己的经验打散,去滋养大模型,还能想象出大模型的新样子,是既要又要的阶段。
如今,中国和美国面临的环境不一样,百川和国内其他大模型公司都是争分夺秒的状态,在这种情况下,公司大概率不会给你三年或者五年的时间去探索。在主力方向的情况下,我们的要求就是既要又要——要有之前的经验,又要能把自己推翻融入。
张鹏:那如果我在某个领域有经验,但是没有技术能力,能不能自己独立去做应用的探索?比如我在健康领域有多年积累的经验,又具备你说的特质,我是选择加入你们?还是也可以在这方面接入别人的模型做探索?
王小川:两个道路大家都会做。
会有人自己探索,但探索过程中很有可能会遇到无力感,就是模型的支持,调优 Prompt,走着走着发现走不动了,因此在今天,我觉得在中国的环境里,更有机会的话,还是加入到一家大模型公司。因为今天应用还没有做到独立铺开做(的阶段)。虽然有文章说可以调大模型自己做应用,但其实这个时代还没到。
我认为,未来的两年时间内,更多的是加入一家(大模型)公司,能够获得平台级的支持,帮助你把原有经验打散融入,这样做超级应用成功的概率要大很多,做小应用不一定,但做大的事情要与大模型公司有充分的互动。

05

今天的大模型是「快思考」

AI 需要「慢思考」

张鹏:刚刚大家聊到 OpenAI drama 背后可能有一些技术的关键因素,甚至谈到 Q*(Q-Star)) 可能有「慢思考」,我不知道你有没有关注这件事? 
王小川:今年筹备大模型(创业),4 月正式成立公司,我当时提了几个关键词,一个「搜索增强」,第二个「强化学习」。
当时提出这点,就是已经看到大模型本身代表了一种「快思考」的方式,Transformer 就是像人一样,「一拍脑袋我给你答案,张口就能说」。它的学习方法和应用推理方法上存在自己的不足,(所以)以大模型为原点,肯定不够。
因此当时我们认为,强化学习会对这件事有很大的帮助。
就「慢思考」而言,我在百川的工作里也一直非常关注这个领域。今天大部分(技术路线)代表着「快思考」,它需要「慢思考」。
说两点自己的见解,一个来说的话,快思考的「思」其实都不叫作思,慢思考的话我认为才有「思」。所以我就提出了一个新的词,以 OpenAI 为代表的大模型,它的知识是「学」过来的,并不强调推理的时候怎么思。孔子有句话是「学而不思则罔,思而不学则殆」,具体投射的话,大模型其实是「学」,其实并不「思」,不像人一样会来回琢磨,把想象空间打开。
那什么系统在思呢?反倒是 OpenAI 刚成立公司的时候,以及 DeepMind(之前)做的事情——像 AlphaZero 和打游戏, 这个是在「思」。但那个是强化学习,甚至是多智能体的对抗。AlphaZero 不是个学习系统,它把之前的 6000 万棋局都扔掉了,反而是两个 AlphaZero 自己内部对抗博弈,在博弈中找到了一种新的理解,最后通了,这样就有了「思」。
但 AlphaZero「思」完之后,只是停在了原地,只是做特定的任务,没办法把它拓展到其他的领域里。因此我们说大模型(LLM)代表了学,AlphaZero 代表了「思」,如果这两个系统结合在一块就会很厉害。 
张鹏:嗯,所以接下来很重要的是真正做到「学」和「思」要合在一起。 
王小川:具体我们想象一个场景,不过这不代表 Q*是怎么做的。
你问大模型围棋是怎么下的,它其实不会下,做不好。但大模型能判断围棋的输赢吗?它是能够判定的,大模型可以写代码来判断围棋的输赢。甚至说,你再让它写一段代码,在每走一步棋之后,判断棋局的状态转移,它也是能够写出来的。
所以我们可以想象一下,如果大模型足够强,虽然它不会直接下围棋,它可以写出下围棋的 Transaction function(状态迁移)的代码,和最后判断围棋输赢的代码,也就是说,大模型有机会写出 AlphaGo 的代码,运行(代码)后它就会下棋了,这件事是有可能发生的。
因此我们在想 Q*的时候,在内部猜想大模型是有机会生产出一些用来思考的框架,然后用传统方式来「思」。

06

理想上慢一步

落地上快三步

张鹏:(海外)那边的技术还在不断地向前面的边界做探索,这让人觉得很有压力,你也做大模型,压力转给你,你觉得这个距离怎么丈量?能缩短吗,甚至说未来(我们)能自己创造有所不同的价值吗? 
王小川:之前我提过一种说法「理想上慢一步,落地上快三步」,其实最开始不是这么说的,最开始是「理想上慢半步,落地上快一步」,后来去美国(学习)回来后把理想折了个半,就变成了「慢一步」,在落地上乘了个 3,叫「快三步」。 
张鹏:怎么理解「理想上慢一步,落地上快三步」? 
王小川:跟他们接触之后,我认为双方思考的底层是不一样的。
OpenAI 原生是一个非营利组织,就想探索 AGI 的边界,而且他们真的是这么做的。所以他们在想问题的时候,出发点根本就不在一个世界,跟他们拼理想这件事,是有距离的。这种情况下,人和公司都要找到自己的定位。但是在这个土壤里我们确实要有一个自信,就是我们有机会在应用落地里走得更快。
就像华为造 GPU 处理器,可能没有那么好的高精尖设备,但不代表我们不能造出东西,甚至来说(可能)在本土能够跑得更快。
也许随着我们的用户规模更大、数据积累更大,技术积累上应用走的足够高,甚至还能(拓展)到美国市场去用。这种情况下不代表说一定要到 GPT-4、GPT-5 或者 GPT-6 才有机会去做应用,在不同土壤(是可以)长出不同的东西的。
我觉得做应用这件事情是中国传统的一个强项,同样是创新。那我反而认为这是公平的,相对美国而言,我们在理想往前走这方面会比他们弱,但我们应用上会更加的快,中国公司反而面临着一个更好的机会。
尤其是在今天的美国,OpenAI 一家独大的情况下,做应用的公司得迎着 OpenAI,它的技术做到什么样,你才能做什么样的应用。但国内是模型公司自己在做应用,这种端到端的连贯性,是有机会在一些领域里把应用(比美国)更快落地跑出来的。 
张鹏:你说的这个蛮启发的,我们有的时候肯定很愿意去追求一个很理想、很有使命感的伟大的事情。但是如果说 AGI 是一个大进程,我们可以加入这个「团队」,他们可能是前锋,在突破边界,我们可能是自由人或者后腰,在团队里是有意义的。比如我们把(技术)落地下来变成有意义的东西。所以就是加入团队的感觉。
王小川:这两个层面都可以这么推导。
作为世界公民,作为中国的公司,在世界上有你的分工,这不是一个敌我的、只是竞争的关系。他们的发明我们尊重,我们该追赶,但我们也可以有自己独有的贡献,而不是我认为我需要自己,(但)这世界并不需要我。
张鹏:蛮好的,看来这一波创业里找到了一个跟自己和解的点:就是我们在一个世界的有意义(AI 创业)的 game 里,成为了一个 team member,未必每个人都要成为前锋。

07

百川创业八个月

开始沉淀大模型方法论

张鹏:最后一个问题,关于创业的心态,我们都知道 4 月份的时候每个人都很兴奋,现在跑了 8 个月了,一开始的兴奋估计也被磨掉了,创业还是很难的。今天,在沉淀一段时间后,你这次创业的心态是怎样的?目标呢?
王小川:4 月到 12 月,确实团队跑得非常快,也成长得非常迅速。现在的话,我认为到了一个开始去沉淀大模型方法论的时期。虽然我们觉得之前的技术能力、产品观等经验都足够,但实际工作的时候,会觉得还不够轻巧。
有时候会发现,有些团队资源相对少,但是因为找到了适合大模型的方法,能更轻巧地用好已有模型,帮助自己构思灵感,做原型,然后跟技术做联动。
到这个阶段的话,我觉得是在共同探索大模型方法里,最有效的大模型跟应用之间联动的状态,我们的认知也是在不断提高的。我觉得一个好的状态是每次看一个月前的自己,都觉得是傻子。以前工作的时候,是以周的速度在迭代,现在没到那么敏捷的状态,以月为状态看待自己的不足。
在这里面,我们的管理层、产品经理共同去调整自己原有的工作方法,去获得大模型时代的方法论。 
张鹏:所以这个是你认为让你很享受的状态。
王小川:对,就每天自己都在进步,而且还有多维的成长,不只是说自己会了这些事情,想法比事情要领先半步。但有时候,你会发现走一走,又会有更好的想法出来。
张鹏:那公司的目标呢,再过 5 年做到什么样会让你觉得比较满足?
王小川:在帮助人创造、健康、快乐理念,我们在这三个方面都有超级应用的探索。但不用到 5 年,5 年真的不敢想,是因为技术发展的高度可能不是今天的我们能理解的。
我们的技术人员都感叹说每天的新论文、新的发展,让所有人有一种强烈的推背感。这种情况下,我认为在两年内,能证明大模型确实是可以做去超级应用的,像互联网时代给人类带来的巨大的帮助和希望一样,两年内帮助大家体验到、用到。这是能够抱有的信念。
5 年时间,我想象的可能都是全新的玩法了,比如地上都是机器人在跑,大家带着 VR 眼镜,每个人的 Avatar 分身都出来了。5 年时间太长了,能够想到 2 年后的画面我就挺满足了。


如果你关注大模型领域,欢迎扫码加入我们的大模型交流群,来一起探讨大模型时代的共识和认知,跟上大模型时代的这股浪潮。



更多阅读
从100多个GPTs里,探究OpenAI究竟想要什么,又做了什么
估值超5亿美元,体验碾压Bard、Bing,AI搜索引擎Perplexity的想象力在哪里?
Meta、Midjourney、Adobe、DALL·E:四大巨头的 AI 绘图模型综合评测
时代周刊:为什么 Sam Altman 是 2023 年度 CEO?
MindOS:站在AGI风口,创业两年的教训与思考
专访Pika Labs创始人:视频模型技术路线尚未确定,明年会迎来AI视频的GPT时刻

转载原创文章请添加微信:geekparker
继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存