李沐创业一年反思:「我就是脑子抽了」
01
名字:
BosonAI 的来源
“我来波士顿了,找个时间碰碰?” “哈?可我在湾区呀😅”
02
融资:
签字前一天领投方跑路
我的优点是听劝,真就去做 LLM 了。凑齐了数据、预训练、后训练、和架构各方向负责人的创始团队,就去融资了。运气不错,很快拿到了种子投资。但钱还不够买卡,得去拿第二轮。这一轮领头是一家非常大的机构,做了几个月文档、商讨条款。但在签字前一天,领头说不投了,直接导致了跟投的几家退出。很感激剩下的投资方,还是做完了这一轮,拿到了做 LLM 的入场券。
今天反思的话,当时蹭着资本市场热情还在,其实可以继续融资,说不定也跟其他友商一样,现在十亿现金在手。当时担心融资太多,会不好退出,或者被架到天上去了。现在想来,创业就是想逆天改命,想什么退路呢?
03
机器:
第一批吃螃蟹的人
螃蟹吃到怀疑人生,遇到了各种匪夷所思的 bug。例如 GPU 供电不足导致不稳定,后来靠超微工程师修改 bios 代码打上补丁;例如光纤的切开角度不对,导致通讯不稳定;例如 Nvidia 的推荐网络布局不是最优,我们重新做一个方案,后来 Nvidia 自己也采用了这个方案。至今我都不理解,我们就买了不到一千张卡,算小买家吧。但我们遇到的这些问题,难道大买家没遇到吗,为啥需要我们的 debug?
同时我们还租了同样多的 H100,一样是各种 bug,GPU 每天都出问题,甚至怀疑是不是这个云上就我们一个吃螃蟹的。后来看到 Llama 3 的技术报告说他们改用 H100 后,训练一次模型被打断几百次,对字里行间的痛苦,很是共情。
如果对比自建和租卡的话,租三年成本和自建成本差不多。租卡的好处是省心。自建的好处有两个。一是三年后如果 Nvidia 技术还遥遥领先,那么它能控制价格使得 GPU 仍然保值😭。另一个是自建的数据存储成本低。存储需要跟 GPU 比较近,不管是大云还是小 GPU 云,存储价格都高。但一次模型训练可以用几 TB 空间存 checkpoint,训练数据存储是 10PB 起跳。如果用 AWS S3 的话,10PB 一年两百万。这钱用来自建的话,可以上 100PB。
04
商业:感恩客户,
第一年收支平衡
接下来应该会有更多公司才尝试使用 LLM,不论是自己产品的升级,还是降本增效。原因是一方面技术成本在降低,另一方面行业领先者(例如我们客户)会陆续放出基于 LLM 的产品出来,把行业卷了起来。
我们也在关注 LLM 在 toC 上的落地。上一波顶流例如 c.ai 和 perplexity 还在找商业模式,但也有小十来家 LLM 原生应用收入还不错。我们给一家做角色扮演的创业公司提供了模型,他们主打深度的玩家,打平了收入和支出,也是厉害的。模型能力还在进化,更多模态(语音、音乐、图片、视频)在融合,相信接下来还会有更有想象力的应用出现。
整体来说行业和资本还是急躁的。今年好几家成立一年多但融资上十亿的公司选择退出。从技术到产品就是一个很长的过程,花 2、3 年实属正常。算上用户的需求的涌现,可能得花更长时间。我们专注当下在迷雾中探路,对未来保持乐观。
05
技术:
LLM 认知的四个阶段
第二阶段是刚创业的时候 GPT4 了放出来,大受震撼。大半原因来自技术不公开了。根据小道消息估算一次模型训练一个亿,标数据成本几千万。很多投资人问我复现 GPT4 成本得多少,我说 3-4 亿要把。后来他们中一家真一把投了大几亿出去。
第三阶段是创业的第一个半年。我们做不动 GPT4,那就想着从具体的问题出发吧。于是开始找客户,有游戏的、教育的、销售的、金融的、保险的。针对具体的需求去训练模型。一开始市面上没有好的开源模型,我们就从头训练,后来很多很好的模型出来了,降低了我们成本。然后针对业务场景设计评估方法,标数据,去看模型哪些地方不行,针对性提升。
23 年年底时,惊喜发现我们的 Photon(Boson 的一种)系列模型在客户应用上的效果都打赢 GPT4 了。定制模型的好处是推理成本是调用 API 的 1/10。虽然今天 API 已经便宜很多,但我们自己技术也同样在进步,仍然是 1/10 成本。另外,QPS,延时等都更好控制。这个阶段的认知是对于具体应用,我们是可以打赢市面最好模型的。
第四阶段是创业的第二个半年。虽然客户拿到了合同里要的模型,但还不是他们理想中的东西,因为 GPT4 还远不够。年初时发现针对单一应用训练,模型很难再次飞跃。回过头想,如果 AGI 是达到普通人类水平,客户要的是专业人士的水平。游戏要专业策划和专业演员、教育要金牌老师、销售要金牌销售、金融保险要高级分析师。这都是 AGI 加上行业专业能力。虽然当时我们内心对 AGI 充满敬畏,但感觉是避不开的。
年初我们设计了 Higgs(上帝粒子,Boson 的一种)系列模型。主打通用能力紧跟最好的模型,但在某个能力上突出。我们挑选的能力是角色扮演:扮演虚拟角色、扮演老师、扮演销售、扮演分析师等等。24 年年中的时候迭代到第二代,在测试通用能力的 Arena-Hard 和 AlpacaEval 2.0 上,V2 跟最好的模型打得有来有回,在测试知识的 MMLU-Pro 上也没差很远。
Higgs-V2 是基于 Llama3 base,然后做了完整的 post-training。我们无法像 Meta 那样花大钱标注数据,所以 V2 比 Llama3 Instruct 好,原因应该还是主要来自算法的创新。
然后我们做了个评估角色扮演的评测集,包含按照人设扮演,和按照场景扮演。怪不好意思是自己的模型在自己的榜单上拿了第一。但模型训练中是没有碰评测用的数据。因为这个评测集一开始就是想自用,希望能真实反映模型能力,所以要避免模型 overfit 数据集。但做评测的同学想写技术报告,所以放出来了。有意思的是,按角色扮演的测试样本来自 c.ai,但他们家的模型能力是垫底的。
第四阶段的认知是,好的垂直模型通用能力也不能弱,例如 reasoning,instruction following 这些能力垂直上也是需要的。长远来看,通用和垂直模型都得朝着 AGI 去。只是垂直模型可以稍微偏科一点,专业课高分,通用课还行,所以研发成本稍微低一点,研发方式也会不一样点。
那第五阶段认识呢?现在仍在进行中,希望能很快分享。
06
愿景:
人类陪伴
这些综合在一起,我们把愿景定成了 “人类陪伴的智能体”。一个情商很高的,智商在线的智能体。算换成现实中的人的话,应该会是一个专业团队。例如你想让它陪你玩,那它是专业策划 + 演员。陪你运动,那么鼓励师 + 专业运动教练。陪你学习,那么能把你不懂的讲懂。模型的好处是,它能做长期的陪伴,真的了解你。而且可以 “真心为你”。
不过目前技术离愿景还挺遥远。当下技术就能陪着聊聊。很多场景下聊得也不是那么好,内容匮乏,智商情商有时都不在线。都是当下要解决的问题。如果有小伙伴做这一块的海外应用,欢迎联系我们。
07
团队:
有挑战的事情得靠团队
不方便的地方当然也是有的,时刻要看有没有油,不好走的路得小心别把车震散架了。每个成员都很重要,没有冗余,一个人不给力,就可能是一个轮胎没气。人也宝贵,走一个人就可能少一个轮胎。
以前我选项目会选自己能主导开发的。但这也意味着问题不是很有挑战性。创业选了个很大的问题去做,只能全靠团队了。别看本文里用了大量的 “我”,其实工作都是团队做的。没了团队,我可能得转行去卖课了。
08
个人追求:
名还是利?
动机要么来自欲望,要么来自恐惧。十年前我可能更热衷名利,但到了现在的年纪,觉得金钱的边际效用已经不高,名声带来的情绪价值也已经很小。我深层的动机来自对生命可能没有意义的恐惧。先不说宇宙的浩瀚,就是在人类的历史长河,一个人也只是一粒沙。意外的到来,迅速的消失。地球上生活过一千亿人,绝大部分人不会在历史上留下痕迹。我家家谱上那上千人名,我几乎都不认识。
那么一个人的存在的意义是什么呢?小时候曾因为想不清这个问题而抑郁。所以潜意识里,我想去创造价值,获得存在的意义。我选择 “上进”,去提升自己的创造价值的能力;选择录长视频和写教材,创造教育价值;选择去写读博、工作、创业的总结,描述里面的纠结和困难,创造事例的价值;选择去创业,团结很多人的力量去创造更大价值。
09
后记
现在我懂了,因为他经历了创业酸甜苦辣。如果今天再来回答这个问题,我会说:“我就是脑子抽了”。但也庆幸当时没想到会那么不容易,所以一头扎进来了。否则,大家看到的可能是「工作十年反思」。我觉得今天我写的故事更有意思些。
致敬所有创业人。
(最后广告下我司的招聘信息(湾区和温哥华)https://jobs.lever.co/bosonai 有做出海应用的小伙伴也请联系我们 api@boson.ai)
更多阅读
2000万用户,Gamma创始人:PPT是痛点,但产品好才能解决痛点资源多到什么程度,才能创业追 OpenAI?
张鹏对话夏勇峰:使用时长超过 5 小时的 AI 硬件,才能留在牌桌上
对话汪华、袁进辉:C.AI并购事件对中国AI创业者意味着什么?转载原创文章请添加微信:founderparker