融资超2亿美元,月之暗面发布超长文本模型产品,目标C端Super-App
这是一家有着很多光环的大模型创业公司,创始人杨植麟曾就职于 FAIR 和 Google Brain,是 Transformer-XL 与 XLNet 论文第一作者,同时也是苹果 AI 负责人 Ruslan Salakhutdinov 在 CMU 的亲传弟子。
此前 The Information 曾选出五家「中国 OpenAI」的创业公司,其中就有尚且没有正式发声的月之暗面。
创业半年,月之暗面拿到了红杉中国和真格基金等 VC 的投资,目前已经募资超过 2 亿美元。
综合目前月之暗面和杨植麟对外公开的表述来看,月之暗面正在自研大模型,坚定 toC 方向,未来模型将向多模态拓展,产品层面探索 super-app。
超长上下文,Claude 2 的 2.5 倍
全局理解多个文件或链接
对于此次发布的 Kimi Chat,Moonshot 介绍说这是首个支持输入 20 万汉字的智能助手产品。这一上下文长度,是目前最高的 Claude 2-100k(约 8 万字)的 2.5 倍,GPT-4-32k(约 2.5 万字)的 8 倍。
Moonshot AI 官方展示了一些 Kimi Chat 的应用 demo。
公众号的长文总结分析:
财报关键信息分析:
多个文件,出差发票快速整理成需要的信息:
发现了新的算法论文时,Kimi Chat 直接根据论文复现代码:
一个网页地址,就可以在 Kimi Chat 中和自己喜欢的原神角色聊天:
还有直接吞下整本小说辅助理解:
杨植麟提到,因为更长的上下文可以直接基于全文理解进行问答和信息处理,可以有效减少大模型生成的「幻觉」。
长文本解锁更多应用
也能通往多模态
80 年代,网传比尔·盖茨说「512k 内存对大多数人都够用了」。多年后面对媒体采访,盖茨急了,说自己从来没说过这种胡言乱语:「你知道 IBM PC 内存只有 640K 的时候,业界所经历的痛苦吗?」
纵观计算机发展的历史,内存拓展是必然趋势,杨植麟认为,上下文长度就是大模型的「内存」,它是决定大模型应用最关键的两个因素(参数量和上下文)之一。
上下文长度毫无疑问是当前大模型领域重点的探索方向,但在杨植麟总结,行业里的探索大多在走三条捷径:
金鱼模型,「健忘」,通过滑动窗口等方式,直接抛弃很多上文;
蜜蜂模型,关注局部忽略全局,对上下文采样(如 RAG 检索增强等);
蝌蚪模型,能力不够的小模型,光有长文本但参数不足能力不足。
「有金鱼、蜜蜂和蝌蚪,不是猎豹、老虎和狮子。」杨植麟解释说,「这些都不能真正做到产品化的效率。」
概括来说,月之暗面团队对存储、算力、带宽等方面探索等方面探索新的解决方案,同时对算法做了网络结构(不满足于原始 Transformer 结构)和工程方面做了优化。这才有了这次基于千亿模型底座的 20 万字超长上下文的产品。
解决长文本,也就解锁了更多应用层的想象空间。
杨植麟提到,Inflection AI 现在的表现很大程度上受限于 context length。
此前 Character AI 创始人也在访谈中表示,「我并不认为幻觉是模型需要解决的问题,甚至我很喜欢幻觉,这是模型的特点,相当有趣。我们最想做的事是提高模型的记忆能力,因为我们的用户希望 Character AI 上的虚拟朋友可以记住他们。」
「这样用户能够使用大量的数据训练模型,提高 Character 的个性化。」Noam Shazeer 说。
而长文本,也是通向多模态的一步铺垫。
「无论是文字、语音还是视频,对海量数据的无损压缩可以实现高程度的智能。而无损压缩等同于对数据联合概率分布的预测,这又找到了与多模态数据生成的契合点。多模态数据的生成本质上也是在做数据的联合概率分布预测,而长上下文窗口技术对实现多模态至关重要。」
目标 ToC 的 Super-App
最重要的是迭代效率
杨植麟反复强调,月之暗面 Moonshot AI 是一家 toC 的公司,追求大模型时代的 super-app。
此前创业的循环智能主要 toB,但面对大模型,杨植麟有了完全不同的想法。
「以终为始。」月之暗面的目标有三点:探索智能边界、确保技术真正有用,以及做普惠的个性化。
出于这三个目的,「要有非常快速的迭代效率,不管是技术还是产品,快速推进。迭代效率是我们现在最重要的关键词。」所以 Moonshot AI 决定走 toC 的路线。
「(ToC)决定你的企业文化、人才结构,它会决定你最终用怎样的思路去做一件事。」综合这几个维度,杨植麟认为,只有 toC 这一条路。「每个时代,每次新技术变革发生的时候,都会产生很多新的 super-app。」
杨植麟认为,国内大模型市场格局会分为 toB 和 toC 两个不同的阵营,在 toC 阵营里,会出现 super-app,这些超级应用「是基于自研模型做出来的」。
国内外已经出现的热门应用中,大多数都是基于自研模型做出来的,ChatGPT、Inflection AI 的 Pi,国内 MiniMax 的 Glow 等等,大热的 Character AI 也在自研模型,创始人 Noam Shazeer 认为 Character AI 是一家通用模型公司。
「基本上所有 C 端做得好的公司都是基于闭源模型做的,这背后的逻辑很好理解,如果基于开源去开发一个东西,没有办法通过开源形成很强的产品差异化,同时因为开源是分布式部署,没有集中储存的数据,所以无法形成数据的虹吸效应进一步优化模型技术。」杨植麟解释说,「所以不管是底层逻辑还是目前观察到的行业现状,我们都非常坚定认为大家(做 super-app)最后还是需要闭源。」
为了打造 C 端产品,Moonshot AI 招募了大量高端产品人才,包括在海内外从 0 到 1 做 C 端产品经验的、从零开始到过亿级别 DAU 经验的,以及很多大 DAU 产品的负责人等等。「我们希望通过这种高密度产品人才,通过组织的力量,打造一个快速迭代的机器,让他们在这里基于我们现有的技术和接下来的技术,探索未来比较好的产品。」
除了产品人才以外,月之暗面最核心的竞争优势,是技术领域极高的人才密度,「创始团队核心成员参与了 Google Gemini、Bard、盘古 NLP、悟道等多个大模型研发,多项核心技术被 Google PaLM、Meta LLaMa 和 Stable Diffusion 等主流模型采用。
在杨植麟看来,C 端市场除了 super-app 之外,还会有很多长尾的应用,这些应用可能会基于开源模型去做,通过本身的数据、场景或者产品优势形成各自的差异化。
目前,Moonshot AI 的智能助手产品 Kimi Chat 已开放内测。
访问 moonshot.cn,即可加入内测计划。