查看原文
其他

成为中国日交互量最多的大模型公司,MiniMax想明白了这15件事

暗涌 暗涌Waves
2024-11-17


 | 于丽丽



又一家中国大模型创业公司加入视频生成赛道的狂热游戏中。
继快手、爱诗科技、智谱AI等公司之后,8月底,中国大模型创业公司MiniMax正式发布视频模型abab-video-01以及音乐模型abab-music-01。
相比其它视频模型,MiniMax创始人闫俊杰认为abab-video-01具有“压缩率高、文本响应好和风格多样”的特点。他同时解释了8月底才发布的缘由——“之前基于文本建的底层基础设施,都需要重新升级”以及“视频大部分的时候工作复杂度比做文本更难”。
目前abab-video-1只提供了文生视频,在未来产品会迭代图生视频、可编辑、可控性等功能。而更关键的一则信息是,闫俊杰同时预告了未来几周内,MiniMax将发布“新一版的能够从速度和效果上都能够对标GPT-4o的模型abab 7”。
在中国的七家大模型创业公司中,MiniMax 一直是成立最早,且在C端产品化、商业化探索走得最快的公司之一。而现在,闫俊杰告诉我们,它也是“目前所有中国大模型创业公司里,日处理交互量最大的公司”。
以下是闫俊杰和MiniMax技术总监韩景涛在“2024 MiniMax Link伙伴日”上一些发言的摘录和编辑,它从很多切面拼出了 MiniMax在研发、产品以及商业化上的一些底层思考。
1. 一个人一天体验3000段人生
目前,每天MiniMax的大模型和终端用户(包括自有的产品+开放平台伙伴)进行30亿次交互:包含了每天处理超3万亿文本token,每天生成2000万张图和每天生成7万小时语音。目前所有中国大模型公司里,MiniMax也是日处理交互量最大的公司。3万亿文本token意味着一个人一天体验3000段人生。

2. 人类大部分交流在多模态里

为什么做视频生成模型?本质是我们每天看的大部分内容,不是文字,而是一些动态的东西。打开小红书是图文,打开抖音是视频,甚至打开拼多多买东西,大部分时候也是图片。大部分信息体现在多模态内容里,文字很多时候只是里面最精华的一小部分。

3. 为什么比可灵晚两个月?

核心是我们在解决一个更难的技术问题。视频这个东西,大部分的时候工作复杂度比做文本更难,因为视频的context的文本天然很长。一个视频是千万token的输入和输出,天然就是一个很难的处理。
其次视频量很大。看一个5秒视频有几兆,但是5秒看的文字100个字可能不到1K,这是几千倍的存储差距。这使得之前基于文本建的底层基础设施,怎么处理、清洗数据,标注,都不太适用,都需要升级。

4. “快就是好”

“快”是MiniMax底层大模型的核心技术研发目标。因为大语言模型里面有Scaling law,算法一样情况下,拥有更多训练数据量和参数量就意味着更好的效果。因此,在两个性能类似的模型中,训练和推理更快的那个,可以更有效地利用算力资源迭代更多的数据,从而能够有一个更好的模型能力。
在MOE架构还没有被行业认可时,我们在国内率先完成核心MoE算法技术路线的突破。在上一代的模型abab6.5s里,用MOE的模型比Dense的模型快3-5倍。这个也是abab 6.5s能够每天处理几十亿次非常核心原因。
此外,Linear Attention不仅能带来一个级别的提升,也是解决无限长度输入和无限长度输出的关键一步。abab 7模型的核心技术正是基于MoE+Linear Attention。除此之外,我们在abab 7上还构建了多模态理解能力。

5. 关于Scalling law

Scalling law至少这几年看肯定还是对的,并且能赶上预测的曲线。Scale除了参数量、数据量、计算量以外,context length也是非常重要的一环。把Linear attention做好也非常重要。
在学术界,Linear attention 这个idea早已经有了,只是有些人相信它,有些人不是那么相信。我们做的过程也遇到很多工程瓶颈,但研究到现在,我们觉得对Linear attention的驾驭到了一个比较好、可用的状态。

6. 科学技术是第一生产力

每当我们的模型有重大提升,处理速度有显著提升的时候,就可以看到用户使用的场景和深度显著地变高。反过来,这里还有一个曾经发生的真实案例:一个bug导致对话重复错误率变高,当天对话量掉了40%。这也解释了我们坚持技术创新的最底层原因。

7. 正负反馈里的同一个秘密

做技术的研发投入很大,看一眼我们每个月的账单会非常心疼。当一个东西很奢侈时,很多时候就会想要不要走点捷径?比如说不做技术了,先把产品提升好。
另外做技术通常一个东西要实验三次才能成功。第三次真的实验成功时,又在想前面两次是不是可以不用做。就像你吃包子吃三个会吃饱,就会想是不是前两个不用吃。
但我们的实践经验证明,走捷径就会被打脸,这个事的验证可能超过十次了。而大部分正反馈里稍微总结下,发现又是技术的进步。所以不管正反馈,还是负反馈,最终发现关键都是技术。

8. 不仅仅是陪聊

我们类似星野这样的产品,底层设计都不是陪伴用户聊天,而是一个内容社区。这里面用户可以创建故事,创作世界观。另外一些用户可以根据创造的世界观进行互动。我们在星野这种产品希望做到的是个性化,并且很多输入来自用户。它的核心是内容社区。

9. 出海

所有大模型公司里面,我们是唯一有非常大的国际出海业务的。我们很早就做过一款产品,放到海外后发现全球各地二三十个国家,不同语言的人都开始玩,但我们做的不是一个陪聊,也不是一个AI的情感陪伴,就是新一代的内容生成平台。
海外用户付费习惯很好,所以相对比较明确,变现也更快。像我们的声音模型,是在国际第一梯队的,怎么把它包装成细腻的产品,通过API的、自助的模式,让用户愿意每个月花5美金或10美金进行订阅。我们现在技术到位了,更多是公司的精力和资源的调配,怎么把东西变现。

10. 国内toB市场的商业化

toB行业真正要能赚钱是要成为行业标准。在国内,toB业务很多都变成了项目制,大模型如果纯技术输出,为每家企业进行定制,商业模式是算不过来的。
另外今天的产品形态,作为一个普通的消费者,是没有任何的忠诚度可言。一收费就可以换到另外一个产品,模式是不成立的。我们现在的思考是,不断地把我们自己偏工具类的产品,比如说海螺打磨出新的功能,直到有用户粘性,有区分度。粘性构造起来后,再去投放。ROI会有转起来的一天,但不是今天的产品形态。

11. 价格战带来的两个乐观信号

去年中国模型在海外还完全没有竞争力,但百模大战,包括价格战还是带来很多变化。价格战后,本来认为大模型很贵的公司会认为很便宜。我们惊人地发现大模型价格战后,很多非常传统的企业开始愿意使用大模型,他们觉得反正成本低,出错了多调用一次就好了,非常大地提高了模型调用量。这个事到一定阶段后,我们发现在海外,比如说东南亚或者其他地方,我们的模型也有竞争力。
这是我们看到的两个积极的变化:国内大模型的使用量确实在显著地增长,并且中国模型在海外确实越来越有竞争力。

12. 大模型真正变革的标志

现在所有模型错误率都是两位数的错误率。真正的变革是说什么时间点有一个模型可以把错误率降低到个位数,这会是一个非常本质的变化。它可以让很多复杂的任务从不可以做变成可做。因为复杂任务需要多步,多步就需要好多步乘的关系,错误率高的模型就没办法乘。
为什么现在没有agent可以应用?不是因为agent框架写的不够好,而是模型本身不够好。我的判断是说,如果Scalling law是对的话,这个模型一定会出现,标志就是错误率降到个位数。

13. AI应用的3个优化方向

如何让模型的错误率持续降低;无限长的输入和输出;多模态。

14. 创业早期的3个判断

1.下一代人工智能是无限接近通过图灵测试的智能体,交互自然,触手可及,无处不在;2.想要实现这样目标,是一个巨大系统工程,不能只做5%、10%提升,需要能带来数量级提升的技术突破;3.先从容错率高的闲聊、写作切入。当技术一步步提升,就可以做更强大的、以解决问题为导向的应用。最终给每个人带去智能的延展。

15. 一种使命感

2021年的春节,我回了趟老家去看望外公。他们那代人经历的一生,是我小时候最喜欢听的故事。80岁的外公想写一本回忆录,但他不会打字,也没有足够的精力去查询资料。理论上AI很合适来完成这件事情,但是很遗憾,那个时候的AI做不到。这件事让我意识到,AI发展的终极目标,是变得更加通用,能帮助到每个人。三个词总结,也就是Intelligence with Everyone。


图片来源 |IC photo

排版|姚楠‍‍‍



继续滑动看下一个
暗涌Waves
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存