字节AI全面出击：比行业平均便宜99%，豆包“大模型家族”正式营业

Original 邓咏仪智能涌现

2024-08-22

文｜邓咏仪

编辑｜苏建勋

封面来源｜企业授权

本周可以说是大模型领域的又一次激战——前有谷歌和OpenAI的相互狙击，国内也不甘落后。

一直低调的字节AI，全面出击。5月15日，火山引擎在每年例行的“原动力大会”上，从基座模型到上层应用，都抛出了一系列更新。

△来源：火山引擎

首先，品牌名称统一了。原来的“云雀”大模型，如今改名为“豆包大模型”。火山引擎甚至搬出了“豆包大模型家族”的名头，包括基座模型在内，豆包一口气推出了共9款模型。

和友商多尺寸、全性能的“大而全”路线，豆包的基座模型思路更简炼一些。

其中，豆包主力模型分为通用模型pro和lite两个版本，分别适配不同用户的使用需求。

除此之外，还有7款功能性模型，涵盖角色扮演、语音识别、语音合成、声音复刻、文生图等方面。

△来源：火山引擎

除了基础模型，火山引擎还放出了这一年的成绩单：

目前，豆包大模型日均处理1200亿Tokens文本，生成3000万张图片。

“豆包App”是字节跳动重点投入的大模型应用，同样基于豆包大模型构建，这是国内AI应用的“顶流”。火山引擎表示，在苹果App Store和各大安卓应用市场，豆包App的下载量在AIGC类应用中排名第一。

据字节跳动产品和战略副总裁朱骏透露，豆包上已有超过800万个智能体被创建，月度活跃用户达到2600万。

此外，字节也不改“App工厂”的本色。过去一年里，除了主打的豆包App外，字节跳动还基于大模型，推出了互动娱乐应用“猫箱”，以及星绘、即梦等AI创作工具。

△来源：即梦Dreamina

基座模型的地板价，以后还能再降

在发布会中，火山引擎可以说是胸有成竹。这体现在，在展示豆包模型家族的时候，火山引擎甚至没有提及多少参数、性能相关的信息，而是一上来就亮出价格：0.0008元/千Tokens。

这可以说是一个“地板价”。

以OpenAI发布的全新模型GPT-4o为例，GPT-4o的价格已经来到输入5美元 / 百万 Token（约为0.035 元/千tokens），输出15美元 / 百万 Tokens（0.1元/千tokens）。

而国内的大模型厂商，均价在0.12元/千Tokens左右——豆包大模型的价格，比上述的模型都要便宜很多。

“大的使用量，才能打磨出好模型，也能大幅降低模型推理的单位成本。据火山引擎负责人谭待表示，按现在豆包大模型在企业市场的定价，0.8厘就能处理1500多个汉字的价格，比行业便宜99.3%。

△直接点名友商价格来源：火山引擎

他还强调，这次降价是豆包的主力模型降价，而不是用小模型降价来混淆视听。以豆包通用模型pro-32k版为例，模型推理输入价格仅为0.0008元/千Tokens。市面上，同规格模型的定价一般为0.12元/千Tokens，是豆包模型价格的150倍。

这也意味着，大模型行业从“以分计价”到“以厘计价”的时代。

为何能够做到大幅降价？“一个是我们能够做到，第二是我们需要这么做。”谭待表示。

一个原因在于，从ChatGPT爆发到现在，如今基座大模型已经进入了稳定迭代的阶段。无论是在模型训练和推理使用上，都还有长足的优化空间，成本下降得很快。

就以火山引擎为例，谭待表示，在训练上，豆包的模型结构做了不少优化调整；而在模型工程上，比如以前使用的是单机推理方法，如今豆包采用的是分布式推理——可以理解为，不同的AI计算需求可以用底层的不同芯片来进行处理，从而让算力效率大幅提升。

在会后的采访中，谭待表示，0.0008元/千Tokens“并不是一个意在‘打价格战’的价格”。作为字节跳动To B的重要的载体，火山的定价会遵循正常的商业逻辑，亏钱补贴，并不能换来长久的商业合作。

现在，AI应用市场仍在发展早期，之前的大模型使用价格还是太贵，明显制约了应用的发展，这也是模型厂商降价的原因所在。

就以国内市场情况来说，字节的豆包App已经是第一梯队的AI应用，但2600万月度活跃用户，也还远未达到“杀手级应用”的级别。“大模型领域远未到竞争激烈的阶段，大家都很早期。”谭待说。

QuestMobile数据显示，截至今年3月，基于大模型的AIGC行业用户量为7380万，尽管同比增长了8倍，也仅占移动互联网用户量的6%。

从其他玩家的动作来看，阿里云和腾讯云在2024年Q1都宣布了一波大降价，但主要针对的还是CPU为主的通用算力，AI相关的GPU算力价格降价不多。

相较之下，字节并不是国内唯一打“降价牌”的厂商，但却是对AI算力降价强调最多的。这其中的潜在原因是：作为云计算市场的后起之秀，字节对AI所带动的增量需求也更加渴求。

此时，选择用低价来降低用户使用AI的门槛，覆盖更多市场，也是情理之中。

而可以预见的是，在今年，国内基座大模型的降价趋势还会持续。推理侧成本还有巨大的下降空间，国产模型厂商其实有不少技术储备。

比如，近期一个值得关注的消息是，国内私募量化巨头“幻方量化”发布的Deepseek大模型第二代，就基于构架创新大幅降低推理成本，把API定价直接打到了竞品的1/10甚至1/100，每百万token的输入仅需1元。

“豆包”更像人了，To B落地加速

不约而同地，今年大厂所发布的To C应用，已经越来越像“人”。这背后透露的信息是：AI助理，正在以比我们想象中更快的速度向我们走来。

本周的几场大厂发布会都是如此。先是OpenAI发布的GPT-4o，对话已经几乎没有延时——用户可以随时打断、随时接话，如同电影《Her》中的超级人工智能，它甚至能通过“看”和“听”，判断用户的情绪、状态，给出回应。

而在昨天的谷歌发布会上，Project Astra作为谷歌首个AI Agent产品，可以基于手机摄像头、实时语音做交互，还拥有“记忆”，意味着和人类的交互能够更加深度。

在火山引擎这场发布会上，豆包App所释出的信息，也多有共通之处。

字节产品和战略副总裁朱骏就表示，“我们为豆包这类产品定义了三个产品设计原则，第一条就是“拟人化”。为了让产品更像人，豆包团队在大模型的ASR和超自然的TTS音色上下了不少功夫，尽量做到类似和真人对话的感觉。

他以生活场景举例，在“五一”假期，豆包就真的像朋友一样，陪伴他去旅行——在旅途中，豆包不仅根据恐龙博物馆、自贡井盐的形成提供了详细讲解。在饭桌上，被问到“怎么剥皮皮虾”，豆包不仅回答了问题，还同时推过来一个抖音视频——让他直观地看到了剥皮皮虾的技巧。

不过，就如今国产模型的进度来看，如今展现的能力，只是AI智能体的第一步。

“大模型的能力目前很多维度上让人惊叹，但也在很多维度上有缺陷，同时又在快速演进，每隔三个月、半年都会发生很大的变化。”朱骏表示：“去年，去年上半年大模型回答问题时10道题可能错6道，但到了今年，幻觉就已经大幅降低，再配合搜索引擎做知识增强，已经达到可用状态，当然，后面提升的空间还非常非常大。”

如今应用落地更多的，还在B端。

随着“豆包模型家族”的亮相，现在的字节的AI版图已经颇具雏形：火山引擎负责基座模型、开发者生态的构建。原来的To B服务，也是如今输出AI服务的抓手。同时，这个基座也支撑着字节内部的众多AI应用生长。

从原有的To B服务来看，火山引擎在大模型应用上的业务思路，大致可以分为三块：

首先是确定性高、行业天花板也高的场景，比如手机、汽车，这部分火山会和行业合作伙伴一起共创。
其次，对于一些不是特别清晰的创新方向，火山会作为服务方，支持创业团队来做。
最后，开发者是火山尤为看重的板块，火山不仅提供成套的AI开发工具，还提供了高自由度的模型开发模式，以及垂直场景里需要的功能，比如语音功能的高互动、低延迟等等，字节都有优势

在今天的发布会上，火山引擎就分别成立了手机、汽车两个生态联盟。汽车领域的合作伙伴包括吉利汽车、长城汽车、捷途汽车、赛力斯、智己汽车等20余家厂商。

而在手机领域，火山引擎的推进速度更快。大模型服务已经悄悄进驻到不少合作伙伴的产品当中，比如OPPO小布助手、荣耀智慧办公智能助手、小米“小爱同学”，以及华硕笔记本电脑的豆叮AI助手等等。

以Oppo的小布助手为例，在和豆包大模型合作之后，通过业务数据精调+Prompt，Oppo构建了多个垂域大模型，真正让模拟面试、英语教学、情感陪聊等场景达到可用状态。

在更广泛的企业场景里，火山的大模型服务，已经迅速让AI从POC（内部试点）阶段，走到真实的生产系统里。

一个典型例子是智能驾驶、智能座舱的交互。传统的自动驾驶方案里，人类和汽车的交互还是会有延迟、听不准的情况出现。

但在汽车搭载了豆包lite大模型后，汽车厂商可以在低延迟下实现对话，支持闲聊、搜索、娱乐、导航、车控等多个座舱智能助手场景，效果要比传统语音处理高达50%以上。

△火山引擎展示的搭载大模型的车机系统，询问附近美食，会自动推送相应的抖音视频来源：作者拍摄

而在字节内部，在过去一年，字节已经有50多个业务大量使用豆包进行AI创新，包括抖音、头条、番茄小说等多个产品。

接下来，火山引擎还会继续拓展企业端的场景。面向开发者的AI开发平台“扣子”，在今日就推出了企业专业版，企业版的扣子会提供API、事件推送、甚至纯代码的接入方式，让开发者能够将AI Bot部署在飞书等办公平台上。

在企业端，现在招商银行、海底捞火锅、超级猩猩、猎聘等企业，已在扣子上搭建了智能体。

超级猩猩的智能体，就是用无代码的方式，开发了一个约课助手“猩同学的小同桌”，给用户提供个性的健身建议，并且帮助用户约课。

△“猩同学的小同桌” 来源：火山引擎

在会议的展台上，字节也预告了未来的一些新功能——比如，在会场展台就运行着边缘云的Bot，当AI Bot和场馆中的摄像头联动，就可以告诉观众，会场中有多少人，以及哪个展台的热度最高。而很快，AI大模型也可以接入到硬件里，比如机器人等各类智能设备。

👇🏻 扫码加入「智涌AI交流群」👇🏻

36氪旗下AI公众号

👇🏻 真诚推荐你关注 👇🏻

继续滑动看下一个

智能涌现

向上滑动看下一个

大摩宏观策略谈：2025中美变局展望

2024年心理咨询师报名通道开启！可考心理证书，无需辞职，名额有限，11月30日截止报名！！！

穿了跟没穿一样，胸型赞到爆！天然乳胶，性感到让男人腿软！

高三女生醉酒后被强奸致死？检方回应

高三女生醉酒后被强奸致死？检方回应

字节AI全面出击：比行业平均便宜99%，豆包“大模型家族”正式营业

基座模型的地板价，以后还能再降

“豆包”更像人了，To B落地加速

您可能也对以下帖子感兴趣

大摩宏观策略谈：2025中美变局展望

2024年心理咨询师报名通道开启！可考心理证书，无需辞职，名额有限，11月30日截止报名！！！

穿了跟没穿一样，胸型赞到爆！天然乳胶，性感到让男人腿软！

高三女生醉酒后被强奸致死？检方回应

高三女生醉酒后被强奸致死？检方回应

生成图片，分享到微信朋友圈

字节AI全面出击：比行业平均便宜99%，豆包“大模型家族”正式营业

基座模型的地板价，以后还能再降

“豆包”更像人了，To B落地加速

您可能也对以下帖子感兴趣