后发先至，字节版 Sora 发布！10秒长度、多主体交互、一致性多镜头

Founder Park Founder Park

2024-10-21

9月 24 日，字节跳动的豆包大模型发布多款新品——视频生成、音乐生成以及同声传译大模型。

字节的视频生成模型首次亮相，这也意味着，在快手之后，国内的两大短视频巨头都进入了AI视频生成赛道。

发布会上还公布了豆包大模型的最新数据，截至9月，豆包大模型的日均 tokens 使用量已经超过1.3万亿，4个月的时间里 tokens 整体增长超过了10倍。在多模态方面，豆包·文生图模型日均生成图片5,000万张，此外，豆包目前日均处理语音85万小时。

目前，豆包大模型已涵盖大语言模型、视觉大模型、语音大模型三大品类发布了13个大模型。此外，豆包通用模型Pro升级，初始TPM支持800k、上下文窗口达到256k。

文章转载自「豆包」官方文章，部分内容转载自「智东西」。

点击关注，每天更新深度 AI 行业洞察

01 视频生成：

多主体交互，一致性多镜头生成

豆包视频生成模型有PixelDance和Seaweed两个版本，目前尚不清楚两个版本的具体区别，目前均未开放试用。

PixelDance V1.4是ByteDance Research团队开发的 DiT 结构的视频生成大模型，同时支持文生视频和图生视频，能够一次性生成长达10秒的视频片段。

精准语义理解，多主体交互

豆包视频生成模型可以遵从复杂的用户提示词，精确理解语义关系，解锁时序性多拍动作指令与多个主体间的交互能力。下方第一条视频展示了一位喝咖啡的男士。他喝了一口咖啡；这时一个女人从画面右侧出现，走到了他的身后。第二支视频中，一名男子和女子在驰马飞奔。

提示词：一名中国男子端起咖啡喝了一口，一名女子走到了他身后

提示词：一对长头发的外国男子和女子在骑马驰骋酷炫运镜，告别PPT动画

再来看另一个例子。

运镜是视频语言的关键之一。豆包视频生成模型可以让视频在主体的大动态与镜头中炫酷切换，拥有变焦、环绕、平摇、缩放、目标跟随等多镜头话语言能力，灵活控制视角，带来真实世界的体验。

提示词：一名亚洲男子带着护目镜游泳，身后是另一名穿潜水服的男子

提示词：一位女性喝了一口咖啡，然后端着咖啡，带着伞走了出去

一致性多镜头，10秒讲述完整故事一致性多镜头生成是豆包视频生成模型的一项特色能力。在一句提示词内，实现多个镜头切换，同时保持主体、风格和氛围的一致性。

提示词：一个女孩儿从汽车上下来，远处是夕阳

提示词：一名外国男子在冲浪，对着镜头竖起大拇指

支持多种风格比例

豆包视频生成模型支持丰富多样的题材类型，以及包括黑白、3D动画、2D动画、国画、水彩、水粉等多种风格。同时，模型涵盖1:1、3:4、4:3、16:9、9:16、21:9 六个比例，充分适配电影、电视、电脑、手机等多种场景。

提示词：梦幻场景，一只白色的绵羊，带着弯弯的角

提示词：水墨风格的鸟，比例16:9

02 音乐生成：

实现气口转换，支持图片成曲

豆包音乐模型实现了音乐生成通用框架，从词曲唱三个方面生成高质量音乐。

用户首先输入Prompt就可以得到一段歌词，然后在10余种不同风格的音乐和情绪表达中选择进一步创作出歌曲，再基于豆包语音能力，生成可以媲美真人演唱效果的声音，可以实现气口、真假音转换技巧的模拟。

目前，开发者可以通过火山方舟使用豆包音乐模型API，用户也可以直接通过豆包App和海绵音乐App创作音乐。

03 同声传译：

边听边译，跨语言同音色翻译

在实时翻译方面，豆包同声传译模型可以做到边说边译，且在办公、法律、教育等场景接近甚至超越人类同传水平，还能支持跨语言同音色翻译。

继续滑动看下一个

Founder Park

向上滑动看下一个

高三女生醉酒后被强奸致死？检方回应

川普的成长秘辛：家庭和大学如何塑造一位“坚刚不可夺其志”的总统

不要成为戾气的受害者

常德悲剧：让谴责无差别杀戮之声更加响亮一点

2024【公共营养师】培训报名通道已开启，不限学历，23岁及以上可报！还能领2000补贴

后发先至，字节版 Sora 发布！10秒长度、多主体交互、一致性多镜头

01

视频生成：

多主体交互，一致性多镜头生成

02

音乐生成：

实现气口转换，支持图片成曲

03

同声传译：

边听边译，跨语言同音色翻译

您可能也对以下帖子感兴趣

高三女生醉酒后被强奸致死？检方回应

川普的成长秘辛：家庭和大学如何塑造一位“坚刚不可夺其志”的总统

不要成为戾气的受害者

常德悲剧：让谴责无差别杀戮之声更加响亮一点

2024【公共营养师】培训报名通道已开启，不限学历，23岁及以上可报！还能领2000补贴

生成图片，分享到微信朋友圈

后发先至，字节版 Sora 发布！10秒长度、多主体交互、一致性多镜头

01

视频生成：

多主体交互，一致性多镜头生成

02

音乐生成：

实现气口转换，支持图片成曲

03

同声传译：

边听边译，跨语言同音色翻译

您可能也对以下帖子感兴趣