其他
豆包两款视频生成模型发布!多个垂类模型上新,基础模型研发全面发力!
现场还发布了豆包音乐模型、豆包同声传译模型,另有豆包大模型家族升级。本文介绍了活动发布的核心亮点。
此外,豆包通用模型 pro 和文生图模型、语音合成模型等垂类模型也迎来升级。
高效的 DiT 融合计算单元,可更充分地压缩编码视频与文本,加之全新设计的扩散模型训练方法,带来了多镜头切换保持一致能力。在此基础上,团队还优化了扩散模型训练框架和 Transformer 结构,大幅提升视频生成的泛化性。
精准语义理解,多主体、动作交互
强大动态与酷炫运镜,告别PPT动画
一致性多镜头生成,10秒讲述完整故事
高保真高美感,支持多种风格比例
2. 全新音乐模型、同声传译模型,满足多样需求
豆包音乐模型
豆包同声传译模型
豆包同声传译模型采用端到端的模型架构,让翻译高精准、高质量,时延更低,还支持音色克隆,媲美真人同传效果,在很多专业场景上甚至比真人表现更好。
至于工程方面,团队进行了工程全链路优化。同等参数下,推理消耗是 Flux 的 67% ,模型最快能做到 3 秒出图。
点击“阅读原文”,了解团队招聘信息