近期,这个项目有了新成果,Open-Sora-Plan v1.0.0问世。新研究显著增强了视频生成的质量以及对文本的控制能力。北大的研究团队表示,他们正在训练更高分辨率(>1024)以及更长时间(>10s)的视频。目前,该项目已支持国产 AI 芯片(华为昇腾 910b)进行推理,下一步将支持国产算力训练。
Open-Sora-Plan v1.0.0从文本到视频生成的案例:
提示:海上的日落
提示:黎明时分,宁静的海滩,海浪轻轻拍打着海岸,天空被涂上柔和的色调......
文本到视频生成的更多效果展示:
文本到图像生成展示:
海纳百川 集结全世界的开源力量
短短的几秒到十秒生成的视频背后,是北京大学Open Sora Plan项目组数周以来对人工智能生成视频工作的深度探究与为开源工作所做的不懈努力。 “Open Sora Plan从一开始推出的初心就是集结开源的力量。”袁粒告诉记者。作为“90后”的年轻教师,去年他曾经带领学生团队设计出爆款项目ChatExcel,它将复杂的表格操作简化为“日常聊天”一般的人机交互,大大地减少了“苦表格处理已久矣”的从业者的工作量。 Sora横空出世后,全世界的人工智能专家和爱好者围绕如何“打开盲盒”进行着头脑风暴。与其坐而论道和羡慕,不如撸起袖子来拆盒——田永鸿和袁粒两位老师带着10余位团队学生与兔展智能创始人兼CEO董少灵(北大校友)、CTO周星一起在GitHub开源社区上开启了力争让Sora复现的探索工作。目前,这个项目已经获得了近1万的标星(https://github.com/PKU-YuanGroup/Open-Sora-Plan),来自世界各地对这个项目感兴趣的代码爱好者在开源社区中热烈地讨论着。 开源社交平台技术人员对Open-Sora Plan的讨论和支持 为了能够使大家能够成功上传自己的想法,团队成员还设计了一整套的上传指南,“每天的贡献者和更新量都在不断突破,也有很多鼓励的话语让我们倍感欣慰。”袁粒说道。
聚沙成塔 模型框架与细节完整诠释
在开源社区,Open Sora Plan项目全面地展示了框架图和实现细节。它的框架由以下三个部分组成:1. Video VQ-VAE(视频量化变分自动编码器)2. Denoising Diffusion Transformer(扩散变换器模型)3. Condition Encoder(条件编码器) Open-Sora整体模型框架图 在技术细节的处理上,Open Sora Plan团队在可变长宽比、可变分辨率、可变时长上均已批量训练。 对于可变长宽比——“我们实施了一种动态掩码策略, 能并行批量训练的同时保持灵活的长宽比。具体来说, 就是将高分辨率视频在保持长宽比的同时下采样至最长边为256像素, 然后在右侧和底部用零填充至一致的256x256分辨率。这样便于VideoVQVAE以批量编码视频, 以及便于扩散模型使用注意力掩码对批量潜变量进行去噪。” 对于可变分辨率——“在推理过程中, 尽管我们在固定的256x256分辨率上进行训练, 但我们使用位置插值可以实现可变分辨率采样。我们将可变分辨率噪声潜变量的位置索引从[0, seq_length-1]下调到[0, 255],以使其与预训练范围对齐。这种调整使得基于注意力的扩散模型能够处理更高分辨率的序列。” 对于可变时长——“我们使用VideoGPT中的Video VQ-VAE, 将视频压缩至潜在空间, 并且支持变时长生成。同时, 我们扩展空间位置插值至时空维度, 实现对变时长视频的处理。” 对于复现Sora这样一个堪称“浩大”的工程,Open Sora Plan项目在开源社区中有条不紊地更新着当前进度条,并详细地展示着尚未完成、有待完善的工作。随着3-10秒视频的推出,目前项目组已经完成了框架搭建、初步框架验证等任务,修正框架中的bug、增加并行采样脚本、在视频文本对数据集上训练1080P分辨率的视频生成模型……这些未来需要进一步完善的工作则在开源社区中以“To do list”的形式完整呈现。 虽然“To do list”道阻且长,但团队相信技术会在清晰的路径中不断进步 训练大模型的背后,高质量的算力和数据极为重要。由于某些国家对中国的技术封锁,为了保证中长期的算力供应,Open Sora团队陆续得到了华为昇腾和鹏城云脑的支持,人工智能算力国产化的实践也在这个项目上日臻成熟。在训练数据的获得方面,袁粒表示:“目前开源数据和部分合作伙伴提供的闭源数据都在训练中,为了推动技术突破的初心把这些‘知识共产主义者’聚在一起,每个人都期待着从‘0到1’的突破。这也成为了推动我们团队夜以继日进行攻关的原动力。”
功成有我 北大年轻科研人的使命担当
这支由北京大学信息工程学院师生组成的“开盲盒”团队,研究生的平均年龄只有23岁。作为团队的核心成员,正在读研一的林彬回忆了当初“火花”擦亮的过程。“Sora刚刚推出的时候,AI社区里关于生成视频的热情一下子高涨起来,我们都在第一时间解读OpenAI发布的技术报告,然而却遗憾地发现一点都不‘open’,几乎没有披露任何具体的技术路线。在组会上,大家感叹新事物的强大的同时也一拍即合,我们要努力复现它!” 在这群从小就冲在高科技浪尖上的年轻北大人看来,开源是推动技术进步的重要条件。“无论Open Sora Plan是哪个团队发起的,这个项目本身的意义就是在于凝聚技术共同体的力量,科学技术没有国界,就算一开始对Sora知之甚少,但有兴趣、有智慧的人一起推动去揭开奥秘的本身就是一种强大的力量。”袁粒这样说道。 对于技术的热忱推动着这群年轻人奋力奔跑。林彬在项目中负责核心代码的编程并统筹大家分工的不同子模块。“前期的codebase我主要是从VideoVQVAE+DiT这条路线来搭建的,VideoVQVAE和DiT本身就是两个伟大的开源项目,没有他们开源出代码,我们也不可能搭建的这么快。” 在项目刚发起的时候,团队师生每天都要开会,上次既定的计划有哪些未完成?资源是否需要重新按照需求进行调配?还有哪些未完成的事项可以更新?下次开会前要完成那些任务?每个问号后面都饱含着师生们的辛勤又无私地付出。 “尽管不一定每个人都能像之前爆红的某位大神‘早9晚1’地浸泡在工作里,但我们团队的每一个人都按照清晰的计划在忘我地工作。”林彬的一天基本所有的课余时间都奉献给了Open Sora项目,早已发表多篇国际学术论文的他尽管是硕士一年级学生,但已达到了博士生毕业的要求,这也让他和团队中的很多同样优秀的学生一起可以心无旁骛地进行项目的推进。与全世界的智慧大脑一起解谜题的乐趣让这群年轻人颇为主动而高效地工作着。 “功成不必在我,功成必定有我!”这是袁粒借鉴北大黄铁军老师的话。打破技术的壁垒,在人工智能的潮涌中乘风破浪,年轻的北大科研人在奋进着、突破着,也让我们共同期待Open Sora项目为世界带来的更大惊喜! Open Sora项目组北大成员合照