查看原文
其他

中国首个“Sora级”视频大模型发布

王琛琛 1039调查团
2024-10-07


2024中关村论坛年会今天(4月27日)首次举办“人工智能主题日”,聚焦人工智能最前沿举行12场活动,多项重大成果集中亮相。其中,我国首个自研视频大模型Vidu发布,全面对标国际顶尖水平。



Vidu生成的视频画面/来自生数科技


只需要一段文字指令就能生成一段60秒精致细腻的视频,今年2月,文生视频大模型Sora曾在全球引发震动。对标Sora,生数科技联合清华大学发布中国首个长时长、高一致性、高动态性视频大模型——Vidu。支持一键生成长达16秒分辨率高达1080P的高清视频内容。


清华大学人工智能研究院副院长、生数科技首席科学家朱军介绍,Vidu是联合攻关团队全栈自主创新的最新成果,它在多个维度上实现了技术的突破。它可以模拟真实的物理世界,可以具有想象力,可以理解多镜头的语言,不再是简单的镜头的推拉,它也可以一镜到底生成16秒的视频,不需要任何的插帧和剪接。同时它在人物、场景和时间保持上具有高度一致性,它还可以理解和生成中国元素,能够在视频中生成例如熊猫、龙等特有的中国元素。


Vidu生成的视频画面/来自生数科技


根据现场演示的效果,Vidu能够生成细节复杂、并且符合真实物理规律的场景,例如合理的光影效果细腻的人物表情等。它还能生成真实世界不存在的虚构画面,例如“画室里的一艘船正在海浪中驶向镜头”这样的场景。在长期和正确的技术路线积累下,Vidu团队在短短两个月实现了技术的重大突破。


“今年1月份时,我们当时做出了4秒的视频生成。在Sora推出之后,我们加快了技术攻关的进度,在3月底我们突破了8秒,虽然4秒到8秒只有一个2倍的提升,但是一个巨大的进步,它验证了我们的技术路线是正确的,坚定了我们信心。”朱军表示,在4月份时,团队进一步地加大了技术攻关力度,现在视频生成长度达到了16秒,“在未来还会进一步地突破这个长度,我们相信会是一个更快的速度在迭代。”


Vidu生成的视频画面/来自生数科技


深度融合了人工智能和机器人等多学科技术的具身智能,正在成为人工智能的下一个浪潮。论坛上,多家科技公司带来了最新款的人形机器人。银河通用机器人公司目前研发的机器人技术,已经可以做到在任意场景对任意物体进行抓取。未来5年,通用具身智能驱动的人形机器人有望深度地进入家庭。


“我们计划通过5年时间,发布家庭使用的人形机器人,能够帮你在家里取东西,包括从桌子上取,从冰箱里去取,还有在各种地方放东西,还可以使用各种家用电器,帮你用微波炉来加热食物,再到帮你做一些立体清洁,比如擦桌子、擦镜子等现在扫地机器人干不了的事情。”银河通用创始人王鹤说。


多家科技公司展示人形机器人研发成果/大会提供

银河通用研发的人形机器人/记者拍摄


海淀区作为全国人工智能的发展高地,已集聚人工智能企业近千家,占全市的三分之二、全国的六分之一。在论坛上,集中发布了人工智能发展的阶段性成果。


中关村科学城管委会副主任、海淀区副区长唐超介绍,率先发布了全球首个人工智能街区概念,在海淀53平方公里城市空间,按照三横两纵一带的格局规划人工智能街区,全力建设集成通用人工智能技术的城市智能体,率先在五道口和大钟寺两个先导区打造智能体样板间。


海淀区还发布了打造全国具身智能创新高地的三年行动方案,聚焦具身大模型和机器人整机,部署实施六大行动,力争到2026年初步建成全国具身智能原始策源地、应用示范新高地和产业加速集聚地,成为中国参与全球具身智能竞争的核心力量。


中关村论坛“人工智能主题日”主论坛/大会提供



记 者 | 王琛琛

编 辑 | 王琛琛

主 编 | 程   艳



要闻推荐

“五一”怎么出行?怎么玩?一文看懂——

北京车展,这种车是绝对主角儿

个人隐私、敏感信息,海量数据如何安全?

北京车展来了!117台车全球首发




继续滑动看下一个
1039调查团
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存