查看原文
其他

Vchitect 2.0:开源文本到视频生成模型,创作20秒高质量短视频 Vs Gen-3、Kling、CogVideoX-5B

Aitrainee AI进修生
2024-12-28

🍹 Insight Daily 🪺

Aitrainee | 公众号:AI进修生

Hi,这里是Aitrainee,欢迎阅读本期新文章。

AI 的新前沿之一是文本到视频生成,我对此:

尽管现在有一些模型可以生成文本视频,但这些视频的长度要么只有几秒钟,要么质量不佳。而 Vchitect 2.0 模型试图解决这个问题,它可以生成20秒以上的视频,并确保视频质量最高。

在本文中,我将安装 Vchitect 2.0 的开源版本:Vchitect-XL-2B ,然后我们将尝试从文本生成视频。这个 Vchitect 2.0 模型由上海 AI 实验室开发,是一个先进的视频生成模型,旨在赋能视频创作。

Vchitect 2.0 与 Gen-3、Kling、CogVideoX-5B-SAT 等顶级模型相比,它的总分和质量得分排名第四,语义得分排名第一:

它有两个版本:文本到视频和图像到视频。目前只有文本到视频模型可用,图像到视频模型很快会发布。

▲体验地址:https://huggingface.co/spaces/Vchitect/Vchitect-2.0

现在我们看看项目页面中的视频,看看该模型生成的视频质量。

你可以看到这几个视频的质量和细节都不错。

看这个视频,色彩、清晰度和图像的生动性非常棒,尤其是毛发的动作。

虽然这个开源模型 Vchitect-XL-2B 生成的视频只有 10 秒以下的长度,但质量依然还算可以。现在我带你本地部署:

首先,我要激活 conda 环境,

接着安装 PyTorch、Torch Audio 以及 Vision 等库。这可能需要几分钟时间。

conda 环境创建完成后,我们将克隆代码库,进入目录并安装依赖项。

然后我们去 Hugging Face 上下载模型,模型名称是 Vchitect-XL-2B

你需要登录 Hugging Face,并获取一个免费的访问令牌。在 Hugging Face 登录并同意协议后,确保你保存了令牌。

Hugging Face 登录成功后,我们需要从 Hugging Face 下载模型。我使用 Python 命令下载模型,

from huggingface_hub import snapshot_download snapshot_download("Vchitect/Vchitect-XL-2B") 

下载速度很快,模型文件大约有两个部分。

下载完毕后,我们将进入下载的目录并运行推理程序。推理文件 `inference.py` 中包含了保存目录、检查点路径以及用于生成视频的文本提示文件。

我们将提示保存为 `prompt.txt` 文件,并指定一个目录来保存生成的视频。

执行推理文件 `inference.py` 开始生成视频:

生成过程需要一些时间,大约 10 分钟。

生成的视频文件共有五个,让我逐个播放这些文件。

第一个视频展示了一个小女孩在高速骑自行车,接着是下一个例子:一只雄狮追逐一只鹿的场景,虽然生成的效果不如官方项目页面展示的那么好,但仍然有一定的真实感。

我们注意到一些视频存在轻微的变形,可能需要添加一些负面提示来调整细节。不过总体来说,这个开源版本的模型还算不错,但质量显然不如官方演示版。如果你正在按照本文操作,请确保你的 PyTorch 和 Torch Vision 版本是最新的。

🌟希望这篇文章对你有帮助,感谢阅读!如果你喜欢这系列文章请以 点赞 / 分享 / 在看 的方式告诉我,以便我用来评估创作方向。

参考链接:
[1] github:https://github.com/Vchitect/Vchitect-2.0

[2] huggingface:https://huggingface.co/Vchitect/Vchitect-XL-2B
[3] https://vchitect.intern-ai.org.cn/

知音难求,自我修炼亦艰

抓住前沿技术的机遇,与我们一起成为创新的超级个体

(把握AIGC时代的个人力量)

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

继续滑动看下一个
AI进修生
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存