一次性生成5个8秒视频，用AI做抖音短视频不是梦？

Original 阿虎左卡 AI新榜

2024-09-24

作者 | 阿虎左卡

编辑 | 张洁

最近的AI视频赛道，在玩法上“卷”出了新高度。

有用户用它完善视频细节：

还有人用它创作了科幻大片：

甚至让马斯克微笑点头：

还有大鱼吃小鱼，实现普通摄像头难以拍摄的效果：

较强的灵活性和视频可控性，一下让人难以分辨虚实，而这些镜头都是靠爱诗科技的AI视频工具PixVerse实现的。

PixVerse继4月更新运动笔刷功能之后，今日又重磅上线了PixVerse V2模型。V2支持直接生成长达8秒的视频，甚至可以一次性生成1-5个视频片段，并保证风格、主体和场景的一致性。

PixVerse已经率先朝着AI视频生成的一致性方向发力。这是要进军AIGC短片吗？此次更新的PixVerse V2实力究竟如何？“AI新榜”从角色一致性、想象力、控制力维度上，第一时间给各位玩家实测了一番。

实测PixVerse新功能：一次性生成5个8秒视频

据了解，PixVerse突破了时长技术限制，能单次生成8秒的视频。但要知道AI视频生成的时长越长越容易“露怯”，出现瑕疵。那么，其文本理解能力还能稳定发挥吗？我们先用V2简单测了一下文生视频和图生视频。

文生视频

‍提示词：golden retriever in sunglasses sunbathing on a beach in Hawaii

PixVerse V2版本

PixVerse V1版本

从生成效果来看，动物类的表现很不错，几秒内可以动的细节更多，比如狗狗的耳朵，毛发。虽然动作幅度依旧比较小，但整体视频呈现得更完整，在视频质量以及清晰度上都有明显的进步。

另外，PixVerse V2升级了模型理解和表达能力，在真实性和细节表达上进一步加强。

提示词：A beautiful women is walking towards the camera

PixVerse V2版本

PixVerse V1版本

可以看到，人物类镜头方面，画面主体没有出现特别大的技术瑕疵，光影效果也做得很好。相比前一个版本，V2生成的人物动作幅度更大，也更真实。

但遗憾的是，和其他的AI视频工具一样，仍然是无法理解提示词当中的镜头术语，如“走向镜头”，画面中主体的运动只是简单转了下头。

图生视频

图生视频怎么能少得了这张经典梗图：

在图生视频模式下，我们没有输入任何提示词，想看看PixVerse V2的“联想”能力如何。

PixVerse V2并没有让图中男生变成“渣男”，而是转过头与红衣女孩错过，看多了其他AI视频工具的戏剧效果，PixVerse V2展现的反而有点淡淡的忧伤。

三个人的动作幅度都不大，但难能可贵的是唯一出现脸部的红衣女孩没有出现“变脸”，牺牲了戏剧效果但保证了角色的一致性。

相比之下，这张“房子着火我微笑”的梗图生成效果就比较一般了。

转头离去，但“变脸”速度巨快：

控制住了变脸，但场景突然切换：

要说整活，还是AI在行啊。但总的来说，图生视频参考了我们上传的图片元素，玩梗能力在线，做二创是个不错的选择。

在此前“AI新榜”的短片尝试，以及大量用户反馈和社区讨论反馈中，AI视频的一致性一直是一个难题，更不用说单次生成长达40秒的视频片段了，一起看看PixVerse V2的多片段生成能力。

生成多片段40秒视频

在PixVerse首页点击右侧“PixVerse V2”，就可以进入多片段生成页面，同样支持文生和图生视频。

在这里，需要我们选择“Scene 1”，输入相应提示词，再添加“Scene 2”，输入第二个场景想要呈现的画面，以此类推，最多添加5个不同的场景后，一次性生成完整片段。

换句话说，就是把短片的视频分镜，通过自然语言的形式呈现出来。

从官网发布的信息看，在PixVerse V2模式下，5个场景的画面风格都会与第一个场景保持一致。

如果我们还上传了图片，那么这些图片会参考场景1的图片风格进行重绘，保证生成视频风格的一致性。

比如，我们输入的提示词如下：

Scene 1：the panda is playing the violin.Scene 2：It is playing the piano.Scene 3：It is eating the hamburger.

大约等待5分钟左右，V2一次性生成了长达16秒的视频片段。可以看到，在视频主体、场景以及画面色调上尽量保持了一致性，还省去了我们单个片段不断“抽卡”的时间。

只不过，最终生成的画面在精细度上还有待提高，依旧会出现小提琴、汉堡微变形的画面瑕疵。

如果我们对某个片段熊猫的动作、环境、镜头运动不满意，还可以选择替换相应的角色元素，进行二次编辑。

我们继续尝试一下人物类镜头一致性，将上述提示词中的“panda”换成了“the woman”，测试了一波V2的角色控制能力。

没想到的是，PixVerse V2直接规避了短板，生成了全是近景特写的片段，压根没出现人物。

考虑到是“the woman”太过宽泛，我们又将主体替换成确切的人物角色“Harry Potter”，测试结果显示，在多片段生成时，人物手指等细节瑕疵无可避免，但场景、风格一致性上发挥稳定。

1秒只需0.1元，AI视频的成本竞赛

今年下半年，AI视频领域掀起了一波应用间的较量，快手可灵、Runway Gen-3等陆续面向公众开放使用。
几家产品的问世，都向我们传递了一个信息“AI视频生成技术更适合短视频制作”。
除了效果表现之外，陆续有AI工具开始采取付费订阅制，快手可灵同样结束了免费试用期，正式迈入了“收费时代”。

快影App内公告
作为AI领域向来绕不开的问题，商业化的困境同样出现在了视频应用上。
当生成越长的视频，是否成本就越贵？
据调查机构Factorial Funds发文表示， Sora约30亿参数的训练成本，比1.8万亿参数的GPT-4还要多。

Factorial Funds对Sora的相关报道
对于AI视频而言，一些生成服务会根据视频的时长、所需处理的视频复杂性以及使用技术等因素来定价。
如果AI视频还包括了高度定制化的内容，对视频生成的质量、连贯程度以及真实性有要求，实际所用的推理成本自然就会更高。
曾有媒体报道，国内AI企业做过一个估算，大约两分钟的AI视频实际要花掉180元。
盈利，是摆在所有AI视频工具面前的共同问题。哪怕是PixVerse也扛不住相应的推理成本。
目前，PixVerse推出了订阅套餐方案，基础会员每月5美元，可以获得1150个积分。

PixVerse每生成8秒的视频，需要消耗30个积分，这样算来，1150个积分大约能生成20条完整的15秒短视频，一条短视频的成本折合人民币1.5元，是Runway Gen-3费用的1/3。
当然，背后的技术以及生成视频结果的不确定性，导致实际使用的成本会骤升。
费用之外，对于大多数普通用户而言，短短几秒的视频时间，如果只是简单的镜头移动，除了获得体验感，很难有真正的使用场景。
爱诗科技创始人王长虎在年初接受采访时也提到：“在未来6-12个月里，我们希望用AI制作出15秒长的可消费内容。只有当普通人都能用AI生成出好看、好玩的内容，才是AI视频的ChatGPT时刻”。
目前看来，高算力、高成本依旧是商业化的主要障碍，但不少视频玩家也从中找到了用户留存的新方法，“AI整活”“老照片动起来”“AI修复”等抽象玩法在互联网上层出不穷。
在大多数用户对AI视频工具的新鲜感褪去之后，如何用新玩法留住用户，摸索出新的赚钱方法，或许会是视频内容玩家下一个竞争赛道。

欢迎分享、点赞、在看

一起研究AI

继续滑动看下一个

AI新榜

向上滑动看下一个

清华女神，34岁的美女博士县长，辞职了

薄公子低调成台湾女婿 23日已在台举办婚礼

警察殴打打人学生，舆论撕裂的背后

你手放哪呢，出生啊

故宫蛇年限定款藏书票，错过再等12年！

一次性生成5个8秒视频，用AI做抖音短视频不是梦？

您可能也对以下帖子感兴趣

清华女神，34岁的美女博士县长，辞职了

薄公子低调成台湾女婿 23日已在台举办婚礼

警察殴打打人学生，舆论撕裂的背后

你手放哪呢，出生啊​

故宫蛇年限定款藏书票，错过再等12年！

生成图片，分享到微信朋友圈

一次性生成5个8秒视频，用AI做抖音短视频不是梦？

您可能也对以下帖子感兴趣

你手放哪呢，出生啊