这个AI能预测未来并生成逼真的视频（论文来自谷歌大脑、北航等）

原创 2017-04-21 厉害了老铁 量子位

问耕若朴编译整理
量子位报道 | 公众号 QbitAI

先展示成果。下面是一组动图，展示的是AI如何根据一段视频，脑补出未来64帧的画面。

观看说明：当视频外框为绿色时，为真实视频；当外框变红时，为AI生成的“假”视频。最左边是今天要介绍的方法，中间和右边用以前方法达到的效果。

需要补充说明的是，每个动作都没有进行针对性的训练，所有视频都是同一个模型生成。

是不是效果惊人的好？这个能预测并脑补未来视频的AI，几位学者的共同成果：

密歇根大学：Ruben Villegas、Yuliang Zou、Sungryull Sohn

Adobe研究所：Jimei Yang

北京航空航天大学：Xunyu Lin

Google大脑：Honglak Lee

论文摘要

他们的论文是《通过分层预测来学习生成长期未来》(Learning to Generate Long-term Future via Hierarchical Prediction)。

顾名思义，在论文中他们提出使用分层的方法，对视频的未来进行长期预测。为了避免递归像素级预测中的固有复合误差，作者建议首先估计输入帧中的高层级结构，然后预测未来结构演变的方式，最后通过观察过去的单帧和预测的高层级结构，来构建未来的帧，而不必观察任何像素级预测。

通过循环观察预测帧，很难进行长期视频预测。因为随着预测进一步深入，像素空间中的小误差指数地放大。而新的方法通过消除观察预测帧的需要来防止像素级错误传播。

这个模型是用LSTM和基于类比的编解码卷积神经网络的组合构建的，它们分别独立地预测视频结构并产生未来帧。

在实验中，这个模型在Human 3.6M和Penn Action数据集上，对人类动作的长期像素级视频预测任务进行了评估，并显示出比现有技术更好的结果。

结构概览

这是像素级视频预测的总体层次化方法。这个算法首先观察过去的帧，并估计每个帧中的高层级结构(人类姿态xy坐标)。然后使用估计的结构来预测未来的结构序列方式。

最后，这个算法基于最后一个观测帧，按照所估计结构和预测结构序列，生成未来帧。下图绿框表示输入到网络，红框表示从网络中输出。

数值评估

对于效果的评估，使用了类似Vondrick等人的人类心理-物理定量评估标准。这里也利用了Amazon Mechanical Turk (AMT) 的服务，来鉴别哪一个视频更逼真。

评估结果这里略过了，当然是更好。

另外基于运动的像素级评估，分析和控制实验表明，分层方法是解决长期像素级视频预测问题的正确一步。

长期帧生成

除此以外，如果能给定准确的未来姿势轨迹，这个模型还能生成多达1000帧的视频。效果如下图所示。这也被认为进一步证明了分层预测的正确性。

https://v.qq.com/txp/iframe/player.html?vid=z1316pv19ba&width=500&height=375&auto=0

局限和未来

尽管效果惊人，几位作者表示他们的方法并不完美，并且有以下局限有待继续解决。

· 自动发现结构

这次论文试用了姿态注释作为结构信息，未来的目标是自动发现。

· 预测更多未来

目前这个网络智能预测一种未来的结果。

· 处理背景

这是一个更具挑战的任务，目前网络还难以想象背景未来会如何变化。

论文和代码

论文地址：

关于代码：

他们说“coming soon”

招聘

我们正在招募编辑记者、运营等岗位，工作地点在北京中关村，期待你的到来，一起体验人工智能的风起云涌。

相关细节，请在公众号对话界面，回复：“招聘”两个字。

One More Thing…

今天AI界还有哪些事值得关注？在量子位公众号会话界面回复“今天”，看我们全网搜罗的AI行业和研究动态。笔芯~

另外，欢迎加量子位小助手的微信：qbitbot，如果你研究或者从事AI领域，小助手会把你带入量子位的交流群里。

△ 扫码强行关注『量子位』

追踪人工智能领域最劲内容

反向激励，在加速这个社会的黑化

2024【公共营养师】报名通道已开启，不限学历，23岁及以上可报!还能领2000补贴

Wealth | 中国成本轮金价涨势的前沿和中心

父亲出轨后，母亲对父亲实施了她的精确打击 | 二湘空间

多人约P大瓜！旧爱怀孕上线开撕，曝聊天记录！小白龙报警，官宣恋情！

这个AI能预测未来并生成逼真的视频（论文来自谷歌大脑、北航等）

问耕若朴编译整理
量子位报道 | 公众号 QbitAI

论文摘要

结构概览

数值评估

长期帧生成

局限和未来

论文和代码

招聘

One More Thing…

您可能也对以下帖子感兴趣

反向激励，在加速这个社会的黑化

2024【公共营养师】报名通道已开启，不限学历，23岁及以上可报!还能领2000补贴

Wealth | 中国成本轮金价涨势的前沿和中心

父亲出轨后，母亲对父亲实施了她的精确打击 | 二湘空间

多人约P大瓜！旧爱怀孕上线开撕，曝聊天记录！小白龙报警，官宣恋情！

生成图片，分享到微信朋友圈

这个AI能预测未来并生成逼真的视频（论文来自谷歌大脑、北航等）

问耕 若朴 编译整理量子位 报道 | 公众号 QbitAI

论文摘要

结构概览

数值评估

长期帧生成

局限和未来

论文和代码

招聘

One More Thing…

您可能也对以下帖子感兴趣

问耕若朴编译整理
量子位报道 | 公众号 QbitAI