这个AI能预测未来并生成逼真的视频(论文来自谷歌大脑、北航等)
问耕 若朴 编译整理
量子位 报道 | 公众号 QbitAI
先展示成果。下面是一组动图,展示的是AI如何根据一段视频,脑补出未来64帧的画面。
观看说明:当视频外框为绿色时,为真实视频;当外框变红时,为AI生成的“假”视频。最左边是今天要介绍的方法,中间和右边用以前方法达到的效果。
需要补充说明的是,每个动作都没有进行针对性的训练,所有视频都是同一个模型生成。
是不是效果惊人的好?这个能预测并脑补未来视频的AI,几位学者的共同成果:
密歇根大学:Ruben Villegas、Yuliang Zou、Sungryull Sohn
Adobe研究所:Jimei Yang
北京航空航天大学:Xunyu Lin
Google大脑:Honglak Lee
论文摘要
他们的论文是《通过分层预测来学习生成长期未来》(Learning to Generate Long-term Future via Hierarchical Prediction)。
顾名思义,在论文中他们提出使用分层的方法,对视频的未来进行长期预测。为了避免递归像素级预测中的固有复合误差,作者建议首先估计输入帧中的高层级结构,然后预测未来结构演变的方式,最后通过观察过去的单帧和预测的高层级结构,来构建未来的帧,而不必观察任何像素级预测。
通过循环观察预测帧,很难进行长期视频预测。因为随着预测进一步深入,像素空间中的小误差指数地放大。而新的方法通过消除观察预测帧的需要来防止像素级错误传播。
这个模型是用LSTM和基于类比的编解码卷积神经网络的组合构建的,它们分别独立地预测视频结构并产生未来帧。
在实验中,这个模型在Human 3.6M和Penn Action数据集上,对人类动作的长期像素级视频预测任务进行了评估,并显示出比现有技术更好的结果。
结构概览
这是像素级视频预测的总体层次化方法。 这个算法首先观察过去的帧,并估计每个帧中的高层级结构(人类姿态xy坐标)。然后使用估计的结构来预测未来的结构序列方式。
最后,这个算法基于最后一个观测帧,按照所估计结构和预测结构序列,生成未来帧。下图 绿框表示输入到网络,红框表示从网络中输出。
数值评估
对于效果的评估,使用了类似Vondrick等人的人类心理-物理定量评估标准。这里也利用了Amazon Mechanical Turk (AMT) 的服务,来鉴别哪一个视频更逼真。
评估结果这里略过了,当然是更好。
另外基于运动的像素级评估,分析和控制实验表明,分层方法是解决长期像素级视频预测问题的正确一步。
长期帧生成
除此以外,如果能给定准确的未来姿势轨迹,这个模型还能生成多达1000帧的视频。效果如下图所示。这也被认为进一步证明了分层预测的正确性。
https://v.qq.com/txp/iframe/player.html?vid=z1316pv19ba&width=500&height=375&auto=0
局限和未来
尽管效果惊人,几位作者表示他们的方法并不完美,并且有以下局限有待继续解决。
· 自动发现结构
这次论文试用了姿态注释作为结构信息,未来的目标是自动发现。
· 预测更多未来
目前这个网络智能预测一种未来的结果。
· 处理背景
这是一个更具挑战的任务,目前网络还难以想象背景未来会如何变化。
论文和代码
论文地址:
关于代码:
他们说“coming soon”
招聘
我们正在招募编辑记者、运营等岗位,工作地点在北京中关村,期待你的到来,一起体验人工智能的风起云涌。
相关细节,请在公众号对话界面,回复:“招聘”两个字。
One More Thing…
今天AI界还有哪些事值得关注?在量子位公众号会话界面回复“今天”,看我们全网搜罗的AI行业和研究动态。笔芯~
另外,欢迎加量子位小助手的微信:qbitbot,如果你研究或者从事AI领域,小助手会把你带入量子位的交流群里。
△ 扫码强行关注『量子位』
追踪人工智能领域最劲内容