—— 青亭网
基于单张图像,即可生成3D KenBurns特效
hi88| 编辑
什么是KenBurns ?
可能很多人对“KenBurns”这一词并不了解,简单来讲它是一个图片动态展示的方式,是视频编辑中最常见的照片特效之一,其通过缩放和平移图片进行显示,实现不同的视觉效果,甚至照片切换等效果。
Tips:KenBurns一词来自于一位美国知名的电影制片人、纪录片家:Kenneth Lauren Burns,因其在电视台工作期间广泛采用这种将照片缩放、平移的展现方式,并用于照片之间过渡动画。后来,苹果前CEO兼联合创始人史蒂夫·乔布斯曾向Kenneth提出合作请求,将其名字进行商业化展示,但被Kenneth拒绝。而之后通过某些非营利组织的设定,其最终获得在iMovie、Final Cut Pro等苹果产品中使用“KenBurns”一词的许可。
说白了,它和很多手机中具备“照片一键生成视频”的方法类似。如果用的是iPhone,可以直接在照片-为你推荐-回忆中选择开启。
2D KenBurns效果
大家可以通过上面的GIF了解一下KenBurns具体应用的效果。
3D KenBurns效果
而3D KenBurns则是在摄像中常用的方法,包括在部分纪录片、广告、商品展示等众多类型的视频中都极为常见。和采用照片合成的2D KenBurns效应不同的是,3D KenBurns则加入了深度信息,让场景随着照片移动时产生对应变化。如果基于手动制作则需将照片分段,然后插入虚拟3D空间中,然后进行繁琐的修复操作。
单张图像3D KenBurns方法来袭
而Simon Niklaus这套方法结合了深度学习技术,其特点就是:自动化(包括全自动和自定义两种模式),并且重点是只需单张图片即可生成。
https://v.qq.com/txp/iframe/player.html?width=500&height=375&auto=0&vid=a0927dc0dnx
虽说现在可以通过手工制作实现3D KenBurns特效,但其需要来自不同位置的多张图像才能合成,而且耗时耗力。Simon Niklaus提出的方法则可基于单张图像,并且可指定摄像机路径,从而对结果进行更个性化的控制。
据了解,这套方法中使用了一个用于图像深度预测的语义感知神经网络。目的就是为了解决单张图像无深度信息的问题,有了估算出的深度数据,然后将图像映射到点云,再将这些渲染数据融合成到视频中的不同帧。
其中,为了保证合成结果在时间和几何方面的一致性,其还结合上下文感知颜色、深度修复,来填充原本单张图像模拟多角度或部分极端情况下残缺的部分,从而模拟扩展出场景信息,以此来达到合成更为“真实”的场景。
根据论文介绍,该方案适用于多种类型的图片,包括人物肖像、风景、室内、户外等。
简单而言,Simon Niklaus这套基于单张图像的3D KenBurns方法实现起来有两个难点:
一是基于新的相机视角生成新图像,并需要准确模拟出原视图像场景几何,关键在于单张图像深度信息模拟; 二是要根据预测的场景几何,在时间线上生成缺失或遮挡图像部分。
接下来,我们来看看Simon Niklaus方案是如何解决这两大难题的。
1)语义感知和深度估算
近些年随着人工智能领域的突破进展,并诞生不少基于单目深度信息估算的方法,但是这些方法基本上并不适用于Simon Niklaus提出的3D KenBurns效果生成。
Simon Niklaus专门设计了一个语义感知深度估算模型,其特点通过地分辨图像估算出粗糙的深度信息,然后使用VGG-19模型提取语音信息;接下来基于Mask R-CNN分段调整深度图,确保对象内深度值保持一致;最后进行深度细化,对粗糙深度进行采样以确保有精确的深度边界。
为了最终呈现出一个连续的、高质量的深度图像,则需要在物体边缘进行深度的优化,然后其通过Z滤波解决了这个问题。
再给深度估算模型增加语义特征,大幅提升深度估算的场景几何后,继而发现语义失真并未完全解决,其赞词通过Mask R-CNN分割掩码,将任务、汽车、动物等不同语义上进行蒙版化,然后将最小深度值分配到不同蒙版来调整深度值。
最后,进行深度细化的过程,在分辨率图像的引导下,结合神经网络学习如何在深度信息上采样。
2)上下文感知合成修复图像
Simon Niklaus分析了图像深度估算方案中三个关键的问题,只有解决它们之后才能应用到3D KenBurns中来。即:1,几何失真;2,语义失真;3,深度边界不准确。
为此,Simon Niklaus团队专门设计了一个可视化的操作图像合成程序。最终的图像合成方案在点云渲染、上下文提取、颜色和深度修复方面花费大量时间,并且解决了在保持场景几何一致的同时,通过深度和颜色映射到点云中解决遮挡问题。
最终效果
https://v.qq.com/txp/iframe/player.html?width=500&height=375&auto=0&vid=p0927jdyk2d
经过大量数据训练和实验,其找到了YouTube上大量3D KenBurns的视频,然后将自己的方案与视频创作者制作的作品进行对比,结合Simon Niklaus方案更受欢迎。
当然,作为算法自然会有不可避免的缺点,尤其是在前期数据数据量较少时。例如,在部分场景下我们会看到场景的略微变形,在有明显人影或其它影子的场景下效果有些冲突等。这也印证了他们的测试结果,在一个小规模的测试中,在室内场景下,Simon Niklaus的方案比视频创作者的3D KenBurns效果更受欢迎。
另外,当前对于Simon Niklaus提出的3D KenBurns方案不适用的场景还包括反光场景、弱场景(如:旗杆等)表现欠佳。
总而言之,Simon Niklaus提出的这套方案对于单张图像的3D KenBurns生成而言有极大推进效果。深度估算模型也为今后的完善打下基础,基于语音的深度调整和边界细化也是本论文中极为关键的环节。
在新新Vlog时代,人人都能成为视频创作者,而简易、有趣的特效生成方式将变得越来越受欢迎,而3D KenBurns将成为其中关键技术,随着未来技术的完善,未来也将大大方便视频创作者们。
PS:本论文由波特兰州立大学Simon Niklaus、共同作者包括:Adobe Research的Long Mai、Jimei Yang、波特兰州立大学的Feng Liu。
参考:
https://arxiv.org/abs/1909.05483
https://en.wikipedia.org/wiki/Ken_Burns_effect
(END)
推荐阅读
—— 青亭网