查看原文
其他

CVPR 2020:Facebook推进2D到3D变革,扩大AR/VR领先优势

前沿科技新媒体 青亭网 2021-09-20
hi188|编辑

一年一度的CVPR会议正式来袭,作为计算机视觉与模式识别领域的顶级会议,每年都受到大量学术界的关注。另一方面,从中我们也能了解到某些细分领域的最新动向,以及对应公司的进展。

Facebook作为CVPR重要参与者之一,据不完全统计今年有36项研究被CVPR收录。其中,在2D转3D等相关的研究有很多新进展。接下来,我们来着重介绍一下Facebook宣布本次CVPR的几个重点研究项目。

SynSin:单张图像生成全新视角

简单来讲这是一项通过单张图片的某个固定视角作为基础,基于深度模型生产一个或者多个新的视角。例如,给定一张只有椅子的照片,如何通过照片推断墙壁、甚至茶几的视角。这就面临着大量挑战,而目标就是基于图像中的信息全面的理解三维场景。

在此之前,类似的方法基本上都是通过多张(不同角度)的图像作为输入源,进行深度感知训练,训练Ground truth深度信息。

而Facebook则提出了一个全新的端到端模型,该模型特点是:只需要一张图片,并且完全基于真实图像信息进行训练,没有任何Ground truth三维信息。而在该模型中,还引入了一个可微的潜在点云渲染器,它的作用就是将那些3D点云特征进行转换,输出目标视角的图像。这些特征信息被细分网格处理,进行缺失图像处理,从而输出新的图像。

https://v.qq.com/txp/iframe/player.html?width=500&height=375&auto=0&vid=d3080dwskqt

据了解,基于SynSin方案可以将输出图像进行视频化,例如可以不断的生成某一个移动角度的图像,甚至可以生成更高分辨率的图像。

Facebook表示,经过他们在Matterport、Replica和RealEstate10K数据集的测试,SynSin方案优于此前类似的方案。

PIFuHD:高分辨率3D人像重建

高分辨率的3D人像重建是一个关键的技术,未来无论是在医疗还是游戏、AR/VR等领域都有极大的应用潜力。目前高清的3D人像重建依然难以摆脱专业的摄影工作室,不仅对摄像机和灯光等要求高,而且价格昂贵,部署繁琐。为此开始有人探索通过大容量深度学习模型进行3D人像重建,虽然潜力巨大,但是目前和专业工作室相比仍然差距较大。

而Facebook提出一项名为PIFuHD的方案,特点是只需要基于单视角的图像(视频),生成高清晰度/分辨率的三维人像,包括手指、面部细节、甚至衣服的褶皱等等。

Facebook指出:当前的类似方案没有充分利用到高分辨率的特性,例如手机可以拍摄出画质较好且分辨率足够大的图片。而且,它们较依赖于算法推理图像中的2D样式以及3D外形的映射,但实践中存在部分限制因素。

https://v.qq.com/txp/iframe/player.html?width=500&height=375&auto=0&vid=f3080v086yk

为此,Facebook创建了一个端到端多层次架构,它的特点是能以像素对其的方式,通过1K分辨的图像进行推断,判断人的几何形态(姿态)。之后引入PIFu函数,通过像素对齐,并从粗糙推理学习到整体嵌入以及图像无缝融合。

简单来说,PIFuHD的作用就是可以“生成”一个给定图像的另一个视角,例如给定人的正面视角图像,生成背后视角的图像。其中的关键点在于:可通过1K分辨率的原始图像就足够输出高清3D图像;可为未观测区域(例如人的背后)进行的高清重建。

虚拟人像合影

前不久苹果的远程全息合影专利刚刚在USPTO公开,紧接着Facebook的一项类似研究就在CVPR公布。据了解,该研究的特点是将对象(主要以人为主)叠加到现有的图片中,并且让他们通过更逼真的视角和方式融合,看上去更自然。

虽然目前各种基于神经网络模型的人像生成工具,一种是在给定条件下生成图像,另一种是让算法从零开始,自由发挥生成一个高清且逼真的人像。Facebook表示,在两者之中似乎还存在一个新的应用,那就是将给定图像中的人像嵌入到包含其它人像的图像中。

这个过程,需要生成一幅人像并嵌入到现有包含其它人像的照片中,而这个生成的人像在的质量和原有图像差别并不明显,无论是清晰度和细节。而其中的几个关键在于:人脸、衣服、头发。

https://v.qq.com/txp/iframe/player.html?width=500&height=375&auto=0&vid=f30807etao4

据了解,Facebook通过三个GAN完成整个过程:

  • 第一个GAN基于现有被嵌入图像中的人物之间以及人物与背景的上下文关系,并生成一副目标的人体姿势;
  • 第二个GAN呈现出新的人物细节,包括脸部细节;
  • 第三个GAN对生成图像的面部细节进行增强,保证人脸部分看上去足够逼真。


经过测验,Facebook表示第一步生成的虚拟人物姿势和大多数自然的任务姿态几乎相同,但是人物与人物之间的互动仍然是一个挑战。

而该研究的应用,可以融入未来的AR/VR社交(远程社交),或者其他AR衍生应用等场景。

参考:

https://ai.facebook.com/blog/facebook-research-at-cvpr-2020/

( END)

    推荐阅读    






 
每天五分钟,轻松了解前沿科技。    
         —— 青亭网  
: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存