CVPR 2020：Facebook推进2D到3D变革，扩大AR/VR领先优势

Original 前沿科技新媒体青亭网 2021-09-20

收录于话题 #青亭网-Facebook专辑 49个内容

hi188｜编辑

一年一度的CVPR会议正式来袭，作为计算机视觉与模式识别领域的顶级会议，每年都受到大量学术界的关注。另一方面，从中我们也能了解到某些细分领域的最新动向，以及对应公司的进展。

Facebook作为CVPR重要参与者之一，据不完全统计今年有36项研究被CVPR收录。其中，在2D转3D等相关的研究有很多新进展。接下来，我们来着重介绍一下Facebook宣布本次CVPR的几个重点研究项目。

SynSin：单张图像生成全新视角

简单来讲这是一项通过单张图片的某个固定视角作为基础，基于深度模型生产一个或者多个新的视角。例如，给定一张只有椅子的照片，如何通过照片推断墙壁、甚至茶几的视角。这就面临着大量挑战，而目标就是基于图像中的信息全面的理解三维场景。

在此之前，类似的方法基本上都是通过多张（不同角度）的图像作为输入源，进行深度感知训练，训练Ground truth深度信息。

而Facebook则提出了一个全新的端到端模型，该模型特点是：只需要一张图片，并且完全基于真实图像信息进行训练，没有任何Ground truth三维信息。而在该模型中，还引入了一个可微的潜在点云渲染器，它的作用就是将那些3D点云特征进行转换，输出目标视角的图像。这些特征信息被细分网格处理，进行缺失图像处理，从而输出新的图像。

https://v.qq.com/txp/iframe/player.html?width=500&height=375&auto=0&vid=d3080dwskqt

据了解，基于SynSin方案可以将输出图像进行视频化，例如可以不断的生成某一个移动角度的图像，甚至可以生成更高分辨率的图像。

Facebook表示，经过他们在Matterport、Replica和RealEstate10K数据集的测试，SynSin方案优于此前类似的方案。

PIFuHD：高分辨率3D人像重建

高分辨率的3D人像重建是一个关键的技术，未来无论是在医疗还是游戏、AR/VR等领域都有极大的应用潜力。目前高清的3D人像重建依然难以摆脱专业的摄影工作室，不仅对摄像机和灯光等要求高，而且价格昂贵，部署繁琐。为此开始有人探索通过大容量深度学习模型进行3D人像重建，虽然潜力巨大，但是目前和专业工作室相比仍然差距较大。

而Facebook提出一项名为PIFuHD的方案，特点是只需要基于单视角的图像（视频），生成高清晰度/分辨率的三维人像，包括手指、面部细节、甚至衣服的褶皱等等。

Facebook指出：当前的类似方案没有充分利用到高分辨率的特性，例如手机可以拍摄出画质较好且分辨率足够大的图片。而且，它们较依赖于算法推理图像中的2D样式以及3D外形的映射，但实践中存在部分限制因素。

https://v.qq.com/txp/iframe/player.html?width=500&height=375&auto=0&vid=f3080v086yk

为此，Facebook创建了一个端到端多层次架构，它的特点是能以像素对其的方式，通过1K分辨的图像进行推断，判断人的几何形态（姿态）。之后引入PIFu函数，通过像素对齐，并从粗糙推理学习到整体嵌入以及图像无缝融合。

简单来说，PIFuHD的作用就是可以“生成”一个给定图像的另一个视角，例如给定人的正面视角图像，生成背后视角的图像。其中的关键点在于：可通过1K分辨率的原始图像就足够输出高清3D图像；可为未观测区域（例如人的背后）进行的高清重建。

虚拟人像合影

前不久苹果的远程全息合影专利刚刚在USPTO公开，紧接着Facebook的一项类似研究就在CVPR公布。据了解，该研究的特点是将对象（主要以人为主）叠加到现有的图片中，并且让他们通过更逼真的视角和方式融合，看上去更自然。

虽然目前各种基于神经网络模型的人像生成工具，一种是在给定条件下生成图像，另一种是让算法从零开始，自由发挥生成一个高清且逼真的人像。Facebook表示，在两者之中似乎还存在一个新的应用，那就是将给定图像中的人像嵌入到包含其它人像的图像中。

这个过程，需要生成一幅人像并嵌入到现有包含其它人像的照片中，而这个生成的人像在的质量和原有图像差别并不明显，无论是清晰度和细节。而其中的几个关键在于：人脸、衣服、头发。

https://v.qq.com/txp/iframe/player.html?width=500&height=375&auto=0&vid=f30807etao4

据了解，Facebook通过三个GAN完成整个过程：

第一个GAN基于现有被嵌入图像中的人物之间以及人物与背景的上下文关系，并生成一副目标的人体姿势；
第二个GAN呈现出新的人物细节，包括脸部细节；
第三个GAN对生成图像的面部细节进行增强，保证人脸部分看上去足够逼真。

经过测验，Facebook表示第一步生成的虚拟人物姿势和大多数自然的任务姿态几乎相同，但是人物与人物之间的互动仍然是一个挑战。

而该研究的应用，可以融入未来的AR/VR社交（远程社交），或者其他AR衍生应用等场景。

参考：

https://ai.facebook.com/blog/facebook-research-at-cvpr-2020/

（ END）

高三女生醉酒后被强奸致死？检方回应

高三女生醉酒后被强奸致死？检方回应

波罗的海，电缆断裂！

川普的成长秘辛：家庭和大学如何塑造一位“坚刚不可夺其志”的总统

萝莉岛事件背后所隐藏的真相，可能比我们想象的更恐怖

CVPR 2020：Facebook推进2D到3D变革，扩大AR/VR领先优势

您可能也对以下帖子感兴趣

高三女生醉酒后被强奸致死？检方回应

高三女生醉酒后被强奸致死？检方回应

波罗的海，电缆断裂！

川普的成长秘辛：家庭和大学如何塑造一位“坚刚不可夺其志”的总统

萝莉岛事件背后所隐藏的真相，可能比我们想象的更恐怖

生成图片，分享到微信朋友圈

CVPR 2020：Facebook推进2D到3D变革，扩大AR/VR领先优势

您可能也对以下帖子感兴趣