谷歌实时全身人像容积摄影新研究，可调光线成亮点

Original 前沿科技新媒体青亭网 2021-09-20

Esther｜编辑

此前，在《6DoF才是全景视频的未来》中，青亭网曾提到利用容积摄影拍摄的6DoF视频对于VR电影重要性，比如：6DoF容积视频中的人或物支持从多个角度观看，比普通的360°全景视频更具立体感等。除了VR，容积摄影对于AR/MR、CG特效/动画来讲也是一项重要技术，它可以让你在无须动捕服装、标记的情况下实现对人物动作的多角度动作捕捉，还可以让AR/MR滤镜变的更立体，可以从不同视角查看。

目前，微软、Intel、Facebook等公司旗下分别拥有各自的容积摄影/动捕工作室，这些工作室通常会使用100颗甚至更多高分辨率摄像头，可人体实时动捕，但由于后期调光所需的光照信息不够多，三维重建后的效果缺乏高刷新率的细节，而且阴影部分难以根据不同的合成背景进行调试。

https://v.qq.com/txp/iframe/player.html?width=500&height=375&auto=0&vid=q30236zzo7u

可想而知，光线对于逼真的容积摄影和全身实时动捕来讲非常重要。为了进一步优化这项技术，谷歌科研人员提出了一种增强高分辨率容积系统光线捕捉能力的方案：Relightables，其特点是将90个1240万像素、60Hz刷新率的摄像头与331个定制化的可编程LED灯模组结合，取代传统的绿幕背景，拍摄出的动态容积视频具备更高水平的几何精度，并且可以替换任何场景，支持更灵活和逼真的后期调光。

与其他光源相比，Relightables的光源可生成极其密实的图案，支持准确的立体匹配，其灯光舞台采用分时多工的梯度光照，会在两种颜色渐变的发光模式中切换，而这些渐变信息之后还可以用于推断重新调光所需的反射特性。

https://v.qq.com/txp/iframe/player.html?width=500&height=375&auto=0&vid=n3023r87a20

Relightables系统为容积摄影技术带来多方面的创新，比如：配备了一种特殊设计的主动深度感知模组，可捕捉1240万像素的深度地图；用一种混合机器学习的几何重建流程来处理容积视频的输入和输出；利用60Hz刷新率下捕捉到的两种颜色的交替式渐变照明图（生成两种球形色彩渐变发光图案）中包含的信息，来生成动态且实时一致的反射率网格，用于输出为30Hz刷新率的视频。

深耕Relightables的硬件配置

据了解，Relightables系统包含的90个摄像头分别为58个RGB摄像头和32个红外摄像头，其中由32个红外摄像头、16个RGB摄像头和定制的红外结构光光源组成多个主动深度传感模组。每个模组包含一个高分辨率RGB摄像头、两个高分辨率红外摄像头和一个定制的结构光光源，而光源则包含VCSEL激光器、柔光器、铬镀玻璃的直接投影掩模、准直透镜、投影镜头等装置。

这些RGB和红外摄像头都是德国Ximea MX124摄像头，采用索尼IMX253传感器，支持CMOS传感、global-shutter，具备4112x3008高分辨率和低噪声，量子效率足够高，拍出来的照片细节够多。与这些摄像头和传感器相连的，还有16个处理数据的PC。

而另外的331个可编程的定制LED灯模组中，每个模组包含63个高亮度LED灯，可显示红色、琥铂色、青柠色、绿色、蓝色、皇家蓝等多种颜色。每个LED灯由一个内置的SoC来控制，可在10MHz的速度下切换灯光。

与市面上其他容积摄影系统不同的是，Relightables并非使用白色光源，而是使用反向渐变色彩，其中红色在X轴，绿色在Y轴，蓝色在Z轴，而反向渐变指的是从暗到亮发光，而不是亮到暗。

Relightables三维重建过程

在拍摄过程中，Relightables会从多个视角计算出准确的3D几何信息，并且在多视角立体渲染流程中，用深度学习来在生成三角网格之前剔除点云的离群值。为了提高网格处理的效率，甚至还将生成的网格中的几何和拓扑结构的伪影进行删除。同时，为了简化3D建模的展示，还生成一个紫外谱图来代表法线、反射、漫反射纹理等表面信息。

总之，整个流程的步骤包括：深度预测（选择视角、匹配成本、优化差异、深度细化）、基于深度学习的分割过程、网格重建、简化和后期、网格匹配（帧对帧和全局）、一致的紫外线参数化。

计算反射率信息

在完成容积捕捉与三维重建后，如何在后期自由调光则是一个重要的问题。前面也提到，现有的其他容积摄影技术通常使用固定的光线，并且在色彩纹理图上仅使用预先定好的光线信息，因此如果将捕捉到的人物放在多种不同的环境中，有时候会显得不够自然，而且画面的细节也不够清晰。

因此，科研人员在Relightables系统中使用了两种不同的渐变色光线环境，以捕捉到更细致的反射率信息。

在处理过程中，Relightables会将摄像头拍摄到的每一帧活动与UV网格融合，同时，预测反射率信息的过程需要将两种光照环境（色彩渐变光照、反向色彩渐变光照）与UV地图相匹配。为此，科研人员采用了两种不同的策略，首先是利用网格匹配方法来为邻近的帧生成一致的纹理参数化，让相邻的每一帧可以相互借用UV纹理补充信息，而第二种方法是，在帧与帧之间的空间使用光流，这样在与UV网格融合之前，就可以获得每颗摄像头成像空间之间的补充照明信息。

在完成信息采集后，接下来则需要利用色彩渐变和反向色彩渐变信息来计算出反射率信息，并生成反照率/法线/光泽贴图，它们可以用于实时渲染引擎或线下渲染系统，不需要进一步修改。

拍摄效果

HDRI调光（左）与Relightables（右）效果对比

从实验、对比、应用中发现，Relightables大幅提高了3D动捕人物放在CG场景中的逼真感。

从深度感知效果来讲，如果将Relightables的传感器以400万像素运行，并将结果与1240万像素相对比，可以看出低分辨率的传感器会产生更多的深度噪音，并且几何的整体纹理过于平滑，因此说明1240万像素对于捕捉面部特征、衬衫褶皱等细节来讲是关键。

此外，Relightables不再需要绿幕，它分割人物与背景的方式是通过深度学习模型来识别图像的深度，并分割出人、物体、背景等目标。而且在几何拓扑结构不断改变的环境下，它也能够通过选出更优质的关键帧（需要的关键帧也更少），从而重建出效果更好的网格。

为了捕捉到更逼真的面部表情和特征，Relightables在网格参数中将面部的语义权重提高三倍，这是因为人脸上的伪影在全身中看起来最明显。

Relightables不仅可以捕捉到高分辨率的容积视频，也能在拍摄到的3D容积模型上进行逼真的后期光线调整，合成到HDRI环境中。当然，其捕捉到的3D模型也可以用于合成的3D场景中，这样就能实现更准确的阴影渲染和遮挡。

科研人员甚至将Relightables捕捉到的3D人物与智能手机拍摄到的影像合成，融合效果足够好，光线和阴影和环境可以保持一致。

当然，Relightables还存在一些需要改进的地方，比如：目前还难以重建头发等轻薄的结构，未来机器学习算法有助于解决这一问题；在透明和反射材料的重建上也依然存在问题。

总之，这项方案对于未来的3D动捕和人像捕捉来讲有很大启示，当然由于其球形结构的设计，可能目前还无法像使用绿幕的大型工作室那样同时对一群人进行容积捕捉，但如果适用于为个人量身定做用于VR/AR/MR社交或滤镜的6DoF人像，则是一个比较不错的方案。

参考：

https://augmentedperception.github.io/therelightables/

（END）

警察殴打打人学生，舆论撕裂的背后

商场里，卖不掉的“衣服”都去哪了？导购员不会说，内行人却都懂.

骗P天花板？

大摩宏观策略谈：2025中美变局展望

沉浸式消耗补货！这15件妈见夸的平价宝贝，好用到我倒立爬行！

谷歌实时全身人像容积摄影新研究，可调光线成亮点

您可能也对以下帖子感兴趣

警察殴打打人学生，舆论撕裂的背后

商场里，卖不掉的“衣服”都去哪了？导购员不会说，内行人却都懂.

骗P天花板？

大摩宏观策略谈：2025中美变局展望

沉浸式消耗补货！这15件妈见夸的平价宝贝，好用到我倒立爬行！

生成图片，分享到微信朋友圈

谷歌实时全身人像容积摄影新研究，可调光线成亮点

您可能也对以下帖子感兴趣