计算专题 [转] | 3DCaricShop: 夸张人脸画像的重建 (IEEE CVPR'21)

IntelligentOptics 2022-08-25

Editor's Note

本期<计算专题>推荐一篇刚刚落幕的IEEE CVPR论文，传统视觉加上机器智能在人脸画像重构的应用，欢迎点击关注我们的公众号IntelligentOptics，分享光学、图形学、计算视觉领域的前沿技术资讯，感谢支持！

The following article is from 将门创投 Author 邱宇达

夸张人脸图像是一种广泛应用的艺术表达形式。它通过对人脸五官的特征进行夸张处理，增加作品的幽默或讽刺效果，从而使图像能更好地被观众识别并记忆。这类作品的绘制，需要掌握一定的专业技能，并花费较长的时间来完成。

近期，研究人员尝试采用机器学习的方式创作夸张图像。如何从这类作品中，重建出对应的三维人脸模型，也引起了关注。

论文链接：https://arxiv.org/pdf/2103.08204.pdf

目前，从二维夸张人脸图像中重建出对应三维模型的任务，主要面临两个挑战。

1. 缺少准确记录夸张人脸三维信息的数据。

2. 主流的人脸重建方法，依赖于参数化框架或者Shape-from-Shading，难以还原形状变化更为复杂的夸张人脸。

文章作者针对上述问题完成了两项工作：

1. 构建了一个全新的数据集 3DCaricShop。该数据集包含2000组人脸图像和对应三维模型（由建模师手动完成），并标注有相机参数和三维关键点，如上图左侧。

2. 为了试验该数据库的有效性，提出了一个baseline的方法，实现从单视角夸张人脸图像中重建三维模型的目标，如上图右侧。

作者结合隐式函数重建和参数化网格表达两种方法，设计了一个能适应复杂几何结构且输出模型具有拓扑一致特征的框架，从而从图像中获得形状准确且能便捷地进行动画编辑的网格模型。文章通过对比数据库里形状的多样性展示了3DCaricShop与现有三维人脸数据库的区别，并通过与现有方法的对比以及消融实验说明了baseline方法的有效，详见实验分析部分。

一、3DCaricShop数据集

3DCaricShop包含2000组图片-模型数据。作者从二维漫画数据集WebCaricature中挑选了2000张风格迥异的图片，然后由专业建模师根据图片，使用ZBrush创作出尽可能匹配的三维网格模型。

上述创作的三维模型具有不同的网格拓扑结构。为了构造数据集的参数空间，所有的三维模型都进行了同拓扑处理：

1）对每个面部模型人工标注了44个三维关键点；

2）在三维关键点引导下进行非刚性配准，将一个预定义的模板网格形变成每个模型的形状。

除了对图像和三维模型做了关键点标注，3DCaricShop还为每个三维模型提供对应图像的相机矩阵，使模型和图像能够匹配对齐。

数据库分析

文章通过统计三维人脸各个区域的点坐标方差，分析数据库中人脸形状的多样性。下表展示了 3DCaricShop在形状多样性上，明显优于现有的真实人脸和合成人脸数据库。

二、方法概述

单视角的人脸重建是计算机视觉中的经典任务，主流的参数化方法和Shape-from-Shading的方法能从照片出很好的估计出人脸形状。但受制于夸张图像中更为复杂的人脸形变，和画家的各类艺术色彩风格，上述方法都不能直接迁移到夸张人脸的重建任务。

近年来随着深度学习的成功，像素对齐隐式函数重建 (Pixel-aligned Implicit Function, PIFu) 通过直接从庞大的数据集中直接学习形状先验，已经在人体的三维重建任务中取得了很好的效果。

隐式函数重建出的模型虽然很好地反映了图像的形状信息，但由于预测出的网格拓扑不一致，难以适应人脸模型的众多应用，如动画、纹理编辑。因此作者进一步地采用非刚性配准(non-rigid registration, NICP)将一个人脸模板变形成隐式重建的形状，完成拓扑的统一。

而在变形的过程中，需要有稀疏的对应点作为变形的引导来提高准确度，为了获取隐式重建结果中的三维关键点，作者提出了新颖的多视角协作的三维关键点检测方法 (View-collaborative 3D Landmark Detection)来预测模型上的人脸关键点三维坐标。

三、网络结构

上图是文章方法的框架，包括隐式重建、三维关键点估计和非刚性变形三个模块。输入一张漫画图像，该框架首先使用PIFu方法生成三维形状。关键点估计模块通过将隐式重建的结果投影到二维三视角图像，获取初步估计结果后，再根据结合二维图像和三维图结构对关键点预测进行优化。得到三维形状和预测关键点后，通过多阶段的非刚性形变得到拓扑一致的结果。

隐式重建

基于3DCaricShop数据库，文章构建了人脸图像+人脸法向量图和人脸形状隐式场的训练数据对，训练一个能够从单张彩色图像中预测出三维形状的网络。

三维关键点预测

网络结构如上图所示。直接在三维空间上检测出网格的关键点比较困难，作者通过渲染得到人脸模型的三视角图片，在图片上先完成二维关键点检测，反投影到三维空间得到关键点的初始结果。将初始结果连接成图结构后，进一步结合三视角图片的图像特征与图结构的特征，利用多个视角之间的固有联系，逐步地优化三维关键点的预测结果。

这个优化过程类似于人工进行关键点标注的过程：在单个视角下观察模型，进行点的选取之后，再旋转到另一个视角下，观察是否需要调整关键点的位置。在多次调整后，得到满意的标注结果。

损失函数：利用数据集提供的3D和2D的关键点真实值，同时对预测的三维关键点进行监督，使预测更加准确。损失函数定义为

模型拓扑一致化

获取三维模型上的关键点坐标后，与模板模型上的关键点相对应，使用非刚性变形(non-rigid registration)，让模板网格拟合隐式重建的结果。但是由于夸张人脸的形状变化多样，模板模型和目标形状之间可能存在较大差异，使得网格在形变过程中产生面片交叉等瑕疵。为了解决这个问题，作者迭代地对结果进行非刚性变形和PCA空间投影，经过模型的变形后投影，能够修复变形产生的瑕疵，同时生成更接近目标形状的中间结果，从而使得变形模块更加鲁棒。其中，夸张人脸模型的PCA参数化空间，是利用3DCaricShop的同拓扑三维数据构建的。

四、实验分析

文章在3DCaricShop的数据集上进行了实验。详细的实验设置请查看论文。

重建结果

下图展示了本文方法的一些重建结果。

重建比较：

采用平均P2S（point-to-surface）作为评价指标，测量预测模型的各个点到人脸表面的单向距离。下表展示本文方法和其他现有方法的比较，该方法在3DCaricShop测试集上实现了最小的P2S。

消融实验

三维关键点检测：

评价标准使用MPJPE，即平均每个关节位置误差。文章分析了三种情况：

1)直接使用从预测的2D关键点反投影获取的初始3D坐标，不进行后续的优化（w/o GCN refinement）;

2)利用基于体素的方法估计3D热图(V2V);

3)从第一次设置开始，使用全局图来细化3D地标，不使用VC-GCN块(global only );

4)只使用局部索引从全局视图收集局部特征（w/o G2L ;

5) 本文方法（basic。

下表证实了该方法的三维关键点检测设计的有效性：

关键点引导的配准：

文章评估了三种模型变形的流程：

1)直接执行非刚性变形，不参考对应关键点信息;

2)使用对应关键点引导非刚性变形，不对结果进行PCA空间投影;

3)本文方法。

结果如下图所示，表明该方法可以获得更高质量的网络，并能捕获到准确的形状信息。

应用展示

在获取重建结果后，可以很简便地将一个示例的动画编辑效果转移到其他的重建结果上。

五、总结

本文构建了一个图像-三维模型的夸张人脸数据库3DCaricShop，并基于该数据提出了一种结合了隐式重建与PCA参数化空间的baseline方法，实现了从单张夸张人脸图像中，重建出形状准确且拓扑一致的三维模型的任务。实验结果证实了3DCaricShop数据库和baseline方法的有效性。

团队主页：

https://mypage.cuhk.edu.cn/academics/hanxiaoguang/

INTELLIGENTOPTICSSHARING (I.O.S.) 运营以该领域的研究学者为主，非盈利非广告，希望能结交共同兴趣方向的读者们，建立光学和计算机交叉学科领域内一个资讯分享交流的平台。如果喜欢，请点击“在看”和“点赞”，将有助于微信公众号平台对信息的定向统计和及时推送，小编团队在此不胜感激！

END

“家属和记者取得联系”：记者的退场意味深长

广州地铁“偷拍门”事件：那个漂亮的女大学生，为啥惹了众怒...

劲爆！为了姜萍两位女CEO互揭老底！

治安处罚中“赌资较大”“情节严重”数额认定的理解与适用（各地标准）

中石化一副总被曝出轨人妻，本人嚣张回应：旧情复燃尔

计算专题 [转] | 3DCaricShop: 夸张人脸画像的重建 (IEEE CVPR'21)

您可能也对以下帖子感兴趣

“家属和记者取得联系”：记者的退场意味深长

广州地铁“偷拍门”事件：那个漂亮的女大学生，为啥惹了众怒...

劲爆！为了姜萍两位女CEO互揭老底！

治安处罚中“赌资较大”“情节严重”数额认定的理解与适用（各地标准）

中石化一副总被曝出轨人妻，本人嚣张回应：旧情复燃尔

生成图片，分享到微信朋友圈

计算专题 [转] | 3DCaricShop: 夸张人脸画像的重建 (IEEE CVPR'21)

您可能也对以下帖子感兴趣