三维人脸重建入门

清箫居士有三AI 2020-09-07

很久没有写点东西了，前段时间一是因为懒，而是因为没时间，这几天又是从零开始看前端，掉进了又一个坑O(∩_∩)O~。由于最近刚刚开始看一些三维人脸重建的东西，觉得很酷，于是想跟大家分享一下，上篇的那个投票，看来大家更喜欢提取特征的文章，想了想准备还不够，只好暂时按下不表了。

1 这个系列是要讲什么

本想上几个视频，哪想微信只支持腾讯视频，也罢，那就预览几篇文章的结果，文章其实我也没有完全读懂，有的还没读。

1 第一篇，基于视频序列的三维人脸重建方法。

《Total Moving Face Reconstruction》ECCV

该方法的特点是，只要给出一段网络上的清晰度不是太低的视频，就能重建人脸，它的基本思想是稠密的3D光流（dense 3D flow）+从明暗恢复形状（shape from shading），也即SFS，它对各种光照条件下，各种姿势都做了实验，从下图1看，重建质量非常高。该方法的输入也可以是单张图像。

图1

2 第二篇，基于视频序列的三维人脸重建方法。

《3D Face Reconstruction from a Single Image using a Single Reference Face Shape》PAMI

这篇文章也是通过一幅图像进行重构，它利用了人脸的共性，采用了一张人脸图像与另外一个人的人脸三维模型。输入的人脸图像起的是引导的作用，它被用于提取纹理，深度信息，所以参考模型和输入的人脸越像，则结果越精确可靠。

图2

3 《what makes tom hanks looks like tom hanks》它可以说是第一篇的延续的，因为都是华盛顿大学的同一批作者们，最新的文章得到本月16号才在ICCV上能看到，从其学校官网的论述看也是可以基于单张图像和视频，相比文章1多出的有意思的是可以进行表情迁移，如下图3。

https://www.youtube.com/watch?v=ladqJQLR2bA

图3

难道Tom Hanks是要成为下一个lena吗？影帝就是影帝！

请注意，下面要讲的，不是上面的内容，因为上面文章的内容作者还没有完全搞懂，有的还没看呢，为了让大家先睹为快，就上了高大上的结果。

万事开头难嘛，总得从头开始讲起，本篇就只讲讲现在的三维人脸研究的一般方法，可能也跟不上最新的研究结果。

2 现有的人脸三维模型获取方法有哪些？

随着软硬件的成熟，原本在电影，游戏，安防，地图等领域，三维重建技术的应用将越来越多。目前获取三维模型的方法主要包括三种，手工建模，仪器采集与基于图像的建模。

1 手工建模作为最早的三维建模手段，现在仍然是最广泛地应用中。顶顶大名的3DMax就是典型代表，当然了，它需要专业人士来完成。（此刻由于上不了Google很是郁闷，上不了无水印的美图）。

2 由于手工建模耗费大量的人力，三维成像仪器也得到了长期的研究和发展。基于结构光（structured light）和激光扫描技术的三维成像仪是其中的典型代表。这些基于仪器采集的三维模型，精度可达毫米级，是物体的真实三维数据，也正好用来为基于图像的建模方法提供评价数据库。由于仪器的成本太高，一般的用户是扫不了了。

3 基于图像的建模技术（image based modeling），顾名思义，是指通过若干幅二维图像，来恢复图像或场景的三维结构。建模环节确实非常多，计算过程也很复杂，相关的研究时间也就十几年时间，现在的进展也还不是很令人满意，因此研究前景还是很广的。

3 用图像进行人脸重建有什么特点和困难？

其实三维建模还是很广的，人脸的三维建模在其中又有一些独特点，具体表现有几点。

（1）现有的图像预处理技术非常多。人脸检测与特征点定位，人脸配准等都是现在研究已经比较成熟的方法。利用现有的人脸识别与分割技术，可以缩小三维人脸重建过程中需要处理的图像区域，而在有了可靠的关键点位置信息的前提下，可以建立稀疏的匹配，大大提升模型处理的速度。

（2）人脸共性多。正常人脸都是一个鼻子两只眼睛一个嘴巴两只耳朵，从上到下从左到右顺序都不变，所以可以首先建立人脸的参数化模型，实际上这也是很多方法所采用的思路。由于人脸的相似性，总是可以从一张正常人脸变化到另外一张正常人脸，下面图4就是一个例子
，所以研究者们要做的，是找出变化的路径，然而不断进行细调直至收敛。这里描述起来简单，实际上却面临着许多的困难。

图4

（3）研究方法与期望结果不统一。有的方法只依赖于一幅输入图像，更多地需要依赖于人脸的先验信息，通常采用从一般的人脸模型或统计模型，匹配输入图像的方法来恢复三维的人脸。有的通过图像间的稠密匹配来恢复准确的三维点云坐标。

不仅如此，重建的精度期望也不同。即时通讯中，人脸模型只需要大致反映出人脸的轮廓特征；大型游戏和特效电影中，则要求结果比较光滑美观；三维人脸识别中，则要求关键特征明显能区分不同人脸；整容美发中，又要求结果非常精细，不同的应用，基本上都要采用不同的方法。

上面说了特点，下面说说几点主要困难。

（1）人脸生理结构和几何形状非常复杂，不像一般的建筑物，无法通过任何的数学曲面模型来拟合。当然希望将来能有一个数学模型可以拟合人脸，那时候骂人就可以说某某的脸皮函数厚度系数alpha偏大，多处不可导，亮度系数偏低。

（2）光照影响人脸图像的明暗。本来是同一张脸，放到不同的光照条件下，获取的图像灰度值可能大不一样的，但是脸还是那张脸，结果却可能完全不同。举个例子，人眼还是比较能区分出凹凸信息的，但是计算机就没有那么容易，所以有可能建模出来的鼻子是凹陷的，当然了这是极端情况。

（3）特征点和纹理不明显。图像处理最需要的就是明显的特征！明显的特征！明显的特征，重要的事情说三遍。别说化了妆，就是没化妆，一般小年轻的人脸都是光滑的，除了眼睛鼻子和嘴角附近，很难在脸部提取有代表性的角点特征。这个特点，使得那些采用人脸配准然后求取三维坐标的方法面临着巨大的困难。

4 用图像进行人脸重建都有些什么方法？

这一部分留待下一次细讲，总体上来说，包括这么几种方法。

有基于一个通用的人脸模型，然后在此基础上进行变形优化，会牵涉到一些模板匹配，插值等技术。

有基于立体匹配（各种基于双目，多目立体视觉匹配）的方法，通过照相机模型与配准多幅图像，坐标系转换，获取真实的三维坐标，然后进行渲染。

有采用一系列的人脸作为基，将人脸用这些基进行线性组合的方法，即Morphable models方法。

有。。。。。。

反向激励，在加速这个社会的黑化

官媒发声：反对调休的声音不能装聋作哑！这不是放假，是“假放”（五一假期）

平安信托深陷“爆雷”旋涡：终于尝到“偏爱”房地产的苦果

刀片电池存设计缺陷，或将导致几十万比亚迪车主自费更换or召回？

复旦陈果：低质量的独处，不如高质量的社交，有远见的人都关注了这些微信号