CVPR 2020 | 滴滴联合北邮提出PropagationNet人脸对齐新方法,“以点带线”稳定地分析人脸结构
计算机视觉、模式识别领域的国际顶级会议 IEEE国际计算机视觉与模式识别会议(CVPR 2020)于6月14日至19日在线上举行。根据CVPR官方数据,本届CVPR大会共接收论文1470篇,录用率约22%,低于ICCV2019论文录用率(25%),是近十年以来CVPR论文录用率最低。
本文是对滴滴AI Labs和北京邮电大学邓伟洪教授课题组联合提出的CVPR 2020 Oral长文《PropagationNet: Propagate Points to Curve to Learn Structure Information》的详细解读。
摘要
深度学习技术极大地提高了人脸对齐算法的性能。然而,由于巨大的可变性和样本数据的缺乏,在不受约束的情况下(例如较大的头部姿势、夸张的表情和不均匀的照明等)的人脸对齐问题在很大程度上仍然无法解决。在本文中,我们探讨了可以解决这一问题的两项方案(即传播模块和焦翼损失)背后的定性的直觉和定量的分析。具体而言,我们提出了一种新的基于热图回归的结构化人脸对齐算法,该算法通过将关键点热图传播成边界热图来提供结构信息,以供进一步生成注意力图。此外,我们提出了可以在自然条件下挖掘和平衡困难样本的焦翼损失。另外,我们从其他领域引入了 CoordConv 和 Anti-aliased CNN 之类的方法来解决 CNN 的平移可变性问题。当在不同的基准(即 WFLW、300W 和 COFW 三个数据集)上进行广泛的实验时,我们的方法的性能要比最新技术好得多。我们提出的方法在 WFLW 数据集上实现 4.05%的归一化平均误差,在 300W 全集上实现 2.93%的归一化平均误差,在 COFW数据集上实现 3.71%的归一化平均误差。
关键词: 人脸对齐,深度学习,传播模块,焦翼损失
图 1: 我们的传播模块的构建块。关键点热图被输入到多个卷积运算中,然后与最后一个沙漏模块的输出特征图连接在一起,由两阶的沙漏模块一起处理,最后通过 Sigmoid 函数进行归一化以形成一个注意力图,该注意力图被加诸于特征图上。
01
导论
旨在定位人脸关键点的人脸对齐在许多面部分析应用中起着至关重要的作用,例如人脸验证和识别[1]、人脸变形[2]、表情识别[3] 以及 3D 人脸重建[4]。最近数年见证了花式脸部对齐算法的不断涌现,这些算法在各种数据集上均具有可观的性能。然而不受限制的情况下的人脸对齐(例如大头部姿态、夸张的表情和不均匀的照明等)多年来仍困扰着研究人员。在众多其他因素中,我们将该不受限的挑战性归因于 CNN 无法学习人脸结构信息:如果 CNN 能够提取图像中人脸的结构,则它可以更准确地预测面部标志,比如人脸被遮挡的部分可以通过脸部的形状推断出对应的关键点。这也是设计ASM[5] 的研究人员的意图。
那么结构信息究竟是什么呢?在我们的工作中,我们认为它是关键点坐标的统计平均值。也许方差会很大(例如不同的头部姿势会带来一定的方差),但关键点坐标仍会受到某种分布,这是因为脸部形状具有相对不可变形性。为了使 CNN 能够学习该信息,我们参考 Wu 等人 [6] 的论文,将其表示为如图2的人脸边界。面部边界可以是下巴线,也可以是面部的外部轮廓,也可能是嘴巴周围的边缘。开源的数据集通常将这些边界用一系列点来进行标注,这是因为它们很难建模一条线。
图 2: 连接关键点以生成人脸边界。
在本文中,我们提出并实施了 3 个创新思想来学习结构信息,即传播模块、焦翼损失和多视野沙漏。
Wu 等人[6] 使用单独的GAN(生成对抗网络)生成器生成面部边界。具体来说,他们将关键点连接成一条模糊的线,并将其指定为将来训练的真实标签。与他们使用独立 CNN 生成面部边界的方式不同,我们设计了传播模块来完成此工作并将其合并到我们的网络体系结构中,从而用计算效率高的传播模块替代更深、更大的 CNN。除了模块在 CNN 中的可嵌入性外,更重要的是边界热图与关键点热图两者是天然关联的。因此,使用一系列卷积运算对连接进行建模并将一定数量的界标(点)传播到边界(曲线)是很直观的。因此,我们将该模块称为传播模块。
数据不均衡是AI 许多领域中的常见问题,人脸对齐领域也是如此。在自然条件下,脸部结构会有所不同。例如,当脸部处于侧脸位置时,下颌线的张开程度不如当脸部正面。而在这两种情况下的数据的比例实际上并不会接近 1 : 1,即正面图像的数量与侧面图像的数量实际上是不相同的。如图3所示,在极端条件下的图像比例相当低,整个训练集和测试集的比例均低于 30%。另一方面,训练集上的百分比与测试集上的百分比大不相同,这意味着适应训练集的学习到的特征可能会误导神经网络以做出错误的预测。因此,这种潜在的非通用特征要求我们更好地设计损耗函数。基于原始的 AWing[7],我们提出了焦翼损失函数,它可以动态调整错误预测的损失,并在训练过程中调整每个批次中每个样本的损失权重(也即是学习率)。这表明我们的训练过程将注意力同时集中在难以学习的人脸结构和易于学习的人脸结构上,因此我们将损失函数称为焦翼损失。
图 3: 极端条件下不同子集图像的百分比。极端情况包括大头姿势、夸张的表情、不均匀的照明、无法识别的化妆、被物体遮挡和拍摄模糊。
通常认为,现代卷积神经网络是平移不变的,在我们的工作中使用的堆叠沙漏也是如此。尽管如此,研究人员已经意识到引入池化层(例如最大池化和平均池化)带来的潜在平移可变性。为了解决这种平移可变性,Zhang[8]提供了抗锯齿CNN的解决方案,该解决方案模仿了传统的抗锯齿信号处理方法,在每次下采样操作(例如池化和跨步卷积)之前应用了低通滤波。在我们的任务中,我们在应用池化层时不会丢失结构信息,因此我们将抗锯齿 CNN 合并到一个特殊的沙漏中,并将其命名为多视野沙漏网。
总之,我们的主要贡献包括:
提出了一个新颖的传播模块,以将关键点热图与边界热图无缝连接,该模块可以自然地内 置到堆叠沙漏模型中;
设计一种称为“焦翼损失”的损失函数,以动态将损失权重分配给特定样本并解决数据不平衡问题;
从其他领域引入抗锯齿 CNN,并将其集成到我们的多视图沙漏模块中,以向我们的网络添加平移不变性和坐标位置信息;
在各种数据集上进行广泛的实验,并对上述方法进行消融研究。
02
相关工作
最近,人脸对齐领域的兴趣主要集中在两种主流方法上,即具有各种模型设计的坐标回归和热图回归。热图回归模型基于全卷积网络(FCN),为每个关键点输出一个热图,并尝试在整个网络中保持结构信息,因此,在某种程度上,其最先进的性能使得坐标回归模型相形见绌。MHM[9] 是这些热图回归模型之一,可连续实现人脸检测和人脸对齐,并利用堆叠的沙漏模型来预测关键点热图。另一个热图回归模型 AWing[7] 修改了 L1 损失以得出所谓的自适应机翼损失,并证明了其在基于 CNN 的人脸关键点定位中的优越性。这两个模型之间的共同点是采用了堆叠式沙漏网络。自从沙漏模型在 [10] 中首次用于人体姿态估计以来,它在关键点检测领域的所有FCN 中都脱颖而出。它的流行度可以归因于其重复的自下而上、自上而下的处理,该处理允许捕获输入图像所有尺度的信息。
图 4: WFLW 测试集上的样本结果。每列均来自 WFLW 的子集,包括大头部姿态、表情、照明、化妆、遮挡和模糊。
图 5: 300W 和 COFW 测试集上的样本。每行展示每个数据集的样本。
首先由 Wu 等人 [6] 提出,然后由 Wang 等人 [7] 等研究人员推广,人脸边界相当于人脸的几何结构,因此可以将结构信息的先验知识注入网络。它可以用于注意力机制(例如LAB[6] 的做法),也可以用于生成边界坐标图(例如 AWing[7] 的做法)。在前一种情况下,LAB 首先利用堆叠沙漏模型生成面部边界图,然后通过特征图融合将边界图合并到回归网络中。在后一种情况下,AWing 将边界预测编码为 x-y 坐标上的掩码,最后为后续卷积生成两个附加特征图。与它们两者不同,我们仅用几次卷积运算而不是复杂的CNN 生成边界热图。
注意力机制在计算机视觉领域中非常受欢迎,因为它带来的额外“注意”可以指导CNN 学习有价值的特征并将其聚焦于这些特征。在我们的工作中,我们希望我们的模型更多地关注边界区域,以便它可以根据边界位置更准确地推断关键点位置。与 LAB[6] 的使用基于 ResNet 块的沙漏生成注意力图的方式不同,我们采用了多视图沙漏,它可以在整个过程中保持结构信息。具体来说,我们添加了分层、并行和多尺度块 [11] 以添加更多大小的感受野,并加入了抗锯齿CNN[8] 以改善平移不变性。较大的感受野意味着我们的模型可以“观察”到脸部的整个结构, 而移动不变性意味着即使相应的脸部图像稍微移动了一点,我们的模型仍然可以正确预测边界热图。此外,我们不必每次将边界热图馈入下一个沙漏时都对边界热图进行下采样,而 LAB 则需要。这是因为我们不想通过下采样而丢失边界信息。
长期以来,基于 CNN 的定位模型通常使用常见的损失函数,例如 L1、L2 和平滑 L1 进行训练。这些损失函数在常见情况下确实有用。但是,Feng 等人 [12] 认为 L2 对异常值敏感,因此与 L1 相形见绌。为了使他们的模型更加关注中小范围误差,他们修改了 L1 损失得到了翼损失,这在关键点坐标回归模型中更为有效。基于翼损失,Wang 等人 [7] 进一步引入了损失函数的适应性,因为他们认为“影响力”(来自可靠统计数据的概念)应与梯度成比例并平衡所有误差。他提出的适应性机翼损失证明在热图回归模型中更有效。
03
方法
基于 Bulat 等人 [11] 提出的的堆叠式沙漏网设计,我们的模型进一步将其与传播模块、抗锯齿块和 CoordConv 集成在一起。每个沙漏网输出给下级沙漏网的特征图和由真实标签监督的关键点热图。接下来的是传播模块,该模块生成边界热图并输出后续沙漏的特征图。图6中显示了整个过程。
图 6: 我们的 PropogationNet 架构概览。首先通过一系列基本特征提取器处理 RGB 图像,然后将其输入几个沙漏模块中,然后将其输入传播模块,以输出边界热图。
表 1: PropagationNet 和其他最新技术在 COFW 测试集上的性能评估。
3.1 关键点到边界传播模块
受注意力机制的启发,关键点到边界传播模块旨在迫使网络对边界区域给予更多的“关注”,以便更准确地预测关键点热图。为此,它首先采用了一系列卷积操作将关键点热图转换为边界热图。这些操作基本上是试图学习如何结合轨迹将关键点热图转换成边界热图。每个边界热图都是通过一组多个 7 × 7 卷积操作生成的。接着该模块将边界热图和来自前沙漏模块的特征图连接起来,将它们输入到两阶段的沙漏模块中,以生成注意力图;最后,它通过注意力图增强了特征图,并将这些特征图传输到后沙漏。如图1所示。
在训练过程中,边界热图的生成过程由真实热图标签监督。至于如何生成真实热图标签,我们只需将相邻关键点连接成直线,然后应用高斯模糊滤波。每个边界都有其语义含义:如图2中所示,位于颚线上的关键点被连接形成轮廓边界,表示下唇的界标被连接以形成另一个边界,依此类推。总共,我们获得了 𝑀 = 15 边界热图。
3.2 焦翼损失
自适应翼损失 [7] 源自机翼损失 [12],基本上是平滑 L1 损失的一种变体,只是用对数曲线代替了平滑二次曲线。它被分段定义为公式 (1),其中 𝐴 = 𝜔 (𝛼 − 𝑦) (𝜃/𝜖 ) 𝛼−𝑦−1 /(1 + (𝜃/𝜖 ) 𝛼−𝑦 )/𝜖和Ω = 𝜃 𝐴 − 𝜔𝑙𝑛 (1 + (𝜃/𝜖 ) 𝛼−𝑦 ) 使得损失函数在 |𝑦 − 𝑦ˆ| = 𝜃 处平滑且连续,𝜔、𝜃、𝛼 和 𝜖 是影响非L1范围及其之间梯度的超参数。
(1)
为了解决数据不平衡问题,我们引入了一个名为焦点因子的因子。对于类 𝑐 和样本 𝑛,其数学定义为:
(2)
其中𝑠(𝑐) 是二进制数:当𝑠(𝑐) =0时,样本𝑛不属于类𝑐; 当𝑠(𝑐) =1时,样本𝑛属于类𝑐。在本文中,属于某个类的样本意味着样本具有第 𝑐 类属性,例如大幅度头部姿态、夸张表情等。
表 2: PropagationNet 和其他最新技术在 300W 测试集上的性能评估。
对于WFLW 数据集,这些属性标记在标注文件中;而对于COFW 和 300W,我们自己手工标记这些属性,并在训练时使用它们。还要注意,“焦点因子”是按批次定义的,这意味着它在训练过程中会发生波动,并且会再次动态调整批次中每个样本的损失权重。此外,权重是来自不同类别的所有焦点因子的总和,如式(3)定义所示,这表明我们打算平衡所有类别的数据,因为面部图像可能会受到多种极端条件的影响,例如大头部姿态的模糊人脸图像。
结果,我们得到了关键点热图的损失:
(3)
其中 𝑁, 𝐶, 𝐾 分别表示批处理大小、类(子集)数和坐标数。在我们的例子中,𝐶 = 6 表示具有6 个属性:头部姿势、表情、照明、化妆、遮挡和模糊; WFLW 数据集中考虑的 98 个关键点的𝐾 = 98。
表 3: PropagationNet 和其他最新技术在 WFLW 测试集上的性能评估。
同样,我们将边界热图预测的损失函数定义为:
(4)
其中 𝑀 表示边界的总数。
最后,我们得到整体损失函数为:
(5)
其中 𝛽 是用于平衡两个任务的超参数。
3.3 多视野沙漏模块
与使用瓶颈块作为构建块的传统沙漏网络不同,我们采用了 Bulat 等人[11] 提出的分层、并行和多尺度残差架构。我们认为该架构由于其多个感受野以及这些感受野可以带来的各种图像比例,因此对关键点定位很有帮助。这意味着我们具有描述人脸较大结构的特征以及每个边界的详细信息。因此,我们将沙漏模块命名为多视图沙漏模块,并将架构本身命名为多视图块,如图6所示。
图 7: WFLW 测试集上的误差累积曲线。NME 和 FR10% 也在图例处显示,作为比较。我们比较了我们的方法和其他开源的最新技术,包括 LAB[6] 和 AWing[7].
另一方面,我们复现了抗锯齿 CNN 来代替传统沙漏网络中使用的池化层。这样做的一个原因是要保持我们网络中的平移不变性,而另一个原因是我们不想丢失由池化层或跨步卷积导致的一些详细信息。
3.4 抗锯齿 CNN 和 CoordConv
在我们的工作中使用 CoordConv[33]来学习完整的平移不变性或平移依赖性的程度。抗锯齿CNN[8]也用于替换我们工作中的池化层或跨步卷积,以保持平移不变性。我们称其为抗锯齿块,如图6所示。
04
实验
4.1 评价指标
归一化平均误差(NME)是一种广泛使用的指标,用于评估人脸关键点定位算法的性能。在考虑到脸部大小的距离上对像素方向的绝对距离进行归一化。用这种方法计算每个关键点的误差,然后取平均以得到最终结果。请参见公式 (6)。
(6)
其中 𝑃, 𝑃ˆ 分别是所有点的真实坐标标签和人脸图像的预测坐标,𝐿 是关键点的总数,𝑝𝑙, 𝑝ˆ𝑙 都是表示第 𝑖 个关键点的xy 坐标的二维向量。特别地,𝑑 是提到的归一化因子,可以是瞳孔间距离, 也可以是眼间距离。后者是我们评估中使用的眼睛内角(不常用)或眼睛外角之间的距离。对于 300W 数据集,将同时应用两个归一化因子。对于 COFW 数据集,我们仅使用瞳孔间距;对于WFLW 数据集,采用了眼间距离。
图 8: 来自 WFLW 测试集的带有生成的边界热图的图像样本。每列都来自不同的子集。
失败率(FR)提供了对人脸对齐算法设计的另一种见解。在每个图像上计算的 NME 的阈值设置为 8% 或 10%。如果一个图像的NME 大于阈值,则将样本视为失败样本。我们从测试集中的失败比率得出FR。
曲线下面积(AUC)是人脸关键点检测算法设计者中又一个流行的度量标准。我们从 CED 曲线得出它:通过绘制从零到 FR 的阈值的曲线,我们得到了一条非负曲线,根据该曲线计算出的面积为AUC。AUC 越大意味着可以更好地预测测试集中的更多样本。
4.2 数据集
我们在3个数据集上进行了模型的训练和测试:具有挑战性的数据集WFLW[6],该数据集由10,000张面孔(用于训练的 7,500 张和用于测试的 2,500 张)组成,带有98个完全手动标注的关键点,可能是迄今为止最大的具有大量关键点标注的面部对齐开源数据集;COFW 数据集[13] 包含 1852 张人脸图像(用于训练的 1,345 张图像和用于测试的 507 张图像),具有 29 个带标注的关键点,并且具有重度遮挡和较大的头部姿态变化;300W [34] 是第一个人脸关键点定位的基准,并且其测试集包括 554 个常见子集样本和 135 个具有挑战性子集的图像。
在 WFLW 数据集上,我们实现了最先进的性能。请参阅表3。与第二个领先的算法 Wing 相比,我们将 3 个指标的 NME 提升了约 20%,将 FR10% 提升了约 51%,将 AUC10% 的指标提高了约 12%。更重要的是,我们在所有子集上的表现均优于其他所有算法,这意味着我们的模型在不同的自然条件下仍然保持鲁棒性。应该特别注意姿势和化妆的子集,我们在这些方面做了很大的改进。来自测试集的一些样本可以在图4中查看。此外,我们还为代码开源的算法绘制了累积误差分布(CED)曲线(见图7),包括 LAB [6] 和 AWing [7]。从图中可以明显看出,我们的 PropNet 曲线在 0.02 和 0.08 之间高于其余两个,这意味着我们能够在WFLW 测试集中预测较大比例图像的人脸关键点。
在 COFW 数据集上,我们的算法优于其他模型。请参阅表1。众所周知,COFW 因遮挡严重且头部姿势变化范围广而闻名,我们领先的 NME 和 FR10% 证明了我们的算法在那些极端情况下仍能保持鲁棒性。这也意味着传播模块能够为网络注入人脸的几何结构,因为在最坏的情况下仅有这种结构得以保存。我们可以在图5中看到它。
在 300W 数据集上,如表2的上方部分所示,与使用眼间归一化因子的其他算法相比,我们的模型在两个子集和完整集上均表现出色。在针对瞳孔间标准化的指标方面,我们在通用集和完整集上具有与其他领先算法相似的指标,但在具有挑战性的集上击败了它们。这表明即使在糟糕的情况下,我们的算法也可以做出合理的预测。这显然在图5中得到了证明。瞳孔间标准化NME 相对较高的一个潜在原因是 300W 用人脸框上的一条平线标注了一些超出边界的面部部分(例如下巴),而不是坚持标出框外。因此,这种标注样式使我们的模型难以学习面部结构。
4.3 实现细节
每个输入图像都被裁剪并调整为 256 × 256,每个沙漏模块的输出特征图为 64 × 64。在我们的网络体系结构中,我们采用四个堆叠的沙漏模块。在训练过程中,我们使用 Adam 优化器来优化神经网络,其初始学习率设置为 1 × 10−4。此外,在训练时实施数据增强:随机旋转(±30◦)、随机缩放(±15%)、随机裁剪(±25𝑝𝑥)和随机水平翻转(50%)。在测试时,我们采用与 [10] 相同的略微修改预测结果的策略,即热图响应最高的坐标向其次第二响应的坐标偏移了四分之一像素。此外,我们根据经验将损失函数中的超参数设置为:𝛼 = 2.1, 𝛽 = 0.5, 𝜔 = 14, 𝜖 = 1.0, 𝜃 = 0.5。
4.4 消融实验
我们的算法由几个关键设计组成,即传播模块(PM)、沙漏模块(MHM)和焦翼损失。在下面的段落中,我们将深入研究这些组件的有效性。为了进行比较,我们使用以ResNet块为基块的堆叠沙漏模型,并以自适应机翼损失进行训练。
表 4: 传播模块(PM)对模型性能的贡献。
传播模块在增强模型性能方面起着重要作用。它对我们的模型进行了最大的改进。我们将基线设置为没有此模块的堆叠沙漏网络。参见表4,将传播模块增强的模型与基准模型进行比较。我们可以观察到 NME(越低越好)、FR(越低越好)和 AUC(越大越好)分别增加了 −6.86%、−7.14%、5.63%。从图8,我们可以看到生成的边界热图的实际结果。它们符合我们的预期,并证实了我们的假设,即可以通过几次连续的卷积运算将关键点热图传播到边界热图。此外,请注意,我们的算法在极端条件下仍保持鲁棒性,尤其是在遮挡人脸时,这意味着结构信息已通过我们的传播模块捕获。
表 5: 与使用瓶颈块(BB)的基线模型相比,多视野沙漏网模块(MHM)对模型性能的贡献。
表 6: 不同高斯核大小的抗锯齿 CNN 应用在 MHM 中的对比。
沙漏模块是一个有效的模块,可以提高我们网络在 WFLW 数据集上的性能。参看表5。与具有瓶颈障碍的基准模型相比,它会将所有三个指标分别提高了-2.91%,-5.95%,3.27%。当针对抗锯齿 CNN 选择高斯核大小时,我们将不同大小与基准模型进行了比较。请参阅表6,我们使用AC-𝑛 表示大小为 𝑛 的高斯核。例如,AC-3 脱颖而出,在其余实验中我们使用大小 3。
表 7: 焦翼损失(FWL)对模型性能的贡献。
焦翼损失也有助于改善我们模型的性能。从表7中可以看出,与使用 AWing 训练的基线模型相比,它增加了三个衡量指标,分别增了-3.53%,-1.19%,1.23%。此外,从表3中我们还可以看到,我们的模型在每个子集上的表现都优于其他最新技术,这意味着数据不平衡得到了有效解决,并且可以在极端条件下保持鲁棒性(见图4)。
表 8: PropNet 和其他最新技术的复杂度
请参阅表8。我们将计算复杂性与一些开源的最新技术进行了比较。从表中可以看出,与其他两个参数和FLOPS 相比,我们拥有更多的参数和FLOPS,这可以解释为什么我们获得了比它们更好的性能。
05
结论
在我们的论文中,我们指出了关键点热图和边界热图之间长期以来被忽略的关系。为此,我们提出了一个传播模块来捕获人脸的结构信息,并弥合关键点热图和边界热图之间的鸿沟。我们在广泛认可的数据集上进行的广泛实验证明了该模块是有效的,并且对改善我们算法的性能很有帮助。
然后,我们通过引入焦点因子,创造性地制定了解决数据不平衡的方法,该因子试图动态适应批次中每个样本的损失权重。正如我们的消融研究表明的那样,它使我们的算法在极端条件下更加鲁棒。
最后,我们还通过合并多视图块和抗锯齿网络来重新设计沙漏网络。多视图块使我们的网络既具有更大的感受野,又具有一般的感受野,而抗锯齿 CNN 使我们的网络保持平移不变性。我们的消融研究证实了其在增强性能方面的有效性。
06
致谢
这项工作是由DiDi GAIA 研究合作计划发起的。
参考文献
[1] WANG M, DENG W. Deep face recognition: A survey[J]. CoRR, 2018, abs/1804.06655.
[2] HASSNER T, HAREL S, PAZ E, et al. Effective face frontalization in unconstrained images[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. [S.l.: s.n.], 2015: 4295-4304.
[3] LI S, DENG W. Deep facial expression recognition: A survey[J]. CoRR, 2018, abs/1804.08348.
[4] DOU P, SHAH S K, KAKADIARIS I A. End-to-end 3d face reconstruction with deep neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. [S.l.: s.n.], 2017: 5908-5917.
[5] COOTES T F, TAYLOR C J, COOPER D H, et al. Active shape models-their training and application[J]. Computer vision and image understanding, 1995, 61(1):38-59.
[6] WU W, QIAN C, YANG S, et al. Look at boundary: A boundary-aware face alignment algorithm[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. [S.l.: s.n.], 2018: 2129-2138.
[7] WANG X, BO L, FUXIN L. Adaptive wing loss for robust face alignment via heatmap regression[J]. arXiv preprint arXiv:1904.07399, 2019.
[8] ZHANG R. Making convolutional networks shift-invariant again[Z]. [S.l.: s.n.], 2019.
[9] DENG J, TRIGEORGIS G, ZHOU Y, et al. Joint multi-view face alignment in the wild[J]. IEEE Transactions on Image Processing, 2019, 28(7):3636-3648.
[10] NEWELL A, YANG K, DENG J. Stacked hourglass networks for human pose estimation[C]//European conference on computer vision. [S.l.]: Springer, 2016: 483-499.
[11] BULAT A, TZIMIROPOULOS G. Binarized convolutional landmark localizers for human pose estimation and face alignment with limited resources[C]//Proceedings of the IEEE International Conference on Computer Vision. [S.l.: s.n.], 2017: 3706-3714.
[12] FENG Z H, KITTLER J, AWAIS M, et al. Wing loss for robust facial landmark localisation with convolutional neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. [S.l.: s.n.], 2018: 2235-2245.
[13] BURGOS-ARTIZZU X P, PERONA P, DOLLÁR P. Robust face landmark estimation under occlusion[C]//Proceedings of the IEEE International Conference on Computer Vision. [S.l.: s.n.], 2013: 1513-1520.
[14] ZHANG Z, LUO P, LOY C C, et al. Facial landmark detection by deep multi-task learning[C]//European conference on computer vision. [S.l.]: Springer, 2014: 94-108.
[15] FENG Z H, KITTLER J, CHRISTMAS W, et al. Dynamic attention-controlled cascaded shape regression exploiting training data augmentation and fuzzy-set sample weighting[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. [S.l.: s.n.], 2017: 2481-2490.
[16] ZHANG J, SHAN S, KAN M, et al. Coarse-to-fine auto-encoder networks (cfan) for real-time face alignment[C]// European conference on computer vision. [S.l.]: Springer, 2014: 1-16.
[17] XIONG X, DE LA TORRE F. Supervised descent method and its applications to face alignment[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. [S.l.: s.n.], 2013: 532-539.
[18] REN S, CAO X, WEI Y, et al. Face alignment at 3000 fps via regressing local binary features[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. [S.l.: s.n.], 2014: 1685-1692.
[19] ZHU S, LI C, CHANGE LOY C, et al. Face alignment by coarse-to-fine shape searching[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. [S.l.: s.n.], 2015: 4998-5006.
[20] ZHANG Z, LUO P, LOY C C, et al. Learning deep representation for face alignment with auxiliary attributes[J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 38(5):918-930.
[21] TRIGEORGIS G, SNAPE P, NICOLAOU M A, et al. Mnemonic descent method: A recurrent process applied for end-to-end face alignment[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. [S.l.: s.n.], 2016: 4177-4187.
[22] XIAO S, FENG J, XING J, et al. Robust facial landmark detection via recurrent attentive-refinement networks[C]// European conference on computer vision. [S.l.]: Springer, 2016: 57-72.
[23] WU Y, JI Q. Robust facial landmark detection under significant head poses and occlusion[C]//Proceedings of the IEEE International Conference on Computer Vision. [S.l.: s.n.], 2015: 3658-3666.
[24] LV J, SHAO X, XING J, et al. A deep regression architecture with two-stage re-initialization for high performance facial landmark detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. [S.l.: s.n.], 2017: 3317-3326.
[25] MIAO X, ZHEN X, LIU X, et al. Direct shape regression networks for end-to-end face alignment[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. [S.l.: s.n.], 2018: 5040-5049.
[26] HONARI S, MOLCHANOV P, TYREE S, et al. Improving landmark localization with semi-supervised learning[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. [S.l.: s.n.], 2018: 1546-1555.
[27] VALLE R, BUENAPOSADA J M, VALDÉS A, et al. A deeply-initialized coarse-to-fine ensemble of regression trees for face alignment[C]//Proceedings of the European Conference on Computer Vision (ECCV). [S.l.: s.n.], 2018: 585-601.
[28] KUMAR A, CHELLAPPA R. Disentangling 3d pose in a dendritic cnn for unconstrained 2d face alignment[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. [S.l.: s.n.], 2018: 430-439.
[29] DONG X, YAN Y, OUYANG W, et al. Style aggregated network for facial landmark detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. [S.l.: s.n.], 2018: 379-388.
[30] TANG Z, PENG X, GENG S, et al. Quantized densely connected u-nets for efficient landmark localization[C]//Proceedings of the European Conference on Computer Vision (ECCV). [S.l.: s.n.], 2018: 339-354.
[31] CAO X, WEI Y, WEN F, et al. Face alignment by explicit shape regression[J]. International Journal of Computer Vision, 2014, 107(2):177-190.
[32] WU W, YANG S. Leveraging intra and inter-dataset variations for robust face alignment[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. [S.l.: s.n.], 2017: 150-159.
[33] LIU R, LEHMAN J, MOLINO P, et al. An intriguing failing of convolutional neural networks and the coordconv solution [Z]. [S.l.: s.n.], 2018.
[34] SAGONAS C, TZIMIROPOULOS G, ZAFEIRIOU S, et al. 300 faces in-the-wild challenge: The first facial landmark localization challenge[C]//Proceedings of the IEEE International Conference on Computer Vision Workshops. [S.l.: s.n.],2013: 397-403.
[35] COOTES T F, EDWARDS G J, TAYLOR C J. Active appearance models[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2001(6):681-685.
[36] CRISTINACCE D, COOTES T F. Feature detection and tracking with constrained local models.[C]//Bmvc: volume 1. [S.l.]: Citeseer, 2006: 3.
[37] GUO X, LI S, ZHANG J, et al. Pfld: A practical facial landmark detector[J]. arXiv preprint arXiv:1902.10859, 2019.
[38] SANDLER M, HOWARD A, ZHU M, et al. Mobilenetv2: Inverted residuals and linear bottlenecks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. [S.l.: s.n.], 2018: 4510-4520.
[39] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. [S.l.: s.n.], 2016: 770-778.
[40] SUN Y, WANG X, TANG X. Deep convolutional network cascade for facial point detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. [S.l.: s.n.], 2013: 3476-3483.
[41] ZHOU E, FAN H, CAO Z, et al. Extensive facial landmark localization with coarse-to-fine convolutional network cascade [C]//Proceedings of the IEEE International Conference on Computer Vision Workshops. [S.l.: s.n.], 2013: 386-391.
[42] ZHANG K, ZHANG Z, LI Z, et al. Joint face detection and alignment using multitask cascaded convolutional networks [J]. IEEE Signal Processing Letters, 2016, 23(10):1499-1503.
[43] IQBAL H. Harisiqbal88/plotneuralnet v1.0.0[EB/OL]. 2018. https://doi.org/10.5281/zenodo.2526396.
[44] KOWALSKI M, NARUNIEC J, TRZCINSKI T. Deep alignment network: A convolutional neural network for robust face alignment[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. [S.l.: s.n.], 2017: 88-97.
[45] DOLLÁR P, WELINDER P, PERONA P. Cascaded pose regression[C]//2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2010: 1078-1085.
[46] JOURABLOO A, LIU X. Pose-invariant 3d face alignment[C]//Proceedings of the IEEE International Conference on Computer Vision. [S.l.: s.n.], 2015: 3694-3702.
[47] YANG H, MOU W, ZHANG Y, et al. Face alignment assisted by head pose estimation[J]. arXiv preprint arXiv:1507.03148, 2015.
[48] RUIZ N, CHONG E, REHG J M. Fine-grained head pose estimation without keypoints[C]//The IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Workshops. [S.l.: s.n.], 2018.
[49] SUN Y, WANG X, TANG X. Hybrid deep learning for face verification[C]//Proceedings of the IEEE international conference on computer vision. [S.l.: s.n.], 2013: 1489-1496.
[50] MASI I, RAWLS S, MEDIONI G, et al. Pose-aware face recognition in the wild[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. [S.l.: s.n.], 2016: 4838-4846.
[51] FABIAN BENITEZ-QUIROZ C, SRINIVASAN R, MARTINEZ A M. Emotionet: An accurate, real-time algorithm for the automatic annotation of a million facial expressions in the wild[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. [S.l.: s.n.], 2016: 5562-5570.
[52] PASZKE A, GROSS S, CHINTALA S, et al. Automatic differentiation in pytorch[C]//NIPS-W. [S.l.: s.n.], 2017.
[53] PENG S, LIU Y, HUANG Q, et al. Pvnet: Pixel-wise voting network for 6dof pose estimation[C]//CVPR. [S.l.: s.n.], 2019.
滴滴AI Labs图像技术部面向出行场景下的计算机视觉技术,研发了包括人脸识别、行人识别、通用视觉,以及视频理解等各种技术,致力于解决出行场景中的交通安全、人身安全、司机服务标准等问题,提升出行安全、出行体验和运营效率。
推荐阅读