近期人脸对齐的实证性研究
本次推送参考文献《An Empirical Study of Recent Face Alignment Methods》
人脸对齐方法的发展具有以下5个里程碑的阶段:
1、1995 年Cootes 的ASM算法;
2、1998 年Cootes 的AAM算法;
3、2006 年cristinacce 的CLM算法(Constrained Local Model);
4、2010 年Dollar 的cascaded Regression算法;
5、2013年 Sun 首次将深度学习方法CNN应用到人脸特征点定位上。
现在的人脸对齐有三种方法:
基于局部方法(local-basedmethods);
基于全局的方法(holistic-basedmethods);
基于混合的方法。
注:ASM,AAM不包括在内
一、基于局部方法(Local-based methods)
基于局部方法通常有两种:Local expert和Spatial shape model 。Local expert重点描述特征点附近图像的样子,Spatial shape model 重点描述脸部形状的变化。
1.1、Local expert主要由以下三类:
1)基于分类方法,例如一般基于Gabor特征或SIFT特征的SVM,基于DRMF的字典学习(Dict.L)和多通道关联滤波器(CF);
2)基于回归的方法,例如支持向量回归(SVR)和连续条件随机场(CCNF);
3)基于投票的方法。
1.2、Shape model
比较典型的就是CLM(局部约束模型),还有其他的比如RANSAC,图匹配,高斯牛顿可变性部分模型(GNDPM),混合树模型以及层次可能性模型(HPM)。
基于局部方法不足之处:
当特征点较多是,计算量大;
难以平衡局部响应与全局约束。
表1 Local-based methods
二、基于全局的方法(holistic-based methods)
当前大多数基于全局的方法都是从粗到精的方式进行工作的。如形状估计一般开始与初始形状S0,通过T个回归器级联逐步地对形状进行微调,然后获得最终形状。
文献利用了如下伪代码过程实现:
尽管当前提出了许多策略,但大多数策略都是基于上面的那个框架,只不过这些方法的区别主要在这三个方面:
1)初始化设置不同;
2)shape-indexed特征不同;
3)回归器的不同;不过特征提取和回归器通常是相互依赖的。
初始化:对于基于形状回归的方法初始化主要有三种策略:random,mean shape以及supervised。这里说一下,基于supervised初始化策略通常通过一个辅助模型(比如ConvNet)计算初始化模型。
Shape indexed特征:当前有大量的不同的图像特征用来作为Shape indexed特征,包括灰度像素差值,手工特征(SIFT或HOG等),学习特征(使用自编码器或ConvNet)
回归器:回归器也有许多不同的构建方法,比如:随机厥 random ferns,随机森林random forests,支持向量回归SupportVector Regressor,监督梯度下降法Supervised Descent Method(SDM) 以及他的扩展方法。当前,也有许多人将深度学习的框架应用到人脸对齐的问题上,这种方法一般都是一种基于全局的(holistic),从粗到精(coarse-to-fine)的方式。
表2 Holistic-based methods and their properties
值得注意的是,特征和回归器的结合无非就是两种:non-linear features + linear regression以及linear features + non-linear regression,这是因为从Image到Face Pose的Mapping过程就是一个非线性的过程。
三、基于混合的方法
基于混合的方法用的比较多的就是脸部遮挡检测occlusion detection,结合Local和Holistic-based、弱监督方法,统一的人脸检测和校准方法,活跃的图案模型等,由于他们不同的环境和有限的空间,把他们作为未来工作的比较。
四、数据集准备和评价指标
数据集
本文献使用了300W++数据集,下面给大家提供更多相关领域的数据集,希望对大家有一些帮助:
■Annotated Database (Hand, Meat, LV Cardiac, IMM face) (http://www2.imm.dtu.dk/~aam/)
■AR Face Database (http://cobweb.ecn.purdue.edu/~aleix/aleix_face_DB.html)
■BioID Face Database (http://www.bioid.com/downloads/facedb/index.php)
■Caltech Computational Vision Group Archive (Cars, Motorcycles, Airplanes, Faces, Leaves, Background) (http://www.vision.caltech.edu/html-files/archive.html)
■Carnegie Mellon Image Database (motion, stereo, face, car, ...) (http://vasc.ri.cmu.edu/idb/)
■CAS-PEAL Face Database (http://www.jdl.ac.cn/peal/index.html)
■CMU Cohn-Kanade AU-Coded Facial Expression Database (http://www.ri.cmu.edu/projects/project_421.html
■CMU Face Detection Databases (http://www.ri.cmu.edu/projects/project_419.html)
■CMU Face Expression Database (http://amp.ece.cmu.edu/projects/FaceAuthentication/download.htm)
■CMU Face Pose, Illumination, and Expression (PIE) Database (http://www.ri.cmu.edu/projects/project_418.html)
■CMU VASC Image Database (motion, road sequences, stereo, CIL’s stereo data with ground truth, JISCT, face, face expressions, car) (http://www.ius.cs.cmu.edu/idb/)
■Content-based Image Retrieval Database (http://www.cs.washington.edu/research/imagedatabase/groundtruth/)
■Face Video Database of the Max Planck Institute for Biological Cybernetics (http://vdb.kyb.tuebingen.mpg.de/)
■FERET Database (http://www.frvt.org/)
■FERET Color Database (http://www.itl.nist.gov/iad/humanid/colorferet/home.htmlhttp://face.nist.gov/colorferet/ )
■Georgia Tech Face Database (http://www.anefian.com/face_reco.htm)
■German Fingerspelling Database (http://www.anefian.com/face_reco.htm)
■Indian Face Database (http://www.cs.umass.edu/~vidit/IndianFaceDatabase)
■MIT-CBCL Car Database (http://cbcl.mit.edu/software-datasets/CarData.html)
■MIT-CBCL Face Recognition Database (http://cbcl.mit.edu/software-datasets/heisele/facerecognition-database.html)
■MIT-CBCL Face Databases (http://cbcl.mit.edu/software-datasets/FaceData2.html)
■MIT-CBCL Pedestrian Database (http://cbcl.mit.edu/software-datasets/PedestrianData.html)
■MIT-CBCL Street Scenes Database (http://cbcl.mit.edu/software-datasets/streetscenes/)
■NIST/Equinox Visible and Infrared Face Image Database (http://www.equinoxsensors.com/products/HID.html)
■NIST Fingerprint Data at Columbia (Link)
■ORL Database of Faces (http://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html)
■Rutgers Skin Texture Database (http://www.caip.rutgers.edu/rutgers_texture/)
■The Japanese Female Facial Expression (JAFFE) Database (http://www.kasrl.org/jaffe.html
■The Ohio State University SAMPL Image Database (3D, still, motion) (http://sampl.ece.ohio-state.edu/database.htm)
■The University of Oulu Physics-Based Face Database (http://www.ee.oulu.fi/research/imag/color/pbfd.html)
■UMIST Face Database (http://images.ee.umist.ac.uk/danny/database.html)
■USF Range Image Data (with ground truth) (http://marathon.csee.usf.edu/range/DataBase.html)
■Usenix Face Database (hundreds of images, several formats) (Link)
■UCI Machine Learning Repository (http://www1.ics.uci.edu/~mlearn/MLSummary.html)
■USC-SIPI Image Database (collection of digitized images) (http://sipi.usc.edu/services/database/Database.html)
■UCD VALID Database (multimodal for still face, audio, and video) (http://ee.ucd.ie/validdb/)
■UCD Color Face Image (UCFI) Database for Face Detection (http://ee.ucd.ie/~prag/)
■UCL M2VTS Multimodal Face Database (http://www.tele.ucl.ac.be/PROJECTS/M2VTS/m2fdb.html)
■Vision Image Archive at UMass (sequences, stereo, medical, indoor, outlook, road, underwater, aerial, satellite, space and more) (http://sipi.usc.edu/database/)
■Where can I find Lenna and other images? (http://www.faqs.org/faqs/compression-faq/part1/section-30.html)
■Yale Face Database (http://cvc.yale.edu/projects/yalefaces/yalefaces.html)
■Yale Face Database B (http://cvc.yale.edu/projects/yalefaces/yalefaces.html)
目前人脸识别领域常用的人脸数据库主要有:
1. FERET人脸数据库
由FERET项目创建,包含14,051张多姿态,光照的灰度人脸图像,是人脸识别领域应用最广泛的人脸数据库之一.其中的多数人是西方人,每个人所包含的人脸图像的变化比较单一.
2. MIT人脸数据库
由麻省理工大学媒体实验室创建,包含16位志愿者的2,592张不同姿态,光照和大小的面部图像.
3. Yale人脸数据库
由耶鲁大学计算视觉与控制中心创建,包含15位志愿者的165张图片,包含光照,表情和姿态的变化.
4. Yale人脸数据库B
包含了10个人的5,850幅多姿态,多光照的图像.其中的姿态和光照变化的图像都是在严格控制的条件下采集的,主要用于光照和姿态问题的建模与分析.由于采集人数较少,该数据库的进一步应用受到了比较大的限制.
5. PIE人脸数据库
由美国卡耐基梅隆大学创建,包含68位志愿者的41,368张多姿态,光照和表情的面部图像.其中的姿态和光照变化图像也是在严格控制的条件下采集的,目前已经逐渐成为人脸识别领域的一个重要的测试集合.
6. ORL人脸数据库
由剑桥大学AT&T实验室创建,包含40人共400张面部图像,部分志愿者的图像包括了姿态,表情和面部饰物的变化.该人脸库在人脸识别研究的早期经常被人们采用,但由于变化模式较少,多数系统的识别率均可以达到90%以上,因此进一步利用的价值已经不大.
7. PF01人脸数据库
由韩国浦项科技大学创建,包含103人的1,751张不同光照,姿态,表情的面部图像,志愿者以韩国人为主.
8. AR人脸数据库
由西班牙巴塞罗那计算机视觉中心建立,包含116人的3,288幅图像.采集环境中的摄像机参数,光照环境,摄像机距离等都是严格控制的.
9. BANCA人脸数据库
该数据库是欧洲BANCA计划的一部分,包含了208人,每人12幅不同时间段的面部图像.
10. KFDB人脸数据库
包含了1,000人,共52,000幅多姿态,多光照,多表情的面部图像,其中姿态和光照变化的图像是在严格控制的条件下采集的.志愿者以韩国人为主.
11. MPI人脸数据库
该人脸数据库包含了200人的头部3维结构数据和1,400幅多姿态的人脸图像.
12. XM2VTS人脸数据库
包含了295人在4个不同时间段的图像和语音视频片断.在每个时间段,每人被记录了2个头部旋转的视频片断和6个语音视频片断.此外,其中的293人的3维模型也可得到.
人脸检测方法:
OpenCV自带的基于Harr特征的V-Jdetector;
基于HOG+SVM特征的dlib;
doppia库的三种人脸检测方法(DPM,HeadHunter和HeadHunter_baseline)。
上面几种人脸检测效果中doppia库提供的人脸检测效果最好,顺便提一下,doppia库除了有比较好的人脸检测算法之外还有行人检测算法DPM, DPM应该算是的传统机器学习模式(非深度学习)下行人检测效果最好的算法。
文献中有对常用的几种人脸检测算法进行对比:
图1 卷积架构的失踪人脸检测
图2 在样本图像上的不同人脸检测
表1 ConvNet的人脸回归
图3 在300W+数据集中的人脸边界框
A new evaluation metric: AUCα
图1 不同值(α = 0.1 and α = 0.2)对应的 AUCα
其中,定义如下:
五、现成模型的基本比较
图5 基于最佳人脸检测器的不同方法性能比较。
Face centre shifts
图6 人脸中心位移实验。(a)人脸中心移位合成;(b)AUC0.2 VS. 人脸中心移
Face scale changes
图7 人脸尺度变化实验。(a)用红色阴影突出的原始脸边框;(b)AUC0.2 VS. 人脸尺度变化
六、灵敏度分析
图8 灵敏度与Face centre shifts和Face scale changes的重新训练模型
重要因素:
Initialisation(初始化);
Cascade levels(级联水平)。
图9 重要因素评价
总结:
本文献主要讲解了最近的人脸对齐方法的实证研究。首先扩展了300W数据集,并形成了300W ++数据集,并具有更实用的人脸检测。然后,提出了一个新的人脸对齐评估标准AUCα,这是非常有效的衡量一个单一的性能价值。
在此基础上,对几种代表性人脸定位方法,包括现成模型和重训练模型进行了敏感性分析和比较研究。还研究了级联人脸对齐中的几个有影响的方面。从一个全面的实证研究中,得出了当前人脸对齐方法的有用结论,并为实际应用提出了深刻的见解。
由于空间有限,本次没有研究人脸对齐的几个方面:例如训练数据对模型性能的影响如何?一个方法的可扩展性如何?如何增强对初始化变化的鲁棒性?这些想法都很有趣,接下来我们都可以在未来的工作中去进行研究学习。