【论文整理】CVPR2018 人体姿态相关
来源:程序媛小世界
https://zhuanlan.zhihu.com/p/38328177
CVPR2018 open access::
http://openaccess.thecvf.com/CVPR2018.py
1.手势
First-Person Hand Action Benchmark With RGB-D Videos and 3D Hand Pose Annotations
数据:RGB-D视频序列 45个日常手部类别,超过100K帧, 涉及几种手部中的26个不同物体 使用6D物体,3D手势识别
Depth-Based 3D Hand Pose Estimation: From Current Achievements to Future Goals
任务:单帧3D姿态估计,3D手部追踪,对象交互过程中的手部姿态估计
实验:分析不同CNN结构在手形,联合可视性,视点和衔接分布方面的表现
结论:1)孤立的3D手姿态估计在[70,120]度的视点范围内实现了较低的平均误差(10mm), 但对于极端视角而言,这远远没有解决; 2)3D体积表现优于2D CNN,更好地捕捉深度数据的空间结构; 3)鉴别方法仍然难以推广到看不见的手形; 4)虽然联合遮挡对大多数方法提出了挑战, 但结构约束的显式建模可以显着缩小可见和闭塞关节上的误差之间的差距。
Dense 3D Regression for Hand Pose Estimation
思想:单个深度帧进行3D手势估计,用于密集像素估计
方法:1)分解姿态参数 = 2D热图 + 3D热图 + 单位3D方向矢量场 2)端对端训练(多任务网络级联进行估计) = 2D/3D联合热图 + 3D联合偏移 3) 像素方式的估计可以直接转化为投票方案。 4) 使用均值漂移的变体来汇总局部投票, 并明确地处理全局3D估计, 以逐像素方式进行2D和3D估计。
效果:MSRA和NYU hand数据集,ICVL hand数据集
Gesture Recognition: Focus on the Hands
创新:空间通道集中于手部,通道稀疏网络进行融合效果更好。
效果:ChaLearn IsoGD数据集的性能67.71%提高到82.07%, NVIDIA数据集的性能从83.8%提高到91.28%。
Hand PointNet: 3D Hand Pose Estimation Using Point Sets
输入:归一化的点云;
输出:精确地回归3D手部姿态的低维表示
创新点:不使用CNN,而是模拟手可见表面的三维点云以进行姿态回归 设计指尖细化网络, 直接将估计的指尖位置的相邻点作为输入来细化指尖位置。
Cross-Modal Deep Variational Hand Pose Estimation
方法:通过生成的深度神经网络来学习由跨模态训练的潜在空间表示的统计手模型。
创新:1)目标函数 = VAE框架的变分下界,跨模态KL散度,后向重建目标 多模态空间 = RGB图像,2D关键点检测,3D手形配置 2)半监督估计RGB图像的3D手势 3)不需要改变图像深度,效果良好可与论文比较 4)模型是完全生成的,可以在不同的模式下合成一致的手对配置
Augmented Skeleton Space Transfer for Depth-Based Hand Pose Estimation
思想:1)不使用深度图合成数据,使用骨架图合成数据; 2)使用骨架图生成深度图 3)生成对抗网络->手姿的手姿识别器(HPD) 4)手形成生成器(HPG)+ 3D手姿势估计器(HPE)配合训练
GANerated Hands for Real-Time 3D Hand Tracking From Monocular RGB
贡献:解决单目RGB序列的实时3D手部跟踪
方法:1)卷积神经网络 + 运动学3D手模型 2)CNN:基于几何一致的图像到图像平移网络的合成生成训练数据的新方法 3)将合成图像转换为“真实”图像的神经网络, 使得如此生成的图像遵循与真实世界手图像相同的统计分布。 为了训练这个翻译网络, 我们将对抗性损失和循环一致性损失与几何一致性损失相结合, 以便在翻译过程中保留几何特性(例如手势)
2.姿态估计和预测 Estimation/Predict
2.1 人体姿势
Learning to Estimate 3D Human Pose and Shape From a Single Color Image
方法:1)端到端框架内引入参数化统计人体形状模型(SMPL) ->获得非常详细的三维网格结果, ->同时仅需要估计少量参数, ->使其对直接网络预测更为友好 2)从2D关键点和掩模才能可靠地预测这些参数 3)根据估计的参数生成3D网格,并使用3D每顶点损耗为曲面显式优化。 4)采用可微分渲染器将3D网格投影到图像上, 通过优化投影与2D注释(即2D关键点或掩模)的一致性, 可以进一步细化网络。
Recognizing Human Actions as the Evolution of Pose Estimation Maps
思想:姿态估计图 = 热图的演变(概率图)+ 估计的2D人体姿态的演变(身体形状和身体姿势的变化)
热图:热图的稀疏性质 ->开发了空间等级汇集以将热图的演变作为一个体形演化图像进行聚合。
姿态图:身体形态演化图像不能区分身体部位 ->设计身体引导采样来将姿势的演变作为身体姿态演化图像进行聚合。
汇总:通过深度卷积神经网络来预测两种图像之间的互补特性以预测动作标签。
数据:NTU RGB + D,UTD-MHAD和PennAction数据集
Human Pose Estimation With Parsing Induced Learner
方法:解析诱导学习器 = 解析编码器+姿态模型参数适配器 一起学习预测姿态模型的动态参数以提取互补的有用特征以用于更精确的姿态估计。
效能:基准LIP和扩展PASCAL-Person-Part
Monocular 3D Pose and Shape Estimation of Multiple People in Natural Scenes - The Importance of Multiple Scene Constraints
方法:1)推断2D和3D姿态,多个人的形状, 依靠模型和图像层面的详细语义表示,指导使用前馈和反馈组件进行组合优化 2)自动地整合场景约束,包括地平面支持和多人同时占用的体积 3)通过最优地解决时间人员分配问题并施加相干时间姿态和运动重建, 同时保持图像对准,将单个图像模型扩展为视频保真度。
效果:1)解决时间人员分配问题并施加相干时间姿态和运动重建, 同时保持图像对准保真度,将单个图像模型扩展到视频。 2)方法应用于具有多个人的图像, 严重的遮挡和在具有挑战性的自然场景中捕获的不同背景, 并获得良好的感知质量结果
Jointly Optimize Data Augmentation and Network Training: Adversarial Data Augmentation in Human Pose Estimation
思想:随机数据增强避免训练深度模型过度拟合
方法:生成器(例如增强网络), 通过在线生成硬性示例来与竞争对手(如目标网络)竞争。 该生成器探索鉴别器的弱点,而鉴别器从硬增强学习以获得更好的性能。 奖励/惩罚策略也被提出用于有效的联合训练。
V2V-PoseNet: Voxel-to-Voxel Prediction Network for Accurate 3D Hand and Human Pose Estimation From a Single Depth Map
思想:采用2D深度图并直接对关键点(如手或人体关节)的3D坐标进行回归
传统:1)将深度图视为2D图像 2)缺点:通过从3D空间投影到2D空间来扭曲实际物体的形状。 这迫使网络执行透视失真不变估计 3)缺点:从2D图像直接回归3D坐标是非常非线性的映射,这在学习过程中造成困难。
方法:1)将3D手和人体姿势估计问题从单个深度图转换为使用3D体素化网格, 估计每个关键点的每体素可能性的体素 - 体素预测。 2)将模型设计为3D CNN,可在实时运行时提供准确的估计值。
PoseTrack: A Benchmark for Human Pose Estimation and Tracking
传统:1)很难在具有多人的逼真视频上表现良好, 2)经常不能输出随着时间推移一致的身体姿态轨迹。
方法:1)单帧多人姿态估计, 2)视频中的多人姿态估计, 3)多人连接跟踪。
Cascaded Pyramid Network for Multi-Person Pose Estimation
问题:闭塞的关键点,不可见的关键点和复杂的背景
阶段:1)GlobalNet是一个功能金字塔网络, 可以成功定位眼睛和手等“简单”关键点, 但可能无法精确识别被遮挡或不可见的关键点。 2)RefineNettries通过整合来自Global-Net的所有级别的特征 表示以及在线硬关键点采矿损失来明确处理“硬”关键点。
方法:为了解决多人姿势估计问题, 采用自顶向下的管线首先基于检测器生成一组人类边界框, 然后用CPN在每个人体边界框中进行关键点定位。
效果:COCO 60.5->73.0/72.1
Ordinal Depth Supervision for 3D Human Pose Estimation
创新:1)人体关节序数深度提供的较弱监督信号 2)流行的深度标注来扩充流行的LSP和MPII数据集
Through-Wall Human Pose Estimation Using Radio Signals
场景:通过墙壁和遮挡进行精确的人体姿态估计。 利用WiFi频率中的无线信号穿越墙壁并反射人体的事实。
思想:深度神经网络方法来分析这种无线电信号以估计2D姿势
创新:跨模态监督 1)训练:同步的无线和视觉输入,从视频流中提取姿势信息 2)训练完成:网络仅使用无线信号进行姿态估计
视频:http://rfpose.csail.mit.edu
.
Learning Monocular 3D Human Pose Estimation From Multi-View Images
方法:1)多个视图来替换大多数注释,训练系统预测所有视图中的相同姿势。 2)监督损失预测一小组标记图像中的正确姿势, 并用正则化术语来惩罚初始预测中的偏移。 3)提出了一种与人体姿势一起估计相机姿态的方法, 该方法可让我们利用多视图素材难以校准的情况, 例如,用于平移或移动手持相机。
效果:带有旋转摄像头和专业滑雪运动的全新Ski数据集
2.2 其他姿势
Detect-and-Track: Efficient Pose Estimation in Videos
Feature Mapping for Learning Fast and Accurate 3D Pose Inference From Synthetic Images
DensePose: Dense Human Pose Estimation in the Wild
3D Human Pose Estimation in the Wild by Adversarial Learning
3D Pose Estimation and 3D Model Retrieval for Objects in the Wild
RotationNet: Joint Object Categorization and Pose Estimation Using Multiviews From Unsupervised Viewpoints
2D/3D Pose Estimation and Action Recognition Using Multitask Deep Learning
Learning Pose Specific Representations by Predicting Different Views
Real-Time Seamless Single Shot 6D Object Pose Prediction
Multi-View Consistency as Supervisory Signal for Learning Shape and Pose Prediction
3.与姿态相关的其他任务
3.1 合成 Synthesis
Multistage Adversarial Losses for Pose-Based Human Image Synthesis
Synthesizing Images of Humans in Unseen Poses
Unsupervised Person Image Synthesis in Arbitrary Poses
End-to-End Recovery of Human Shape and Pose
Deformable GANs for Pose-Based Human Image Generation
3.2 相机机位 Camera
GeoNet: Unsupervised Learning of Dense Depth, Optical Flow and Camera Pose
Hybrid Camera Pose Estimation
Camera Pose Estimation With Unknown Principal Point
3.3 人脸 Face
Super-FAN: Integrated Facial Landmark Localization and Super-Resolution of Real-World Low Resolution Faces in Arbitrary Poses With GANs
Disentangling 3D Pose in a Dendritic CNN for Unconstrained 2D Face Alignment
Joint Pose and Expression Modeling for Facial Expression Recognition
Towards Pose Invariant Face Recognition in the Wild
Pose-Robust Face Recognition via Deep Residual Equivariant Mapping
UV-GAN: Adversarial Facial UV Map Completion for Pose-Invariant Face Recognition
Pose-Guided Photorealistic Face Rotation
Total Capture: A 3D Deformation Model for Tracking Faces, Hands, and Bodies
3.4 其他
Weakly and Semi Supervised Human Body Part Parsing via Pose-Guided Knowledge Transfer
A Certifiably Globally Optimal Solution to the Non-Minimal Relative Pose Problem
Fight Ill-Posedness With Ill-Posedness: Single-Shot Variational Depth Super-Resolution From Shading
Factoring Shape, Pose, and Layout From the 2D Image of a 3D Scene
A Pose-Sensitive Embedding for Person Re-Identification With Expanded Cross Neighborhood Re-Ranking
Improving Occlusion and Hard Negative Handling for Single-Stage Pedestrian Detectors
End-to-End Learning of Keypoint Detector and Descriptor for Pose Invariant 3D Matching
Non-Blind Deblurring: Handling Kernel Uncertainty With CNNs
Pose Transferrable Person Re-Identification
LSTM Pose Machines
MX-LSTM: Mixing Tracklets and Vislets to Jointly Forecast Trajectories and Head Poses
PoseFlow: A Deep Motion Representation for Understanding Human Behaviors in Videos
PoTion: Pose MoTion Representation for Action Recognition
Analysis of Hand Segmentation in the Wild
*推荐文章*
DensePose开源了,2D变3D人体姿势实时识别 | Facebook@CVPR 2018
MIT发明可以改变图中人姿态的模型,以后可以“假装在健身”了
PS.极市平台诚招计算机视觉算法工程师啦~工作要求请关注“极市平台”公众号(id:extrememart),点击菜单加入极市“诚招”栏或直接私信小助手(微信:Extreme-Vision),欢迎大牛来戳~