查看原文
其他

ECCV2018论文Express | 单幅RGB图像整体三维场景解析与重建(附原文下载)

极市平台 2019-04-21

极市平台(ExtremeMart)是深圳极视角旗下的专业视觉算法开发与分发平台,为开发者提供行业场景集,每月上百真实项目需求,算法分发,技术共享等,旨在联合开发者建立起良好的计算机视觉生态。已与上百名开发者建立了合作并转化了上百种视觉算法。

为加速广大开发者视觉算法的转化及变现,极市开启了有奖视觉demo征集活动,通过测试的优秀demo(不需要源码!)提交者将会得到丰厚奖励和更多合作机会点击了解详情

来源:大数据文摘


只用一张图就能重建三维场景!这项神奇的研究由加州大学洛杉矶分校(UCLA)的六位学者完成,并已被欧洲计算机视觉国际会议(ECCV)采纳。



我们对论文的精华编译如下:


人类视觉的复杂性和丰富性不仅体现在识别可见物体的能力上,而且体现在解释潜在的不确定信息上,包括推断潜在的人类语境在场景中的功能 ,重建三维分层几何结构,遵守物理约束并保证物理上合理的场景配置。对室内场景的这种丰富的理解是构建智能计算系统的本质,其超越了主要基于外观和几何的识别任务,而是考虑的是对观察到的图像或图案更深层次的推理。


一个有希望的方向是合成分析或“视觉反转图形”这两种方法。在这个范例中,计算机视觉被视为与计算机图形相反的逆问题,其目标是对产生观察图像的物理过程中隐藏的因素进行逆向工程。


图1:通过合成分析这种方法所展现出的整体3D室内场景解析和重建。


3D表示由各个视觉模块初始化(例如对象检测和2D布局估计)。 联合推理算法将渲染的法线,深度和分割图之间的差异与输入估计后的RGB图像的差异进行比较,并不断迭代调整3D结构。


我们提出了一种计算框架,将视觉概念作为逆图形,使用随机语法模型(stochastic grammar model),联合解析(jointly parse)单幅RGB图像,重建出由一组CAD模型组成的整体3D结构。


图1示意性地说明了合成分析推理过程。联合推理算法从各种视觉模块中获取建议,并通过比较从恢复的3D结构渲染的各种投影(深度,法线,分割)与从输入图像直接估计的投影来推断3D结构。


具体来说,我们利用一种整体场景语法(Holistic Scene Grammar, HSG)来展现3D场景结构,它表征了室内场景在功能空间和几何空间上的联合分布。HSG捕捉了室内场景中三个必要的隐含维度:1.隐含的人类背景,描述房间布置的功能可见性,2.场景结构的几何约束,3.物理约束,这保证了物理上合理的解析与重建。


我们以综合分析的方式来解决这个联合解析与重建的问题,寻求在深度空间,曲面法线和对象分割图上最小化输入图像与生成的渲染图像之间的差异。


使用马尔可夫链蒙特卡罗(Markov chain Monte Carlo, MCMC)推测出由解析图表示的最优结构,其有效地遍历不可微的解空间,共同优化物体定位,3D布局和隐含的人类背景。实验结果表明,该算法提高了泛化能力,在3D布局估计,三维物体检测和整体场景理解方面明显优于现有方法。


译者注:功能空间,指房间的层级结构,包含活动分区;几何空间 ,指CAD模型。


图2: 用HSG分析图展现的一个室内情景。函数空间描述了阶级结构,几何空间表示了空间物体和背景关系。


如图2所示,我们的HSG将场景分解为功能空间中的潜在组(包括活动组的分层结构)和几何空间中的对象实例(CAD模型)。对于功能空间,与仅模拟物-物关系的传统方法相比,我们提出了一种通过在活动组中想象潜在的人来进一步帮助解释和解析观察到的图像来模拟人-物关系的新方法。


对于几何空间,各个对象的几何属性(大小,位置,方向)在我们考虑范围之内,以及它们之间的几何关系(支持关系)。另外,结合物理约束(对象之间的碰撞,违反布局)生成观察图像并进行物理上可信的3D解析和重建。


使用最大后验概率估计(MAP)这种方法,是为了找到解析和重建所观察图像的最优解。在MAP这种方法中,我们可以利用相似度来测量所观察的图像和通过pg投影到各种2D空间上的渲染图像之间的相似性。


因此,可以通过基于后验概率(MAP)这种方法,对MCMC进行采样来不断迭代和细化解析图(pg)。我们通过将重建的3D室内房间与实际的室内房间进行比较来评估我们在大规模RGB-D数据集上的方法。


本文有五个主要的贡献:

1. 我们集成了几何和物理两个维度,用CAD模型解释和重建室内场景。联合优化了3D房间布局和物体的结构,大大提高了在SUN RGB-D数据集 [45] 上进行场景解析和重建的性能。


2. 我们将隐含的人类背景(即功能区)纳入我们的语法模型,通过分组和抽样,能够猜想出每个活动区间中的潜在人类姿势。通过这种方式,我们可以优化场景中可见和不可见 [48] 分量的联合分布。


3. 我们提出了一个完整的计算框架,将生成模型(即随机语法),判别模型(即深度,法线和分割图的直接估计)和图形引擎(即渲染图像)在场景解析与重建中结合起来。


4. 据我们所知,我们最先使用了推测出的深度,曲面法线和对象分割图来帮助解析和重建3D场景(包括房间布局和多个物体)。请注意,文献 [49] 对单个物体使用了类似的中间表示。


5. 通过学习物体之间的支撑关系(supporting relations),所提出的方法消除了先前工作中广泛采用的假设,即所有物体必须立在地面上。模型的这种灵活性可以更好地解析和重建具有复杂对象关系的真实世界场景。


点击“阅读原文”查看完整论文。






*推荐阅读*

ECCV 2018 | 上海交通大学ECCV 2018四篇入选论文解读(附原文下载)

ECCV18 Oral | MIT&谷歌视频运动放大让计算机辅助人眼“明察秋毫”


为加速广大开发者视觉算法的转化及变现,极市开启了有奖视觉demo征集活动,通过测试的优秀demo(不需要源码!)提交者将会得到丰厚奖励和更多合作机会,点击了解详情


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存