在科学研究中,从方法论上来讲,都应“先见森林,再见树木”。当前,人工智能学术研究方兴未艾,技术迅猛发展,可谓万木争荣,日新月异。对于AI从业者来说,在广袤的知识森林中,系统梳理脉络,才能更好地把握趋势。为此,我们精选国内外优秀的综述文章,开辟“综述专栏”,敬请关注。
链接:https://arxiv.org/abs/2205.10468https://github.com/VLISLAB/360-DL-Survey本综述来自于香港科技大学(广州)王林团队,对现有的深度学习在全景视觉上的应用进行了全面的回顾,并提供了一些新的观点以及对全景视觉未来的应用展望。本文首先对全景图像的成像进行了分析,紧接着对现有的在全景图像上的卷积方式进行了分类介绍,并对现有的全景图像数据集进行了收集并介绍。作为第一篇全面回顾和分析深度学习方法在全景图像应用上的综述,我们汇总并分析对比了在众多视觉任务上现有深度学习方法的相同与差异。最后,我们提供了一些全景图像的新的应用方向的研究思路,以供研究者参考讨论。1、Abstract
全向图像(ODI)数据是用360x180的视场捕获的,该视场比针孔相机宽得多,并且包含比传统平面图像更丰富的空间信息。因此,全景视觉因其在自动驾驶和虚拟现实等众多应用中更具优势的性能而引起了人们的广泛关注。近年来,客户级360相机的出现使得全景视觉更加流行,深度学习(DL)的进步显著激发了其研究和应用。本文对深度学习方法在全景视觉方面的最新进展进行了系统、全面的综述和分析。作者的工作包括四个主要内容:(一)介绍全向成像原理,ODI上的卷积方法,以及数据集,以突出与2D平面图像数据相比的差异和困难;(二) 用于全景视觉的远程学习方法的结构和层次分类;(三) 总结最新的新学习战略和应用;(四) 通过强调潜在的研究方向,对挑战和悬而未决的问题进行有见地的讨论,以促进社区中的更多研究。2、Introduction
随着3D技术的飞速发展和对逼真视觉体验的追求,对计算机视觉的研究兴趣逐渐从传统的2D平面图像数据转向全向图像(ODI)数据,也称为360图像、全景图像或球形图像数据。由360摄像机捕获的ODI数据产生360x180视场(FoV),这比针孔相机宽得多;因此,它可以通过反射比传统平面图像更丰富的空间信息来捕获整个周围环境。由于沉浸式体验和完整视图,ODI数据已广泛应用于众多应用,例如增强现实(AR)/虚拟现实(VR),自动驾驶和机器人导航。通常,原始ODI数据表示为等距柱状投影(ERP)或立方体图投影(CP)以与成像管道一致。作为一个新颖的数据领域,ODI数据既具有领域独特的优势(球面成像的宽FoV,丰富的几何信息,多种投影类型)也具有挑战性(ERP类型中的严重失真,CP格式的内容不连续性)。这使得对全景视觉的研究变得有价值,但具有挑战性。最近,客户级360相机的出现使全景视觉更加普及,深度学习(DL)的进步极大地促进了其研究和应用。特别是作为一项数据驱动的技术,公共数据集的持续发布,包括:SUN360、Salient 360、Stanford2D3D、Pano-AVQA和PanoContext数据集等等,已经迅速使深度学习方法取得了显著的突破,并经常在各种全景视觉任务上实现最先进的(SoTA)性能。此外,还开发了各种基于不同架构的深度神经网络(DNN)模型,从卷积神经网络(CNN),递归神经网络(RNN),生成对抗网络(GAN),图神经网络(GNN),到vision Trasnformer(ViTs)。一般来说,SoTA-DL方法侧重于四个主要方面:(I)用于从ODI数据中提取特征的卷积滤波器(全向视频(ODV)可以被认为是ODI的一个时间集),(II)通过考虑输入数字和投影类型进行网络设计,(III)新颖的学习策略,以及(IV)实际应用。本文对深度学习方法在全景视觉方面的最新进展进行了系统、全面的综述和分析。与已有的关于全景视觉的综述不同,我们强调了深度学习的重要性,并按照逻辑地和全面地探索了全景视觉的最新进展。本研究中提出的结构和层次分类法如图所示。综上所述,本研究的主要贡献可归纳为:(1)据我们所知,这是第一份调查,全面回顾和分析了全景视觉的DL方法,包括全向成像原理,表征学习,数据集,分类学和应用,以突出与2D规划师图像数据的差异和困难。(2)我们总结了过去五年中发表的大多数(可能不是全部)顶级会议/期刊作品(超过200篇论文),并对DL的最新趋势进行了分析研究,以实现分层和结构上的全景视觉。此外,我们还提供对每个类别的讨论和挑战的见解。(3)我们总结了最新的新型学习策略和全方位视觉的潜在应用。(4)由于深度学习用于全景视觉是一个活跃而复杂的研究领域,我们对挑战和尚未解决的问题进行了深入的讨论,并提出了潜在的未来方向,以刺激社区进行更深入的研究。同时,我们在多个表格中总结了一些流行的全景视觉任务的代表性方法及其关键策略。为了提供更好的任务内比较,我们在基准数据集上提出了一些代表性方法的定量和定性结果,所有统计数据均来自原始论文。由于空间不足,我们在补充材料的Sec.2中展示了实验结果。(5)我们创建了一个开源存储库,该存储库提供了所有上述作品和代码链接的分类。我们将继续用这一领域的新作品更新我们的开源存储库,并希望它能为未来的研究提供启示。存储库链接为 https://github.com/VLISLAB/360-DL-Survey。3、Background
3.1、全景成像原理
3.1.1 Acquisition
普通相机的FoV低于180,因此最多只能捕获一个半球的视图。然而,一个理想的360相机可以捕捉从各个方向落在焦点上的光线,使投影平面成为一个完整的球面。在实践中,大多数360相机无法实现它,由于死角,这排除了顶部和底部区域。根据镜头数量,360相机可分为三种类型:(i)带有一个鱼眼镜头的相机,不可能覆盖整个球面。但是,如果已知内在和外在参数,则可以通过将多个图像投影到一个球体中并将它们拼接在一起来实现ODI;(ii)带有双鱼眼镜头的摄像机位于相反的位置,每个镜头的额定值都超过 180 美元,例如 Insta360 ONE 和 LG 360 CAM。这种类型的360相机对镜头有最低需求,这些镜头便宜又方便,受到行业和客户的青睐。然后将来自两个相机的图像拼接在一起以获得全向图像,但拼接过程可能会导致边缘模糊;(iii) 具有两个以上镜头的相机,如泰坦(八个镜头)。此外,GoPro Omni是第一款将六个常规相机放置在立方体的六个面上的相机装备,其合成结果具有更高的精度和更少的边缘模糊。这种类型的360相机是专业级的。3.1.2 Spherical Stereo
全景图像拥有多个投影方式,如等距柱状投影(ERP), 立方体贴图投影(CP), 切线投影(TP), 二十面体投影(IP)以及一些其他复杂投影方式等等,具体转换公式请查看全文。3.1.3 Spherical Stereo
3.2 针对全景图像的卷积方法
由于全景图像(ODI)的自然投影表面是一个球体,因此当球面图像投影回平面时,标准 CNN 处理固有失真的能力较差。已经提出了许多基于CNN的方法,以增强从球形图像中提取“无偏”信息的能力。这些方法可以分为两类:(i)在平面投影上应用2D卷积滤波器;(ii) 直接利用球面域中的球面卷积滤波器。在本小节中,我们将详细分析这些方法。3.2.1 基于平面投影的卷积
作为最常见的球面投影,ERP引入了严重的变形,特别是在两极。考虑到它提供了全局信息并且占用了更少的计算成本,Su 等人提出了一种具有代表性的方法,该方法基于球面坐标利用具有自适应核大小的常规卷积滤波器。受球面卷积的启发,SphereNet提出了另一种典型的方法,通过直接调整卷积滤波器的采样网格位置来实现失真不变性,并可以端到端地训练,如图所示。Distortion-aware的卷积核,如图所示。特别是,在ODI得到广泛应用之前,Cohen等人研究了ERP引入的空间变化失真,并提出了一种旋转不变球面CNN方法来学习SO3表示,等等。3.2.2 球面卷积
一些方法已经探索了球面域中的特殊卷积滤波器。Esteves等人提出了第一个球面CNN架构,该架构考虑了球面谐波域中的卷积滤波器,以解决标准CNN中的3D旋转等价差问题。杨等人提出了一个代表性框架,将球面图像映射到基于球面几何形状的旋转等变表示中。(a),SGCN将输入球面图像表示为基于GICOPix的图形。此外,它通过GCN层探索了图的等距变换等方差。在cohen等人的文章中,提出了规范等变CNN来学习二十面体的球面表示。相比之下,shakerinava等人将二十面体扩展到柏拉图固体的所有像素化,并在像素化的球体上推广了规范等变CNN。由于在效率和旋转等价差之间进行权衡,DeepSphere将采样球体建模为连接像素的图形,并设计了一种新颖的图形卷积网络 (GCN),通过调整图上像素的相邻像素数来平衡计算效率和采样灵活性。与上述方法相比,在SpherePHD中提出了另一种具有代表性的ODI表示。如图所示,球面PHD将球面图像表示为球面多面体,并提供特定的卷积和池化方法。3.3 数据集
基于深度学习的方法的性能与数据集的质量和数量密切相关。随着球面成像设备的发展,大量的ODI和OPV数据集被公开用于各种视觉任务。特别是,大多数ODV数据都是从维梅奥和优酷等公共视频共享平台收集的。在表格Table1中,我们列出了一些用于不同目的的代表性 ODI 和 ODV 数据集,我们还显示了它们的属性,例如大小、分辨率、数据源。更多的数据集可以在全文以及补充材料中找到。4、Omnidirectional Vision Tasks
4.1、图像/视频处理
4.1.1 图像生成
图像生成旨在从部分或噪声数据中恢复或合成完整且干净的ODI数据. 对于ODI上的图像生成,存在四个流行的研究方向:(i)全景深度图补全;(二) 全景深度图补全;(三)全景语义图的补全;(四)在全景图像上的视角合成。在本小节中,我们对一些代表性作品进行了全面的分析。4.1.2 跨视图合成和地理定位
跨视图合成旨在从卫星视图图像中合成地面视图ODI,而地理定位旨在匹配地面视图ODI和卫星视图图像以确定它们之间的关系。讨论:大多数跨视图合成和地理定位方法都假定参考图像精确地位于任何查询图像的位置。尽管如此,在实践中,这两种观点在方向和空间位置方面通常并不完全一致。因此,如何在具有挑战性的条件下应用跨视图合成和地理定位方法是一个有价值的研究方向。4.1.3 图像压缩
与传统的透视图像相比,全景数据以更高的分辨率和更宽的FoV记录更丰富的几何信息,这使得实现有效压缩更具挑战性。早期的ODI压缩方法直接利用现有的透视方法来压缩ODI的透视投影。例如,Simone等人提出了一种自适应量化方法,以解决将ODI投影到ERP时视口图像块的频率偏移。相比之下,OmniJPEG首先估计 ODI 中感兴趣的区域,然后根据区域内容的几何变换,使用一种名为 OmniJPEG 的新颖格式对 ODI 进行编码,该格式是 JPEG 格式的扩展,可以在旧版 JPEG 解码器上查看,等等。4.1.4 照明估计
它旨在从低动态范围(LDR)ODI预测高动态范围(HDR)照明。照明恢复被广泛用于许多现实世界的任务,从场景理解、重建到编辑。Hold-Geoffroy等人提出了一个具有代表性的户外照度估计框架。他们首先训练了一个CNN模型,以预测室外ODI的视口的天空参数,例如太阳位置和大气条件。然后,他们根据预测的照明参数为给定的测试图像重建照明环境图。同样,在Gardner等人的工作中,利用CNN模型来预测视口中灯光的位置,并对CNN进行微调以从ODI中预测灯光强度即环境图。在Gardner等人2019年的一个工作中中,室内照明的几何和光度参数从ODI的视口回归,并利用中间潜向量重构环境贴图。另一种代表性的方法,称为EMLight,由回归网络和神经投影仪组成。回归网络输出光参数,神经投影仪将光参数转换为照度图。特别是,光参数的地面实况由通过球面高斯函数从照明生成的高斯图分解。讨论和潜力:从上述分析中,先前用于ODI照明估计的工作将单个视口作为输入。原因可能是视口无失真,低成本,分辨率低。然而,它们遭受了空间信息的严重下降。因此,应用对比学习从切线图像的多个视口或组件中学习稳健的表示可能是有益的。4.1.5 图像超分
现有的头戴式显示器(HMD)设备至少需要21600乘以10800像素的ODI才能获得沉浸式体验,这是当前相机系统无法直接捕获的。另一种方法是捕获低分辨率 (LR) ODI,并高效地将它们超级解析为高分辨率 (HR) ODI。LAU-Net作为第一个考虑ODI SR纬度差异的著作,引入了多级纬度自适应网络。它将ODI划分为不同的纬度波段,并分层地扩展这些波段,这些波段具有不同的自适应因子,这些因子是通过强化学习方案学习的。除了考虑ERP上的SR之外,Yoon等人提出了一个代表性的工作SphereSR,以学习统一的连续球面局部隐式图像函数,并根据球面坐标查询生成任意分辨率的任意投影。对于全景视频(ODV) SR,SMFN是第一个基于DNN的框架,包括单帧和多帧联合网络和双网络。单帧和多帧联合网络融合了相邻帧的特征,双网限制了求解空间,以找到更好的答案。4.1.6 Upright Adjustment
Upright Adjustment旨在纠正摄像机和场景之间方向的错位,以提高ODI和ODV的视觉质量,同时将它们与窄视场(NFoV)显示器(如VR应用程序)一起使用。4.1.7 视觉质量评估
由于全向数据的超高分辨率和球体表示,视觉质量评估(V-QA)对于优化现有的图像/视频处理算法很有价值。接下来,我们将分别介绍一些关于ODI-QA和ODV-QA的代表性作品。对于 ODI-QA,根据参考图像的可用性,可以进一步将其分为两类:full-reference (FR) ODI-QA 和no-reference (NR) ODI-QA。对于 ODV-QA,Li等人提出了一种基于具有代表性的基于视口的 CNN 方法,包括视口提案网络和视口质量网络,如图所示。视口方案网络生成多个潜在视口及其错误映射,视口质量网络对每个建议视口的 V-QA 分数进行评级。最终的V-QA分数是通过所有视口V-QA分数的加权平均值计算的。Gao等人对ODV的时空扭曲进行了建模,并通过整合现有的3个ODI-QA目标指标,提出了一种新的FR目标指标。4.2、场景理解
4.2.1 物体识别
与普通透视图像相比,基于深度学习的ODI对象检测仍然存在两大难点:(i)传统的卷积核在ODI投影中处理不规则平面网格结构的能力较弱;(ii)传统2D物体检测中采用的标准不适合球形图像。4.2.2 语义分割
基于DL的全向语义分割已被广泛研究,因为ODI可以包含有关周围空间的详尽信息。实际上还存在许多挑战,例如,平面投影中的变形,物体变形,计算复杂性和稀缺的标记数据。在文章中,我们介绍了一些通过监督学习和无监督学习进行ODI语义分割的代表性方法。4.2.3 单目深度估计
由于大规模全景深度数据集的出现,单目深度估计发展迅速。如图所示有几种趋势:(i)定制网络,例如,失真感知卷积滤波器和鲁棒表示;(ii) 基于不同的投影类型。(iii) 固有的几何先验。(iv) 多个视图或姿态估计。4.2.4 光流估计
基于现有的实验结果表明,直接应用基于DL的二维光流估计方法对ODI进行估计,会得到不尽如人意的结果。为此,Xie等人介绍了一个小型诊断数据集FlowCLEVR,并评估了三种定制卷积滤波器的性能,即相关卷积、坐标和可变形卷积,用于估计全向光流。域适配框架受益于透视域光流估计的发展。与Cubes3DNN类似,OmniFlowNet建立在FlowNet2上。特别是作为LiteFlowNet的延伸,LiteFlowNet360采用核变换技术,解决了球面投影带来的固有失真问题,等等。4.2.5 视频总结
视频摘要旨在通过选择包含 ODV 最关键信息的部分来生成具有代表性和完整的概要。与2D视频总结方法相比,ODV的视频总结只有少数作品被提出。Pano2Vid是代表性框架,包含两个子步骤:检测整个 ODV 帧中感兴趣的候选事件,并应用动态编程来链接检测到的事件。但是,Pano2Vid需要观察整个视频,并且对于视频流应用程序的能力较差。Deep360Pilot是第一个设计用于观众自动ODV导航的类人在线代理的框架。Deep360pilot包括三个步骤:对象检测以获得感兴趣的候选对象,训练RNN选择重要对象,以及在ODV中捕捉激动人心的时刻。AutoCam在人类行为理解之后从 ODV 生成正常的 NFoV 视频。讨论:基于上述分析,该研究领域只有少数几种方法存在。作为一项与时间相关的任务,将转换器机制应用于ODV汇总可能是有益的。此外,以前的作品只考虑了ERP格式,这遭受了最严重的失真问题。因此,最好考虑 CP、切线投影或球体格式作为 ODV 汇总的输入。4.3、3D视觉
4.3.1 房间布局估计和重建
房间布局估计和重建包括多个子任务,例如布局估计、3D 对象检测 和 3D 对象重建。这项综合任务旨在促进基于单个 ODI 的整体场景理解。4.3.2 立体匹配
人类双眼视差取决于视网膜上投影之间的差异,即球体投影而不是平面投影。因此,ODI上的立体匹配更类似于人类视觉系统。在Seuffert等人的工作中,他们讨论了全向失真对基于CNN的方法的影响,并比较了从透视和全向立体图像预测的视差图的质量。实验结果表明,基于ODI的立体匹配对于机器人、AR/VR等多种应用更具优势。一般立体匹配算法遵循四个步骤:(i)匹配成本计算,(ii)成本聚合,(iii)优化差异计算,以及(iv)差异细化。作为首个基于DNN的全向立体框架,SweepNet提出了一种宽基线立体系统,用于从采用超广角FoV镜头的相机拍摄的一对图像中计算匹配的成本图,并在钻机坐标系上使用全局球体扫描直接生成全向深度图。4.3.3 SLAM
SLAM是一个复杂的系统,采用多个摄像头,例如单目,立体声或RGB-D,结合移动代理上的传感器来重建环境并实时估计代理姿势。SLAM通常用于实时导航和现实增强,例如谷歌地球。立体信息,如关键点和dense或semi-dense深度图引用,对于构建精确的现代SLAM系统是必不可少的。具体而言,与传统的单目SLAM或多视角SLAM相比,全向数据由于FoV较大,可以提供更丰富的纹理和结构信息,基于全景相机的SLAM避免了不连续帧对周围环境的影响,并享有完整定位和映射的技术优势。Caruso等人提出了一种具有代表性的单目SLAM方法,直接阐述了图像直接对准和像素距离滤波的全向相机。4.4、人类行为理解
4.4.1 显著性预测
最近,在深度学习进展的基础上,ODI显著性预测出现了几个研究趋势:(i)从2D传统卷积到3D特定卷积;(ii) 从单一特征到多个特征;(iii) 从单一的企业资源规划投入到多类型投入;(iv)从基于CNN的正常学习到新颖的学习策略。4.4.2 注视行为
注视跟随,也称为注视估计,与检测场景中的人们所看和吸收的内容有关。由于正常的透视图像是NFoV捕获的,因此注视目标总是在场景之外。ODI注视跟踪是为了解决这个问题,因为ODI具有捕获整个观看环境的强大能力。以前的3D注视跟踪方法可以直接检测球体空间中人类受试者的注视目标,但忽略了ODI的场景信息,其执行的凝视跟随效果不佳。Gaze360使用鱼眼晶状体校正来预处理图像,收集了一个大型的凝视数据集。然而,由于球面投影引起的失真,远距离凝视中的凝视目标可能不在人体主体的2D视线中,这在2D图像中已不再相同。李等人提出了第一个ODI注视跟踪框架,并收集了第一个ODI注视跟踪数据集,称为GazeFollow360。挑战和潜力:ODI 包含更丰富的上下文信息,可以促进对注视行为的理解。然而,仍然存在一些挑战。首先,很少有特定于ODI的特定凝视跟踪和凝视预测数据集。数据是基于深度学习的方法的“引擎”,因此收集定量和定性数据集是必要的。其次,由于球面投影类型中存在失真问题,未来的研究应考虑如何通过几何变换来校正这种失真。最后,与普通2D图像相比,ODI中的注视跟随和注视预测都需要了解更广泛的场景信息。应进一步探讨空间背景关系。4.4.3 视听场景理解
由于ODV可以为观察者提供对整个周围环境的沉浸式理解,因此最近的研究重点是对ODV的视听场景理解。由于它使观众能够在各个方向上体验声音,因此ODV的空间无线电是全场景感知的重要提示。作为全向空间化问题的第一部作品,Morgado 等人设计了一个四块架构,应用自监督学习来生成空间无线电,给定单声道音频和ODV作为联合输入。他们还提出了一个具有代表性的自我监督框架,用于从ODV的视听空间内容中学习表示。讨论:基于上述分析,该研究领域的大多数工作将ERP图像处理为普通2D图像,而忽略了固有的失真。未来的研究可能会探索如何将ODI的球面成像特性和几何信息与空间音频线索更好地结合起来,以提供更逼真的视听体验。4.4.4 视觉问答
视觉问答(VQA)是一项全面而有趣的任务,结合了计算机视觉(CV),自然语言处理(NLP)和知识表示$ &$推理(KR)。更宽的FoV ODI和ODV对于VQA研究更有价值和更具挑战性,因为它们可以提供类似于人类视觉系统的立体空间信息。VQA 360,在~引用{chou2020可视化}中提出,是第一个关于ODI的VQA框架。它引入了一种基于CP的模型,具有多级融合和注意力扩散,以减少空间失真。同时,收集的VQA 360数据集为未来的发展提供了基准。此外,Yun等人提出了第一个基于ODV的VQA作品,全景AVQA,它结合了来自三种形式的信息:语言,音频和ODV帧。变压器网络提取的融合多模态表示提供了对全向环境的整体语义理解。他们还在 ODV 上提供了第一个空间和音频 VQA 数据集。讨论与挑战:基于上述分析,基于ODI/ODV VQA的工作很少。与2D域中的方法相比,最大的困难是如何利用球面投影类型,例如二十面体和切线图像。随着2D领域中二十多个数据集和众多有效网络的发表,未来的研究可能会考虑如何有效地转移知识,以学习更强大的DNN模型以实现全向视觉。5、Novel Learning Strategies
5.1、无监督/半监督学习
由于全景注释不足但成本高昂,因此会发生ODI数据稀缺问题。这个问题通常通过半监督学习或无监督学习来解决,它们可以利用丰富的未标记数据来增强泛化能力。对于半监督学习,Tran等人利用“平均教师”模型通过在同一场景中从标记和未标记的数据中学习来进行3D房间布局重建。对于无监督学习,Djilali等人提出了ODI显著性预测的第一个框架。它计算来自多个场景的不同视图之间的相互信息,并将对比学习与无监督学习相结合,以学习潜在表示。此外,无监督学习可以与监督学习相结合,以增强泛化能力。Yun等人提出将自监督学习与监督学习相结合,进行深度估计,缓解数据稀缺,增强稳定性。5.2 GAN
为了减少透视图像与ODI之间的域分歧,P2PDA和密集通道利用GAN框架并设计对抗性损失来促进语义分割。在图像生成方面,BIPS提出了一个GAN框架,用于基于摄像头和深度传感器的任意配置来合成RGB-D室内全景图。5.3 注意机制
对于跨视图地理定位,在Zhu等人中,ViT等人用于删除无信息的图像补丁,并将信息性图像补丁增强到更高分辨率。这种注意力引导的非均匀裁剪策略可以节省计算成本,将其重新分配给信息补丁以提高性能。在无监督显著性预测中采用了类似的策略。在Abdelaziz等人提出的工作中,采用自我注意模型在两个输入之间建立空间关系并选择充分不变的特征。5.4 迁移学习
有很多工作可以转移从源2D域学到的知识,以促进ODI域中学习许多视觉任务,例如,语义分割和深度估计。从透视图像在预训练的模型上设计可变形的CNN或MLP可以增强ODI在众多任务中的模型能力,例如,语义分割,视频超分辨率,深度估计和光流估计。但是,这些方法严重依赖于手工制作的模块,这些模块缺乏针对不同场景的泛化能力。无监督域适配旨在通过减少透视图像和ODI之间的域间隙,将知识从透视域转移到ODI域。P2PDA和BendingRD减小透视图像与ODI之间的域间隙,有效获得ODI的伪密集标签。知识提炼(KD)是另一种有效的技术,它将知识从繁琐的教师模型中转移出来,学习紧凑的学生模型,同时保持学生的表现。然而,我们发现很少有作品将KD应用于全向视觉任务。在语义分割中,ECANets通过来自世界各地的各种全景图执行数据提炼。5.5 强化学习
在显著性预测中,MaiXu等人通过将头部运动的轨迹解释为离散动作来预测头部注视,并得到正确策略的奖励。此外,在对象检测中,Pais等人通过考虑3D边界框及其在图像中的相应失真投影来提供行人在现实世界中的位置。DRL的另一个应用是在LAUNet中基于像素密度自适应地选择放大因子,解决了ERP中像素密度分布不均匀的问题。5.6 多任务学习
在相关任务之间共享表示可以增加模型的泛化能力,并提高所有涉及任务的性能。MT-DNN将显著性检测任务与视口检测任务相结合,预测每帧的视口显著性图,提高ODV的显著性预测性能。DeepPanoContext通过共同预测物体形状、3D姿势、语义类别和房间布局,实现全景场景理解。同样,HoHoNet提出了一个潜在的水平特征(LHFeat)和一种新颖的视界到密集模块来完成各种任务,包括房间布局重建和每像素密集预测任务,例如深度估计,语义分割。6、Applications
6.1、AR 和VR
随着技术的进步和交互场景需求的不断增长,AR和VR近年来发展迅速。VR旨在模拟真实或虚构的环境,参与者可以通过感知和与环境互动来获得身临其境的体验和个性化的内容。凭借在ODI中捕获整个周围环境的优势,360 VR / AR有助于开发沉浸式体验。6.2、机器人导航
除了上文中提到的SLAM之外,我们还进一步讨论了ODI/ODV在机器人导航领域的相关应用,包括远程呈现系统、监控和基于DL的优化方法。远程呈现系统旨在克服空间限制,使人们能够远程访问并相互交流。ODI/ODV通过提供更逼真、更自然的场景而越来越受欢迎,特别是在开放环境的户外活动中. Zhang等人提出了一种基于ODV的远程呈现系统的原型,以支持更自然的交互和远程环境探索,在远程环境中的真实行走可以同时控制机器人平台的相关运动。出于安全目的,监控旨在取代人类,其中校准对于敏感数据至关重要。因此,普迪克斯提出了一种针对障碍物检测和避障的安全导航系统,并采用校准设计来获得适当的距离和方向。与NFoV图像相比,全景图像可以通过在单次拍摄中提供完整的FoV来显着降低计算成本。此外,Ran等人提出了一个基于未校准的360相机的轻量级框架。该框架可以通过将其制定为一系列分类任务来准确估计航向,并通过保存校准和校正过程来避免冗余计算。6.3、自动驾驶
自动驾驶需要对周围环境有充分的了解,这是全景视觉所擅长的。一些作品专注于为自动驾驶建立360平台。具体而言,依托Sun等人的工作,利用立体相机、偏振相机和全景相机,形成多模态视觉系统,捕捉全向景观。除了该平台之外,用于自动驾驶的公共全向数据集的出现对于深度学习方法的应用至关重要。Caeser等人是第一个引入相关数据集,该数据集携带了六个摄像头,五个雷达和一个激光雷达。所有设备都带有360 FoV。最近,OpenMP 数据集被六台摄像机和四台激光雷达捕获,其中包含复杂环境中的场景,例如,过度曝光或黑暗的城市地区。Kumar等人提出了一个多任务视觉感知网络,该网络由自动驾驶中的六项重要任务组成:深度估计,视觉里程测量,感性分割,运动分割,物体检测和镜头污染检测。重要的是,由于实时性能对于自动驾驶至关重要,并且车辆中的嵌入系统通常具有有限的内存和计算资源,因此轻量级DNN模型在实践中更受青睐。7、Discussion and New Perspectives
7.1、投影格式的缺点
ERP是最流行的投影格式,因为它的平面格式的FoV很宽。ERP面临的主要挑战是向两极的拉伸变形日益严重。因此,提出了许多针对失真的特定卷积滤波器的设计方法。相比之下,CP 和切线(TP)图像通过将球面投影到多个平面上是无失真的投影格式。它们与透视图像相似,因此可以充分利用平面域中的许多预训练模型和数据集。然而,CP和切线图像受到更高的计算成本,差异和不连续性的挑战。我们总结了利用CP和切线图像的两个潜在方向:(i)冗余计算成本是由投影平面之间的大重叠区域引起的。但是,像素密度因不同的采样位置而异。通过强化学习为密集区域(例如赤道)分配更多资源,为稀疏区域(例如极点)分配更少的资源,计算效率更高。(二) 目前,不同的投影平面往往是并行处理的,缺乏全球一致性。为了克服不同局部平面之间的差异,探索一个以ERP为输入或基于注意力的变压器来构建非局部依赖关系的分支是有效的。7.2、数据高效学习
深度学习方法面临的一个挑战是需要具有高质量注释的大规模数据集。然而,对于全向视觉,构建大规模数据集既昂贵又乏味。因此,有必要探索更高效的数据方法。一个有希望的方向是将从在标记的2D数据集上训练的模型中学到的知识转移到在未标记的全景数据集上训练的模型。具体而言,可以应用域适应方法来缩小透视图像与ODI之间的差距。KD也是一种有效的解决方案,它将学习到的特征信息从繁琐的视角DNN模型转移到学习ODI数据的紧凑DNN模型。最后,最近的自我监督方法,eg,Yan等人证明了预训练的有效性,而不需要额外的训练注释。7.3、物理约束
透视图像的现有方法在推断全球场景和看不见的区域的光照方面受到限制。由于ODI的FoV很宽,可以捕获完整的周围环境场景。此外,反射率可以根据照明与场景结构之间的物理约束,基于照明来揭示反射率。因此,未来的方向可以联合利用计算机图形学(如光线追踪)和渲染模型来帮助计算反射率,这反过来又有助于更高精度的全局照明估计。此外,基于照明运输理论处理和渲染ODI是有希望的。7.4、多模态全景视觉
它指的是使用相同的DNN模型从不同类型的模态(例如,用于视觉问答的文本图像,视听场景理解)学习表示的过程。对于世界性愿景来说,这是一个有希望但又切实可行的方向。例如,Beltran等人引入了一个基于视觉和 LiDAR 信息的多模态感知框架,用于 3D 对象检测和跟踪。但是,这方面的现有工作将ODI视为透视图像,而忽略了ODI中固有的失真。未来的工作可能会探索如何利用ODI的优势,例如,完整的FoV,以协助其他模式的表示。重要的是,不同方式的获取有明显的差异。例如,捕获 RGB 图像比深度图容易得多。因此,一个有希望的方向是从一种模式中提取可用信息,然后通过多任务学习,KD等转移到另一种模式。然而,应考虑不同方式之间的差异,以确保多模式的一致性。7.5、潜在的对抗性攻击
很少有研究关注对全向视觉模型的对抗性攻击。Zhang等人提出了第一种具有代表性的攻击方法,通过仅扰动从ODI渲染的一个切线图像来欺骗DNN模型。建议的攻击是稀疏的,因为它只干扰了输入ODI的一小部分。因此,他们进一步提出了一种位置搜索方法来搜索球面上的切点。该方向存在许多有前途但具有挑战性的研究问题,例如,分析ODI不同DNN模型之间攻击的泛化能力,网络架构和训练方法的白盒攻击以及攻击防御。7.6、Metaverse的潜力
Metaverse旨在创建一个包含大规模高保真数字模型的虚拟世界,用户可以在其中自由创建内容并获得身临其境的互动体验。元宇宙由AR和VR头显促进,其中ODI由于完整的FoV而受到青睐。因此,一个潜在的方向是从ODI生成高保真2D/3D模型,并详细模拟真实世界的对象和场景。此外,为了帮助用户获得身临其境的体验,分析和理解人类行为的技术(例如,注视跟随,显著性预测)可以在将来进一步探索和整合。7.7、智慧城市的潜力
智慧城市专注于使用各种设备从城市收集数据,并利用数据中的信息来提高效率,安全性和便利性等。利用街景图像中ODI的特性,可以促进城市形态比较的发展。如第前面所述,一个有希望的方向是将街景图像转换为卫星视图图像以进行城市规划。8、Discussion and New Perspectives
在本次调查中,我们全面回顾并分析了深度学习方法在全向视觉方面的最新进展。我们首先介绍了全向成像的原理,卷积方法和数据集。然后,我们提供了DL方法的分层和结构分类。针对分类学中的每项任务,我们总结了当前的研究现状,并指出了其中的机遇和挑战。我们进一步回顾了新的学习策略和应用。在构建了当前方法之间的联系之后,我们讨论了需要解决的关键问题,并指出了有希望的未来研究方向。我们希望这项工作能为研究人员提供一些见解,并促进社区的进步。本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。
“综述专栏”历史文章
更多综述专栏文章,
请点击文章底部“阅读原文”查看
分享、点赞、在看,给个三连击呗!