查看原文
其他

显示专题 | 神经网络+计算全息+相机闭环优化=高质量彩色实时全息显示(ACM TOG)

撰稿/EvanPeng IntelligentOptics 2022-08-24

计算全息+神经网络+相机闭环优化=高质量彩色实时全息显示(ACM TOG)

Neural Holography with Camera-in-the-loop Training


本期导读


    虚拟现实和增强现实(VRAR)作为新兴媒体技术,已在逐步改变我们感知世界和与其交互的方式的。在这种应用中,近眼显示器是用户和他们看到的所有数字内容之间的接口。因此,构建一种感知真实和视觉舒适的近眼显示器非常重要。虽然经过了数十年的发展和进步,为全息显示生成图像依然是一个复杂而耗时的过程。与此同时,当前基于空间光调制器的全息显示效果依然不尽如人意,大多仅停留在实验室样机初级阶段。来自斯坦福大学计算成像实验室的研究人员日前在SIGGRAPH 2020大会展示了最新研究成果 Neural Holography,并将以论文《Neural Holography with Camera-in-the-loop Training》发表于图形学领域顶级期刊ACM Transactions of Graphics上。该工作使用了一个基于神经网络的相位生成器,并通过创新提出的相机闭环(Camera-in-the-Loop)模拟器进行校准和训练,综合考虑了影响全息成像质量的各种因素,进而实现很可能是当前所有全息显示工作中最高质量的显示效果,并且所述系统可以实时运行(后文有诸多动画和视频演示)

技术背景

   近眼显示的基本理念可以追溯到1830年使用的立体镜,但令人惊讶的是,其运作原理在过去的近两个世纪里几乎没有改变。提升虚拟现实能力成为了21世纪的重大挑战之一。几乎所有的近眼显示器都是基于放大镜原理,用户通过微型显示器看到的虚拟2D图像是由放大透镜产生。这种固定焦平面的设计显然不是最佳选择。在现实世界中,取决于感知对象的距离,人眼可聚焦于任意距离或对任意距离进行视觉调节。保持视觉调节固定会导致视觉辐辏调节冲突,带来眼睛疲劳、眼睛不适、视觉重影、视觉清晰度下降、以及其他负面影响。

    在过去的数年里出现了旨在解决所述问题的一系列计算近眼显示技术,但它们都存在各种问题。变焦显示器非常有效,并且相当简单,但它们需要显示器搭载的机械驱动组件或聚焦可调透镜,在可穿戴设备的形状参数和功率范围的平衡内都非常难实现。多平面显示器是一个非常优秀的概念,但或需要极高的空间光调制器和聚焦透镜,或需要多个显示平面,这两个选项都显著增加了系统的复杂性。光场显示器近几年很热门,但其空间-角度分辨率从本质上受到衍射的限制。不论学术界还是产业界均相信存在一种利用衍射来获得极高图像分辨率、对比度、深度和其他优势的显示技术:全息显示

    算力资源的突飞猛进为计算机产生的全息图(CGH)的研究发展提供了机遇。这是一个尝试通过显示器投射的全息图来重现场景的过程,所述显示器通常指一个近眼头戴式显示器。除了硬件之外的最大挑战是实现快速并且准确的空间光调制器(SLM)的图样变换。需要注意的是,SLM只能使用通过它的光线的相位变化。要计算出在SLM显示的相位图案或目标图像,目前主要需两种CGH算法:直接法迭代法。直接法利用目标强度,并将相应的波场传播到SLM平面。对于平行于SLM的目标强度,只需使用傅里叶变换,应用传递函数,然后应用傅里叶逆变换。注意,这是一个启发性算法,它并不总是能生成最佳相位分布。使用同样的自由空间传播模型,亦可以利用迭代方法在SLM相位图案和目标强度之间迭代几次。其速度要比直接方法慢,但通常能给出一个更好的目标图像的纯相位表示。总而言之,迭代方法通常较慢,但质量更好,而直接方法速度较快,但通常质量有限。任何迭代方法,如经典的Gerchberg–Saxton  (GS) Algorithm和最近提出的Wirtinger Holography(同样是该组研究人员参与的工作),可以迭代更长时间以获得稍好的图像质量,但存在一个上限。

常用全息近眼显示光学原理示意

技术路线

    如前所述,现有的全息相位变换计算算法要么速度快但质量不好(直接方法),要么速度太慢,不适合实时使用,但质量好(迭代方法)。斯坦福研究小组的论文详细介绍了一系列的现有方法及其缺点,并同时提出了能够两者互补的创新方案。研究人员首先展示了一个简单易用的随机梯度下降方法(stochastic gradient descent approach),在模拟中实现了最佳图像质量,并且开发了一个全新的全息图生成网络架构HoloNet,而它能够实时做到几乎同样的质量。

    该研究工作的核心在于在典型的全息模拟装置上增加了一个实际的摄像头,以增强他们校准和训练系统的能力。该闭环优化过程包含了几乎所有光学元件和显示器件,因此比只关注SLM输出图像的传统系统更适合模拟真实的显示过程。研究人员通过使用诸如随机梯度下降(SGD)等优化方法来训练系统学习如何为显示器的SLM创建高质量的变换,并且显示出更优的结果。相机模拟人眼观察仅用于校准和训练。一旦这个步骤完成,可以借用优化所得的模型,来用一个更简单的系统进行高质量的全息显示。

所提出的基于相机闭环优化的神经网络全息近眼显示原理示意


    另外,研究人员建立了一个高效的全息图生成神经网络(HoloNet)并训练该网络来创建系统本身的模型,包括SLM参数和光学像差。所述模型可用于显示图像,包括不在初始训练集中的未知图像。同时,高性能的推断方法使其能够实时计算所需的变换。研究人员将其所提出的 Neural Holography 与之前发布的领先算法进行了比较,包括Wirtinger Holography、DPAC、GS)等,呈现了令人印象深刻的显示效果

‍基于时分变焦的3D全息显示原理及实验结果

论文信息:Yifan (Evan) Peng, Suyeon Choi, Nitish Padmanaban, Jonghyun Kim, Gordon Wetzstei,Neural Holography with Camera-in-the-loop Training. In SIGGRAPH & SIGGRAPH Asia, 2020.

项目链接:

https://www.computationalimaging.org/publications/neuralholography/ 含诸多动画,视频,结果,论文,及技术报告录像

* 文字图片素材来源于作者原始论文及网络公开资料,技术分享不做任何商业用途。


本公众号之前亦报道了斯坦福大学该研究小组的诸多工作,涉及计算成像计算显示两大领域,可查阅以下报道相关技术分享回顾(欢迎点击查阅):
- 到端优化衍射元件实现全光谱轻薄计算成像 (OSA Optica)
- 基于重叠-相加全息立体图实现近眼显示 (ACM TOG)
- 端到端衍射光学实现单次曝光高动态范围成像 (IEEE CVPR)
- 基于深度学习的超薄单镜片大视场计算成像 (ACM TOG)

- 支持空间遮挡的光学穿透式AR显示 (IEEE TVCG)
- 端到端光学编码超分辨单光子成像 (ACM TOG


回顾与预告


上期回顾:成像专题 | 大规模高精度三维人脸重建(IEEE CVPR)欢迎点击查阅

下期预告:我们将不定期推荐学术领域具有代表性的计算显示和计算成像研究工作,同时穿插一些新型光学设计和VR/AR光机实现科普等的资讯分享,欢迎订阅关注,欢迎来稿交流。
intelligent.optics.sharing@gmail.com


INTELLIGENTOPTICSSHARING (I.O.S.) 运营以该领域的研究学者为主,非盈利非广告,希望能够结交共同兴趣方向的读者们,建立光学和计算机交叉学科领域内一个资讯分享交流的平台,还望大家多多支持,欢迎来稿,欢迎拍砖。





END







您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存