—— 青亭网
MIT:基于深度学习的3D全息方案,或实现VR动态变焦
Esther|编辑
近年来,市面上出现了各种类型的全息产品,比如全息相框Looking Glass、全息游戏机/展示柜Voxon、3D全息投影设备WARPE等等,不过现有的全息技术依然存在许多需要解决的问题。比如:依赖沉重、昂贵的计算硬件,难以普及等等。
近期,MIT发表了一篇名为“用深度神经网络实现接近逼真实时3D全息显示”的论文,其中指出一种可以在智能手机上运行的3D建模方案:Tensor Holography(张量全息),可用于VR/AR、3D打印、超表面设计、全息显微术、医学成像等场景。据悉,这项研究由MIT和索尼合作完成,除了全息显示外,或许还可以解决AR/VR动态变焦的难题。
MIT认为,VR还未像电视、计算机显示屏一样普及的原因之一是,VR利用2D显示屏来模拟3D视觉观感,长时间观看容易让人产生视觉辐辏调节冲突等不适。为了解决这一问题,MIT决定利用全息技术来提升3D可视化的观感,缓解人眼观看的不适。
为什么说全息或许可以解决3D画面与2D显示设备之间的冲突呢?就拿Visa信用卡上的全息图贴纸来讲,尽管贴纸本身是平面的,但你在改变角度查看的时候,贴纸图案也会动态变化,与此同时人眼也可以实时调整眼球聚焦的深度。换句话说,全息显示是一种将光场加密成不同相位和振幅的干涉图案的过程。
MIT表示:支持动态深度调节的3D场景对于AR/VR、人机交互、教育和培训具有重要影响,而计算机生成的全息可通过对衍射和干扰的多次模拟,来实现高空间角分辨率的3D投影效果。
通常,利用全息技术模拟3D物理效果时,需要3个步骤:3D建模、从RGB-D图像生成点云数据、模拟光线衍射和干涉效果(包含深度数据),这将以来超级电脑来计算,过程时间长,不过效果很逼真。而现在,科研人员研发了一种支持实时3D生成和计算的深度学习算法,即使在笔记本电脑上也能高速运行。
总之,张量全息算法的目的是在消费级硬件上运行实时3D全息计算,而这将有望推进全息显示技术的商业化普及,并应用于AR/VR、3D打印等领域。就目前现有的Looking Glass等3D全息显示产品来看,需要至少GTX1060或以上的显卡才能运行,对于硬件要求较高。另外,市面上另一种全息设备Voxon则需要集成较大的计算机底座,并不便于携带,难以做成穿戴式显示设备。
科研人员在这项研究中解决了以下几项问题:
1,3D全息图像遮挡:在模拟衍射之前,重建了一个表面网格,并在子全息图计算之前识别前景遮挡,如此一来便能避免背景透光,实现更逼真的遮挡效果;
2,加速全息计算过程:培训卷曲神经网络来自动进行物理模拟;
3,通过在编码之前预先模糊复杂的全息图像,有效避免图像噪点和相位包裹,有效降低3D图像伪影;
4,研发了一个台式全息投影原型装置;
细节方面,张量全息算法的原理基于全息技术所包含的光波亮度、视差和深度信息,相比之下2D成像只能捕捉到光波的亮度和色彩,不具备深度信息,因此只能输出平面图。换句话说,用照片拍摄的油画只能记录下配色,而全息记录的油画甚至能渲染出画笔的3D纹理。
与Visa信用卡上基于分离激光束原理的静态全息方案相比,计算机计算的全息方案可模拟物理光学装置,同时支持更实时、动态的显示效果。但由于3D场景中的每个点具备不同的深度,因此计算复杂,利用超级计算机也需要几秒或几分钟来渲染。此外,现有的通过查询表来模拟复杂物理效果的3D全息算法并不支持准确的遮挡效果(背景透光),画面不够逼真。
利用查询表来生成全息图就像是将常用的大块全息元素组成全息图像,缺点是准确性低,而且还需要额外的合成步骤。科研人员将这一过程比喻成去思考如何切蛋糕,首先要将图像分割成不同的蛋糕块、设定每块蛋糕的边界,然后再将蛋糕以某种顺序结合起来,步骤比较繁琐。
除此之外,市面上的其他解决方案还包括光场方案,即利用光线来预测深度,或是通过多层图像降低深度分辨率、采用低多边形网格来替代密集点云等方式。不过,这些方案的缺点是图像质量受计算速度影响,难以实现理想的显示效果。
于是,MIT科研人员决定通过深度学习方式,让计算机自学物理。据了解,该团队设计了一个卷曲神经网络,这种计算方式利用一系列可培训的张量去粗略模拟人类对视觉信息的处理过程。与查询表方案相比,深度学习方案更像是利用更少的次数去分割更多块蛋糕。
为了培训这个卷曲神经网络,科研人员自建了一个由4000对计算机合成图片组成的数据库(MIT-CGH-4K),每一对图片包含一张平面图和对应的全息图。这些图片包含复杂且多样化的形状和色彩,前景和背景的深度信息均匀分布,通过基于物理的算法来计算像素遮挡,生成的全息培训数据足够逼真。
通过4000组合成图片训练后,张量网络的全息生成能力得到优化,运行速度摇摆基于物理的计算要快几个数量级。该算法最短在几毫秒内将具有深度信息的图像(计算机生成或多摄像头模组/LiDAR传感器捕捉的图像)转化成全息图像,为未来基于智能手机的实时3D成像提供可能。此外,张量网络几乎不占内存,只有不到1MB大小(620kb),足以在手机上运行。
比如,在单个消费级GPU上,每秒可生成一个60种色彩、分辨率1080p的3D全息图。而在iPhone 11上运行张量全息算法时,最快每秒可生成1.1个全息图,在Google Edge TPU上运行,每秒可生成2个全息图像。
科研人员表示:利用张量全息算法生成的3D图像观感更逼真、清晰且舒适,通过进一步定制,还有望用于视力矫正等功能。如果将实时3D全息技术应用于VR显示系统中,将有望提升画面逼真度、降低眼球压力、提升长时间使用VR的舒适感。
实现方式上,只需要采用支持光波相位调节(PM)的显示模组即可,不过目前这种显示模组的成本比较高。科研人员还表示:未来张量全息技术与眼球追踪结合后,还可以用于注视点渲染场景,支持VR动态变焦。同时,由于它可以在智能手机上运行,在AR/VR一体机上使用应该也不难。
参考:
https://news.mit.edu/2021/3d-holograms-vr-0310
https://spectrum.ieee.org/tech-talk/computing/software/realtime-hologram
推荐阅读
—— 青亭网