查看原文
其他

视觉黑科技——从角落的阴影中重建完整场景信息

N.Wolchover 集智俱乐部 2021-02-09

阴影边缘周围有一些肉眼不可见的信息,

暴露了藏在拐角后的对象。


导语

计算机视觉的研究员们发现了一个全新的世界,它隐藏在我们中间,包含了很多视觉信号,比如体现环境变化的细微动作,角落四周的模糊图像。


编译:集智俱乐部翻译组

来源:quantamagazine

原题:The new science of  seeing around corners



Antonio Torralba 是一名研究计算机视觉( Computer vision ,以下简称“ CV ”)的科学家。2012年,他在西班牙海岸度假时,注意到酒店房间的墙壁上有一些散落的阴影,但却找不出这些阴影的来源。


后来,Torralba 意识到,墙上的浅色光斑并不是阴影,而是窗外院子的微弱倒影。窗户就像一个简单的针孔照相机,光线穿过小孔,在室内的墙壁上投射出院子的倒影。足够亮堂时,墙上几乎看不到任何图像,但 Torralba 意识到,世界上还充斥着很多我们肉眼看不见的视觉信息。


他说,“表面来看,这些图像是隐形的,但其实,它们一直在我们身边。”


MIT的CV科学家,Antonio Torralb | Lillie Paquette / MIT School of Engineering


Bill Freeman 是 Torralba 的同事,两人都是 MIT( Massachusetts Institute of Technology ,麻省理工学院)的教授。Torralba 在酒店中的经历让他们意识到,生活中还存在着很多类似的相机,他们把这些相机称为“偶然相机”( accidental cameras )。


除了窗户,自然界的偶然相机还有:拐角、室内植物、以及能够创造环境微弱倒影的其他物体。一般来说,我们看不见这些倒影,它们比其他图像暗了有1000倍。对此,Freeman 说道:“我们已经找到了取出这些图像,并让它们变得可见的方法。”


两位教授研究了在我们眼前,究竟隐藏了多少视觉信息。在他们的第一篇论文中, Freeman 和 Torralba 展示了他们的成果——用 iPhone 拍摄的房间墙上变化的光线,被成功地处理成了窗外的场景。


论文1:

http://people.csail.mit.edu/billf/publications/Accidental_Pinhole.pdf

题目:

Accidental pinhole and pinspeck cameras: revealing the scene outside the picture


去年秋天的一场会议中,两人及其合作者报告说,他们可以通过拍摄拐角附近的地面,发现有人在拐角的另一侧移动。


报告:

https://people.csail.mit.edu/klbouman/pw/papers_and_presentations/cornercam_iccv2017.pdf

题目:

Turning Corners into Cameras: Principles and Methods


在今年夏天出版的论文里,他们展示了更进一步的成果。通过拍摄室内植物,利用植物叶子投射的不同阴影,可以重建房间其余部分的三维图像。他们还实现了通过放大叶片的振动,听取环境中的声音,这时的叶子就像一个“可视化麦克风”。


论文2:

http://openaccess.thecvf.com/content_cvpr_2018/html/Baradad_Inferring_Light_Fields_CVPR_2018_paper.html

题目:

Inferring Light Fields From Shadows


在Torralba住的房间外的院子里,他发现房间的窗户偶然间起到了针孔摄像机的作用(图1)。用卡纸遮住大部分窗户,减小针孔的尺寸,可以让投射在墙上的图像(2)变得更加清晰(3)。倒过来看,图像展示了院子里的场景(4)。


2014年,科学家利用空芯片袋的运动重建了一段音频,音频的内容是一位男士的讲话:“Mary had a little lamb…”(1877年,爱迪生用留声机录制的第一句话。)


利用一个空芯片袋的微小振动,重建了“Mary Had a Little Lamb”这段录音,通过隔音窗可以看到这个芯片袋。


2012年,Torralba 和 Freeman 发表了“偶然相机”论文(即论文1);同年,MIT校园中的另一个小组,由 Ramesh Raskar 领导的团队,也发表了他们的成果。


论文3:

https://www.nature.com/articles/ncomms1747.pdf

题目:

Recovering three-dimensional shape around a corner using ultrafast time-of-flight imaging


这两篇论文的意义是里程碑式的, 基于他们的工作,研究员们开始了对“非视线成像”技术的探索,即如何看到角落的图像,并推断不直接可见的信息。


2016年,在这些成果的推动下,DARPA( the Defense Advanced Research Projects Agency ,美国国防高级研究计划局)投入2700万美元,开展了 REVEAL 计划( Revolutionary Enhancement of Visibility by Exploiting Active Light-fields ,利用主动光场提高能见度),为全国各地一些新兴实验室提供资金。


从那时起,一系列数学技巧和新见解的应用,使“非视线成像”变得更加有力和实用。


显然,该技术会在军事和间谍领域发挥不错的作用,此外,研究人员也探讨了其在无人驾驶汽车、机器人视觉、医学成像、天文学、太空探索和搜救任务等场景中的应用。


Torralba 说,走上这条路时,他和 Freeman 并没有任何特别的想法。他们只是在钻研,不停地研究图像形成和相机构成的基础知识,这自然需要对光的行为,对它与环境中的物体和表面之间的相互作用更全面的研究。之后,他们看到了那些从没人想过要找的东西。


Torralba 指出,心理学研究表明,“也许是因为我们看到的大多都不是真正的阴影,理解它们才变得那么困难。甚至到后来,眼睛也不再尝试去理解它们了。”



“偶然相机”

记录下了什么?


光线承载了我们视野之外的图像,它们不断地打在墙等其它表面上,并反射进入我们的眼睛。但是,为什么这些图像如此的微弱呢?


这是因为,无数光线游走无数个方向里,它们被分散了。


当被投射的表面只允许通过一组特定的光线时,就需要极大地限制落到表面上的光线,才能够形成一幅图像。这就是针孔摄像机的原理。2012年,Torralba 和Freeman 得出了如下结论:环境中有许多物体和特征会自然地限制光线,形成足够被计算机检测出来的微弱图像。


由于被成像物体上的每个点,都只发射具有正确角度的单一光线,以便能够穿过小孔,所以针孔相机的孔径越小,所得到的图像就越清晰。 Torralba 酒店房间的窗户太大,无法产生清晰的图像。他和 Freeman 也知道,一般来说,有用的“偶然针孔相机”很少见。


但是,他们意识到,任何小小的遮光体都可以组成一个“逆针孔相机”(或“针点相机”),这种相机形成的图像到处都是。


MIT的CV科学家,Bill Freeman | Lillie Paquette / MIT School of Engineering


想象一下,你在透过窗帘的缝隙拍摄房间的内壁,当然,看不到多少东西。


突然,一个人的手臂进入了你的视野。


比较手臂出现前后墙上光的不同强度,可以得到环境的信息。第一帧时,打到墙上的一组光线,被下一帧出现的手臂暂时挡住了。Freeman 说,用第一帧图像的数据减去第二帧图像的数据,“可以提取出被手臂遮住的东西” ——一束代表房间部分图像的光线。“如果你分别观察过阻挡光线,以及让光穿过的物体,你可以发现更多存在这些针孔状图像的地方。”


除了研究小强度变化的“偶然相机”工作外,Freeman 和他的同事还设计了一种算法,用来检测和放大颜色的细微变化(比如人脸上血管中血液的进出)和一些微小的动作(比如芯片袋的震动),像百分之一像素大小这样细微的运动,常常会被埋没在噪声里。


但现在,研究员们可以很轻易地发现这些小动作。


通过将图像转换成正弦波的结构,利用数学方法可以有效地实现目标。正弦波代表许多像素的平均值,可以分散噪声,所以转换空间后,信号不会受到噪声的干扰。


因此,研究人员可以检测两帧之间正弦波位移,并放大这些位移,将数据变换回来。


现在,研究员们开始结合这些不同的技巧,来获取隐藏的视觉信息。去年10月,在 Freeman 当时的研究生 Katie Bouman 领导的研究报告中,他们表明,建筑物的角落可以充当相机,显示拐角处物体粗糙的图像。

       

图注:通过拍摄拐角附近地面上的半影和暗影(1),可以获得角落周围物体的信息(2)。当隐藏区域中的物体移动时,它们投射到半影上的光相对于墙壁扫过不同的角度,这些细微的强度和颜色变化通常是肉眼看不见的(3),但是,它们可以通过算法来增强。从半影的不同角度投射出光的原始视频,分别显示了拐角处一个人(4)和两个人的移动(5)。


和针孔,针点一样,边缘和拐角也会约束光线的通过。Bouman 和同事曾经在白天做过实验,利用传统的记录设备( IPhone 也可以),拍摄了一座建筑物角落里的“半影”:角落周围隐藏光线中的一小部分,照亮了本影,就会形成圆锥形的半影区。


例如,一个穿着红衬衫的人走到角落时,衬衫会向半影区投射少量的红光,当人走路时,这种红光会扫过半影,肉眼虽然看不见,但用算法处理后就会变得很清晰。


6月,Freeman 和同事们发布了一项开创性的研究,利用墙边一盆叶子茂密的植物投射出的阴影,重建了一个房间的“光场”——一张显示室内光线强度和方向的照片。


叶子充当了针点式照相机,每个相机都阻挡了一束不同的光线。将每片叶子的阴影与其他叶子的阴影进行对比,可以发现其缺失的那一组光线,从而解锁隐藏场景的一部分图像。考虑到视差,研究人员之后会将这些图像拼接在一起。


由于算法中已经嵌入了关于环境的先验知识,这种方法产生的图像比早期的“偶然相机”产生的图像更为清晰。已知的室内植物的形状,假设自然图像趋于平滑的前提,以及其他允许研究人员对噪声信号进行推断的“先验知识”,都有助于锐化得到的图像。Torralba 说,光场技术“需要在深入了解环境的前提下才能进行重建工作,但它的结果能为你提供很多信息”。




“散射光”

的写真长什么样?



Ramesh Raskar 是 MIT 另一位研究 CV 的科学家 ,也是一位 TED 演讲者,他希望利用技术改善人们的生活。Freeman等人发现了那些藏在我们身边的图像,与此同时,Ramesh Raskar 也在做着相关的研究。


推荐TED:

https://www.ted.com/talks/ramesh_raskar_a_camera_that_takes_one_trillion_frames_per_second

题目:

Imaging at a trillion frames per second |

万亿分之一秒的图像


与  Freeman  团队不同的是,他采取的是一种“主动成像”的方法 :利用昂贵的专业相机激光系统发射激光,并拍摄返回的光线,绘制出角落周围的高分辨率图像。

       

Ramesh Raskar是MIT的一位CV科学家,他提出了一种主动“非视线成像”技术。 | Courtesy of ACM SIGGRAPH 2017


2012年,Raskar 和他的团队实现了他五年前的一个想法。


他们开创了一项技术,朝墙上发射一束激光,激光撞击墙面,这束光散射到各个方向,其中一些光打到隐藏的物体上,这些光也会散射,打到墙壁上,墙壁接收到来自隐藏物体的散射光后,进行反射,最终,一小部分光会返回相机里。每次脉冲后的瞬间,使用超高速扫描照相机,以每秒数十亿帧的速度记录单个光子,以检测从墙壁反弹回来的光子。


通过测量返回光子的飞行时间,研究人员可以知道它们走了多远,从而重建出藏在屏障后物体的详细三维结构。


该技术的不足在于,必须用激光光栅扫描墙壁,才能形成三维图像。比如说,角落里有一个隐藏的人。“从头部特点的点、肩膀特定的点和膝盖特定的点发出的光,都可能在相同的时间到达相机,”Raskar 讲道,“但如果我稍微更改下激光照射的方向,那么来自三个点的光就不会同时到达。”必须把所有图像的放在一起,并解决所谓的“逆问题”,才能重建隐藏物体的三维结构。


在解决逆问题时,Raskar 采用的原始算法计算量非常大,他的实验设备花费了50万美元。好消息是,目前在简化数学和削减成本方面,该算法已经取得了很大的进展。Nature 杂志3月份刊登的一篇论文中,提出一种高效低成本的 3D 物体成像方法(该论文以兔子摆件为例进行了研究)。


论文4:

https://www.nature.com/articles/nature25489

题目:

Confocal non-line-of-sight imaging based on the light-cone transform


论文的三位作者 Matthew O'Toole,David Lindell 和 Gordon Wetzstein 来自于斯坦福大学,针对原始算法的问题,他们设计了一种强大的新算法,并采用了相对便宜的 SPAD 相机,这种相机的帧频率比 Raskar 使用的相机频率低一些。在其中两位作者的职业生涯早期,Raskar曾经指导过他们,他评价说,这种方法“非常聪明”,并表示,“这篇论文是我最喜欢的论文之一!”

       

在主动“非视线成像”中,墙壁散射出来的光线,打在隐藏的物体上(一个兔子摆件),摆件上的光线进行散射,打到墙壁上,再反射回发射点(相机所在的位置)。

       

图利用反射光对物体进行三维重建。


先前的算法有一个待理清楚的细节问题。


一般来说,研究人员会拍摄墙上不同于激光点的光子,这样他们的相机就可以避开激光的反向散射光。但是,通过把激光和相机指向几乎相同的点, 研究人员发现射出和射入的光子可能出现的范围是相同的。光从表面散射时,会形成一个光子的不断扩散的范围,随着时间的推移,这个范围会形成圆锥形。


20世纪初,爱因斯坦的老师 Hermann Minkowski 提出了“光锥”的概念,来描述这一现象。 O'Toole 简化了这种说法,把光子的飞行时间与光锥表面的位置联系了起来,并将该过程称之为“光锥变换”。


目前,无人驾驶汽车已经具备了用于直接成像的激光雷达系统,可以想象,有一天,它也可以配备 SPAD,观察街角的情况。


Andreas Velten 是2012年, Raskar那篇论文的第一作者,他说道,“不久的将来,会提供手持形式的“激光SPAD”传感器。”他现在在 Wisconsin 大学带领一个“主动成像”小组进行相关研究。


Velten 认为,当前的任务是“进入更复杂的场景”和现实场景,“而不是必须非常小心地设置一个白色物体,周围全是黑色空间的场景。相机得能自动对焦。”



事物藏于何处?


在以上发展的基础上,Freeman 团队的研究员们开始了对被动和主动两种“非视线成像”方法的整合工作。博士后研究员 Christos Thrampoulidis 领导的论文中,介绍了他们的研究成果。


如果用激光进行主动成像时,角落里存在着一种已知形状的针点相机,就可以不需要光子的飞行时间信息,直接利用被动成像的方法重建隐藏的场景。 Thrampoulidis  自信地讲道:“我们应该用普通的 CCD 相机就能实现。”


有朝一日,这种技术会在搜救领域,自动机器人领域发挥重要的作用。Velten正在与NASA的喷气推进实验室( Jet Propulsion Laboratory )合作,开展一项对月球洞穴内部进行远程成像的项目。


与此同时,Raskar及其团队已经使用他们的方法实现了阅读闭合图书的前几页,透过迷雾看到远处一小段区域的功能。


此外,除了前面提到的音频重建工作,在健康、安全设备、检测天体的微小运动等方面,Freeman 的运动放大算法也能派上用场。David Hogg 是纽约大学和 Flatiron 协会的天文学家与数据科学家,他认为:“这是一个非常棒的想法,我们必须将它应用在天文学研究中。”  


利用“非视线成像”技术,看到屏障后的事物,确实会引发对机密问题的讨论,对于这个问题,Freeman 有一些自己的思考。


“这是一个在我职业生涯中思考了无数次的问题。” Freeman 从小就是一个相机迷,他用它拍照,鼓捣里面的零件,沉醉在相机的世界里。


刚开始工作时,他从没打算过从事任何与军事或间谍相关的工作。但随着时间的推移,他开始认为,“技术是一种工具,可以在多种场景中使用。如果试图避免任何军事用途,那就永远不会做出任何有用的事了。“他补充说,即使在军事领域,“这种相机也有多种应用方法,比如帮助士兵看到躲避的攻击者,避免被杀死。通常来说,知道物体在哪里总是一件好事。”


但是,真正令他兴奋的,并不是技术,而是发现了身边隐藏的现象。 Freeman 认为,“世界上还有很多待发现的事物。”




翻译:尚奇奇

审校:刘培源

编辑:王怡蔺

原文:

https://www.quantamagazine.org/the-new-science-of-seeing-around-corners-20180830?from=singlemessage



推荐阅读


黑客“微暖攻击”,你怎么接招?

与树共舞:分形舞蹈可视化

专治脸大计算机无法识别

一粒灰尘如何长成六边形的雪花?

加入集智,一起复杂!

推荐课程

PC端观看地址:

http://campus.swarma.org/gcou=10091





集智俱乐部QQ群|292641157

商务合作及投稿转载|swarma@swarma.org

◆ ◆ ◆

搜索公众号:集智俱乐部


加入“没有围墙的研究所”

让苹果砸得更猛烈些吧!

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存