丁春秋副校长最近很是得意,他的编码化功大法发了顶刊,还收了一个漂亮的学生——小机灵鬼阿紫,这个丫头既会讨好老师,又特别聪明,编码化功大法领悟得比大师兄摘星子还快,频频在学术会议上露脸,有人说她深得编码化功法的精髓,横行计算成像江湖指日可待。
也有人不服气,认为这门编码功夫有些邪气,有时候特别管用,成像质量特别高,但有的时候却什么也重建不出来。岳不群院长说阿紫出身信号处理,不懂光学,做什么计算成像?她懂什么编码?隔壁研究所新引进的大千鸠摩智研究员更是对阿紫一百个瞧不上,却让徒弟去偷阿紫的代码。乔峰和玄慈大师论起编码之事时,大师说:“人有正邪之分,编码不分正邪。只是有的人急于求成,基本功不扎实,还经常把各种编码方法汇在一起,才会出现编码的普适性不好的问题。看着邪气,这都是基础不牢造成的!易筋经中就有编码数理基础篇,是多年来编码高手的心血之作,可惜,很多人觉得难,不愿深耕,把别人的模型拿过来改改参数就要发论文,做低水平重复的事。当然,各类号称编码大师的责任更大,门派林立,不开放,生怕别人偷学,这都是多年的沉疴,需要下重药整治啊!”“编码虽不分正邪,却有狭义和广义之分。”大师喝了口茶,接着说,“目前,大多数说的是狭义的编码,比如时间编码、空间编码、相位编码,这类编码多是主动设计的,称为主动编码;其实像大气、水等介质对成像的作用,也可以理解为编码,只是这些编码被认为是不好的,被动引入的,我们称其为被动编码。”说到这儿,大师问:“乔施主,你觉得主动编码好还是被动编码好呢?”乔峰答:“江湖上流行的都是主动编码,无人谈及被动编码,好似就不存在这样的事。我倒认为,被动编码既然存在,并且当下我们只看到它的坏处。想必要使被动编码有好处太难,功力浅者尚认识不到。但也许你舍去的,恰是我需要的,研究被动编码或许能够启迪我们怎么做好主动编码。”玄慈大师赞叹:“乔施主果然大家风范,高见,高见!”今天,我们就来看看编码到底是什么?为什么要编码?编码的形式有哪些?我们该怎么编码?
计算光学成像是下一代光电成像技术,是光电成像技术步入信息时代的必然产物,其本质是光场信息的获取和解译,是在几何光学成像的基础上有机引入物理光学信息,以信息传递为准则,通过信息解译获取更高维度的信息。从计算光学的定义来看,计算光学可以理解为信息编码的光学成像方法,当然,这个编码有狭义和广义之分,狭义的编码就是目前计算成像中普遍采用的数字化编码技术,经常是线性的;而在广义上,我们可以认为所有的数学变换都是编码,这种编码既可以是线性的,也可以是非线性的。编码是为了调制光场,是计算成像大师手中的魔法棒。那么,如果说光场是计算光学的灵魂,编码就是灵魂的魔法师。首先,从编码实现方式上来看,编码可以是软编码,即采用代码方式实现,也可以是硬编码,即将编码固化为光学元件,说到这里,聪明的你自然还会想到可编程编码。 然后,从成像链路上看,几乎在链路中的任何位置都可以引入编码,典型的有编码照明(结构光、自愈合光束、傅里叶叠层成像)、编码介质(水、大气)、编码光学元件(编码孔径、编码快门、编码相位板)、编码探测器(偏振探测器、光谱探测器)等。还可以从是否线性方面分类:线性编码和非线性编码;按编码的复杂度分类:简单编码(时间编码、强度编码)和复杂编码(散射介质编码);从维度上分类:时间编码、空间编码、强度编码、相位编码、偏振编码、光谱编码和复合编码等;从主被动方面分类:主动编码和被动编码(主要是介质和与材料、工艺相关的)。很显然,编码的分类不重要,重要的是在什么地方、采用什么样的编码、达到什么样的目的。那么,我们再简单回顾下编码成像的历史吧。最早的编码成像应该是孔径编码成像,其思想源于小孔成像。小孔成像最大的问题是通光量,而成像分辨率却与小孔的尺寸关系极大。一般而言,小孔越小成像分辨率越高,但带来的问题是能量太弱,需要长时间曝光。小孔的尺寸太小时会出现衍射效应,导致无法成像。那么,两个小孔成像如何?多个小孔成像又如何?增加了小孔的数量,无疑能够解决通光量的问题,但带来的新问题是像的混叠。是否可以从混叠中的像解译出目标?当然可以,线性卷积就给我们带来了解决方案。编码孔径(Coded Aperture)的提出是为了在不牺牲分辨率的情况下增加光学系统的通光量。20世纪50年代中期,法国科学家马尔夏首先提出编码孔径技术,该技术最大的特点是通过调整孔径来改变光瞳函数,实现对光瞳函数的编码。编码孔径技术是在传统的光学孔径中插入一个具有特定结构的掩模板,能够克服传统成像系统的缺陷,得到更好的应用。2006年,MIT的Ramesh Raskar教授将编码孔径带入了计算成像领域,以解决全景深的问题,在上一篇已有论述。既然能够在空间域中编码,自然就可以在时间域编码,于是,我们就看到了Ramesh教授关于编码曝光以解决运动模糊的设计,亦在上一篇论述。编码曝光
为什么要编码?答案很简单,编码能给我们带来好处。有哪些好处呢?首先,我们从上述的分析可以得出一个结论:编码的本质其实就是数学变换在成像中的物理表现形式,不同的编码完成不同的功能,实现不同的目的。也就是说,成像模型中的数学变换需要用物理手段来实现,比如:压缩编码孔径成像的编码需要的是随机编码形式,需要满足压缩感知的RIP约束条件,在具体成像实现中,可采用在孔径挡板上做0和1打孔的矩阵编码方法,当然也可以采用反射DMD做伪随机的编码方法。严格地讲,压缩编码孔径成像的测量矩阵是随机的,每次都是随机的,可惜的是这样做会带来两个问题:(1)压缩感知告诉我们当采用随机测量矩阵时,该理论能够最大概率地恢复信号,也就是总有那么几次对信号的恢复并不好。这是一种乐观的理论,在工程中存在很大的挑战。(2)真正的随机编码没有,即使是伪随机码在工程上也存在很大的难度,加工成本高,控制困难。取巧的方法是加工一个固定的、看起来像是随机的编码(其实是某次随机编码的样本),取代随机编码。这样做的好处是工程代价小,实现容易,但不再严格满足压缩感知的理论约束条件,尽管每次好像都能够得到看起来差不多“满意”的结果。其实这能理解,成像是要重建的图像,只要不比预想的效果差太多,人的眼睛似乎都具有很高的容忍度。当然,在这里,我还要提一句:压缩感知的本质是解这样的线性方程组,处理的对象是向量,不是矩阵;而图像是矩阵,解决的办法是将矩阵“拉直”,变成向量。这样做,对吗?开篇中,我们曾讲过光电成像是朝着“更高、更远、更广、更小、更强”的目标发展,编码当然要紧紧围绕这样的目标去做。比如:面向更高分辨率,有压缩编码孔径成像、编码照明、编码探测器等;面向更小的体积,有超构表面编码、镜面编码等;面向更强的环境适应能力,有生物医学成像的照明编码、恶劣环境下的偏振成像等;当然还有解决景深问题的编码孔径成像和相位板编码成像等。“快快快,卫星马上过顶了,赶快拍下来!”队长命令道。旁边的操作人员急得满身大汗,“对不上焦啊!”对焦的行程长,“拉风箱”现象严重。你看,对焦几乎成了长焦距望远镜“永远”的痛。怎么解决对焦的问题?如果景深足够深,那么是不是对焦就能变得容易了?而前面的文章中,我们知道:焦距越长,景深越浅!那能不能延拓一下景深呢?传统的方法肯定不行,但计算成像中,很多研究者发现:如果采用波前编码的三次相位编码方法,在数学表达式中明确能看到景深延拓的效果。于是,很多研究者就开始了拓展景深的研究工作,发了很多论文。但是,你看到相位编码成像技术在哪里应用了吗?既然有这么好的东西,为什么不用呢?不用一定有不用的道理,我们下一节来分析。频域编码成像是根据空域中记录的光强信息和频域中某种固定的映射关系,通过在频域的改变系统的光瞳函数,拍摄得到一系列像素级光强变化的图像,再根据其中的映射关系来进行交替迭代更新重构,可以实现“亚像元”超分辨率成像。随着散射成像技术的发展,很多人发现毛玻璃是一种很好的频域编码形式,也可以用于超分辨率成像。最常见的探测器编码其实是Bayer滤片式的彩色CCD/CMOS,之后又有了高动态范围成像的编码传感器,自然,偏振探测器也可以认为是一种编码探测器。现在很多研究者纷纷在探测器上做量子点薄膜探测器,将偏振、光谱等能加上的都加上,就一个字——“乱”!应该说,大家在探测器上玩的花样已经很多了,但计算探测器却千呼万唤不出来,之后,我会有专门的一篇来讲这个问题。我们来总结一下:编码可以说是计算成像最早出现的形式,以颠覆物像共轭的身姿出现在人们面前,使人眼前一亮,打开了计算成像的一扇门。但是,随着编码成像技术的发展,经常会出现卖家秀与买家秀对决的场景,卖瓜的一直夸自己的瓜甜,可是买家却不敢轻易下手。为什么?我们来分析一下编码的数学模型基础是什么。目前,我们看到的几乎所有编码算法都是建立在线性卷积模型的基础上的,线性模型这一约束就会限定了编码的应用。所谓编码,表面上是扩散函数PSF的设计,本质上是对光场的调制,调制的维度可以是时间、空间、频率、物理维度等。但是,线性模型和冯·诺依曼原理架构的计算机系统会影响编码的质量。那么,我们该怎么去评价编码?
我们还是来看一看波前编码的三次相位板拓展景深的例子吧。关于这方面的论文,包括博士论文一大堆,说了很多很多拓展景深的好处如何,甚至说某某公司研制了相位景深扩展的显微镜等等,但是那个DeepView不是这个三次相位板,某百科的描述也不严谨。DeepView其实是一个关于景深拓展的框架,很多技术都可以实现拓展景深,目前,我们看到的显微镜采用的多是图像堆栈技术实现的,关于波前编码技术,在尼康、蔡司等公司的产品中没有见到。读论文需谨慎啊!首先,还是看看景深延拓的情况,从图中,我们确实可以看到景深延拓的效果还是很明显的,无论是从曲线还是实际仿真、实验的结果,似乎还是看到了什么。等等,好像不太对劲。我们看看怎么不对劲。对比一下加相位板前后的MTF曲线,看起来是不是很残酷?!对,加了相位板之后,MTF下降得很厉害,可以用一个“惨”字来描述。常规光学系统的MTF曲线与加入三次相位板光学系统的MTF曲线为什么?因为现在大部分编码技术都是在光学系统优化后的基础上硬性地引入,也就是说,原先的光学系统本身已经优化得很好了,而这个相位板却很不合时宜地“暴力”介入,导致之前的优化失衡,效果变得很糟!计算成像是建立在全局优化的基础上的,与传统的成像各个局部优化完全不同。编码作为计算成像重要的角色出现,自然要考虑全局优化。编码的本质是对光场的调制,通过编码手段调制光场,使得光场在某些投影维度上具有更好的数理特征。这句话似乎在告诉我们编码的目的和评价准则,看起来很简单,实际上却很抽象,实践起来也很难。之所以出现这些问题,原因是我们还没有合适的非线性模型描述成像,评价体系也没有建立起来。前面的文章里,我们已经讲过,计算成像是以信息为传递的,评价编码,自然要看传递的信息量到底有多少。在第二篇“光场:计算光学成像的灵魂”一文中,我们重点强调了光场才是计算光学成像最本质的东西;但是,目前为止,我们甚至很难准确地描述或记录一个小球在空中运动时“全”光场的分布,尽管这实际上是一个非常简单的场景。当我们往平静的湖中扔进一颗石子时,我们能够清晰地看到水波的变化情况;一个小球在空中的运动与此类似,比如会打破原先“平静”的光场,但光场发生了什么样的变化,却与很多因素有关:小球的材质、尺寸、运动速度、初始位置等都会带来光场的不同变化。同时,我们也要考虑,成像的目的是什么:更高分辨率、三维运动状态还是目标检测识别?很显然,不同的目的,需要捕获的光场信息也随之发生变化。从编码的角度来看,那就是看不同的编码方法下光场在这些目的维度上的投影显著性如何。很显然,显著性越好,编码便越优。这些,其实都需要数学和物理的支撑。
广义上的编码实际上就代表了计算成像,即表示什么都是编码。比如,近年来流行的超构表面和各类微纳光学元件,实际上都是光学编码。这些编码为计算光学带来了勃勃生机,现在很多看起来“革命性”的工作本质上都是编码。但正如上文所述,既然这么好,为什么还没有大量应用呢?其实,这些有很复杂的原因,技术是需要一步步推进的,尤其是需要付出很多艰辛的努力才能够得到认可。对于科研人员来讲,既要乐观地看到技术的前沿性,也要冷静地面对应用现实的残酷性。对于编码而言,最核心的问题其实还是光场,全光场函数在应用上没有用,况且也没有真正意义上能够写得明明白白的全光场函数,都是抽象的表达,更多的是噱头。这里有很多硬骨头要啃,典型的就是非线性的成像模型,还有编码的维度问题。我们看到的编码技术层出不穷,但从本质上来讲,都是数学变换,而这些变换影响到哪些维度,尤其是放在成像的全链路中,怎么能够保证信息经过投影后的最大化,这些都是研究的重点内容。这里还需要注意的是,现在我们采用的编码多是将数学变换转化为“物理”的硬编码,这个过程中,依然会存在因为数学到物理变换的近似约束而导致信息丢失问题,同样也会引入因为“物理”刻划等引起的噪声。这些问题其实在上一篇“计算成像中的数学问题”已有论述。“谁掌握了编码,谁就掌握了计算成像!”丁春秋副校长发了顶刊后得意洋洋的话是对的。为了维护住在这个江湖中地位,他也是拼了老命。对此,他也严格防范着鸠摩智,听说这个家伙要发一颗编码超分辨成像的卫星,于是就给他寄了一份象征友谊坚如磐石的贵重礼物。幸好,阿紫姑娘最近的编码功力大增,威力很强,据说“什么对焦、分辨率、光谱”,统统都能解决,但是有一点阿紫的师弟们都知道,他们的大师姊的功力不能脱离那个“神木王鼎”相机,而且需要支撑的数据集也邪乎,一般人拿不到,于是就有了鸠摩智指使徒弟窃取阿紫的数据集一事。得知江湖纷争,玄慈大师感叹道:“阿紫姑娘在编码方面有天赋,但她的师傅丁春秋不太重视基础,尤其是数学基础不牢,取巧太多,必入歧途。可惜,可惜!江湖中,人人皆道易筋经为编码之秘笈,天下人都想独有。其实他们不懂,那就是数学。他们看到阿紫发论文快,就开始坐不住了。”“而且,物理同样重要,有人学了几天物理,好像自己就不得了,恨不得把标签贴在脸上,其实都是皮毛,也不会灵活应用。那个鸠摩智不但数学好,物理也好,而且能融会贯通,确是编码奇才,高被引论文一篇又一篇。我读了这些文章,确实有好的想法,但还是在蹭热点。一会儿压缩感知,一会儿深度学习,现在又开始做脑科学……”只听门外一声冷笑:“老和尚,你还记得你和叶二娘当年的丑事吗?”本文经授权转载自微信公众号“中国激光杂志社”,编辑:张新蕾。