视觉研究的前世今生（上）

2016-12-17 大数据文摘

大数据文摘基于大数据垂直领域50万粉丝的优势

想要发起一次众包的行业调研。

我们诚挚的邀请您用5分钟填写

《大数据行业从业者调研报告》

共同促成整个大数据行业的一次调研

本文作者王天珍（武汉理工大学）

授权转载自人机与认知实验室

作者用一篇近三万字的长文，从古希腊开始，娓娓道来了人类在视觉研究上的前世今生。鉴于一条图文可以推送的字数有限，大数据文摘在本周末分两条推送王天珍老师的这篇长文，与各位共赏，文章的后半部分在大数据文摘同日第一条推送可以看到。

序

▼

视觉是人类最重要的知觉，没有视觉人类很难定位，识别物体，了解坏境，得以生存发展。20世纪两次世界大战，使得西方各国，不论是为了飞机安全着陆，还是导弹精确制导，都对视觉研究有了非常大的兴趣，系列的欧洲视知觉会议（ECVP，1978），杂志“视觉研”（vision research，1961）在上世纪的出现,都不同程度源于得到了各大基金和有关军方的支持NASA,NIH NSF, officeof Navel, Air Force Research）。至今在西方各国视觉研究依然是一个热门研究方向。

80年代，我在新华文摘上读到钱学森关于人工智能的一篇讲话，他提到计算机的出现改变了人类社会，计算机又快又准确，但就是在物体识别方面无论如何也赶不到人类视觉，这引起了我对物体识别的极大兴趣。几年后到美留学，学习数字图像处理，这才知道物体识别属于计算机视觉的研究范围，知道至今为止不论是计算机视觉研究，还是人类视觉研究都没有大的突破。

我是一个喜欢追根刨底的人，从小电影，电视剧，小说一定要知道结尾，于是就被套了进去，不论有钱没钱，英文中文，凡是与视觉有关的杂志，书，都要找来看，各种会议自己花钱也要去参加，何况回国后主要工作也是图像处理方面的教学和研究。近30年来还是有些成果：1，对视觉机理有了比较深的理解；2，知道了不少古今中外研究视觉的人和故事.于是就有了把这些故事说出来的愿望，在唯SCI的时代，和在职的年青教师研究生去抢饭碗，去投稿一级学报，争取发表，没有必要，就在博客上吹吹牛吧。

按照J Wade 在视觉的自然史中的划分原则，和我自己的思路，我将视觉史的研究分为3个阶段：1838年前，作为自然观察研究时代；将Wheaston 发明立体镜到1982年作为实验研究时代；将1982年Marr的：“VISION”（中文译为”视觉计算理论”）出版作为信息科学研究时代的开始。

最后谈谈我知道的国内有关研究。

视觉研究的前世今生（一）

▼

§1从古希腊到18世纪的视觉研究

§1-1视觉是什么：外射说和射入学之争

狼和狮子等猛兽的眼睛在黑夜里闪闪发光，引起恐怖和神秘之感；检阅时统帅们用眼角余光逼视着他的队伍里的士兵，让他们感到威严的压力，如此等等使得古希腊一些学者认为视觉是人类眼中发出来的光作用到物体上产生的感觉。认为视觉是从眼睛里发出的光或者火，灵魂借以感知世界的学说被称为外射学。外射学的提倡者和支持者有：柏拉图（Plato，350 B.C.）欧几里得（Euclid,300B.C.）,托勒密（Ptolemy，150）。

图1柏拉图

欧几里德是古希腊公认的大数学家，他依据光是直线传播的事实，按照柏拉图的等同光与视觉的思路，数学化了光学，写了“光学”从而将视觉也几何化了，他提出光线从眼里投射到物体，视觉被限制到视线形成的立体锥中，对着大角的物体被知觉为较大，这样他不仅对光通过空间作了说明，他的光学是一种空间知觉几何理论。科学研究不等于数学，但是只有有了数学，科学研究才能深入。美国资源委员会对科学研究的定义是：“科学研究工作是科学领域中的检索和应用包括对已有知识的整理、统计以及对数据的搜集、编辑和分析研究的工作。要整理、统计以及对数据的搜集、编辑和分析非数学不可，因此任何一门学科的研究，只要有了数学家的加入，就特别有活力。

图2欧几里德

外射学从常识来看，好像不合理。反对外射学的亚里士多德（Aristotle）就质疑说，如果视觉真如灯笼一样是从眼往外发射光，为什么在黑暗中，眼睛没有看的能力呢？但就是因为欧几里得等同视觉与光，从几何的角度，说得头头是道，使得外射学流行了几百年。原子论的提倡者德莫克里特（Democritus,400 b.c.）认为从物体发射的原子压缩空气带物体的影像到眼睛，引起视觉，这个观点被伊毕鸠鲁（Epicurus,300 b.c.）发扬光大，形成了另一个学派射入学派，射入学派经过亚里士多德的学生Theophrastus（300 b.c）的整理更接近现代光与视觉的概念：太阳发出的光被物体反射，通过透明，或者半透明的媒质被眼睛接受，反映亚里士多德意识到作为物质的光和作为媒质运动的光的区别，他们认为，这样的运动是瞬间的，能同时被很多观察者接受。但是这一学派当时并没有被广泛接受。

图3亚里士多德

托勒密一般坚持欧几里德几何光学理论，但是他认为视觉不是等同通过单个视锥，而需要双眼视锥的结合。他更看重实验，他对折射反射作了长期观察，能够准确的描叙这些现象，发现在两种不同的透光物资界面上，光发生了弯曲，从折射角不等于入射角，而是有定量的关系。注意到建立物理和视觉的心理分析间的一致，这一点为后来的海桑（Ibn al-Haytham, Alhazen，1040）所发展。但是他坚持外射学。解剖学介入视觉研究比较早，把视觉研究从古希腊的哲学家的清谈和数学家的推演中走出来的，是古罗马的医生和哲学家盖伦（Galen，129，199）他活体解剖过动物，尤其是臾猴，并由此推论人体的构造。他发现白内障致盲，但是移去白内障，能够恢复视力，因此认为视线从晶状体发出（晶状体式视觉的基地）。

图4盖伦

他混淆阳光中的光线和视线。他依据解剖和生理的结合，同意托勒密的双眼单视。因为解剖他知道视神经在视交叉中结合，于是推测灵魂是从单一位置发出的。

世界科学的大发展有三个高峰，古希腊，罗马，文艺复兴。罗马以后，欧洲因为战乱，和黑死病流行对经济的影响，

大约有六百多年，科学研究受到压抑，很多希腊文献散失，学派消失。只是经过阿拉伯学者的努力，保留了大量的希腊学者的著作，并再翻译为拉丁文，欧洲到文艺复兴时，才能在希腊学术研究的基础上再次繁荣。

在其中阿拉伯的学者海桑（Ibn al-haytham,Alhazen,965-1039）起了承前启后的作用。他的巨作“光学”让欧洲重新知道了古希腊的各种学说。利用自己设计的各种装置，他有系统的研究光线的传输，反射与折射。他观察到睁开眼睛就能使整个天空充满阳光，而强的阳光会引起眼睛的疼痛，因而他相信外射学，他说眼睛是为感光而设计的。他还提出了后来认为是J.J.Gibson 提出的空间知觉理论，提出了被认为是Helmholtze最先提出的无意识推理。

图5开普勒

外射学和射入学之争直到17世纪开普勒（Kepler，1571-1630）才算经纬分明。1611年，他在“折射光学”中提出人们能够看见物体是因为物体发出的光通过眼睛的水晶体投射在视网膜上形成倒像，晶状体不过是一个光线的折射装置。1625年德国的物理学家沙伊儿（Christoph Scheiner,1575-1650)用牛眼验证了他的说法。他在被摘出的牛眼后极部，切除巩膜和脉络膜，于是人们在视网膜上看见了倒置的景物。这样大家才最后相信是物体发出的光进入眼睛，在眼底形成了倒置的景物影像，经历了一千多年的岁月，射入说，终于得到了承认。

§1-2眼睛的光学结构及调节现象的研究，眼镜及照相机的发明。

从盖伦开始，解剖学进入视觉研究，盖伦主要通过对猴子的解剖和偶然对洪水漂来腐烂尸体研究，对眼睛结构有了一些初步的了解，在他的著作“身体各部分的用处”一书中，有一节是关于眼睛和它的附属器官的，他描叙了玻璃体，捷膜，角膜，虹膜，晶体，脉络膜和视网膜。盖伦解剖过视神经，知道它的走向，并看见了视交叉得出视交叉是精灵进入脑时左右眼互相交换的地方。有两只眼的原因是能看到更大的范围，而且一只眼出了问题，还可以用另一只眼看。16世纪，意大利的天文学家F.Maurolico（1494-1575）研究了折射现象并企图解释彩虹，他描叙了小孔成倒象，并提出晶状体相当折光棱镜,光通过晶状体折射。

1619 德国天文学家，物理学家沙奈尔（C.Scheiner，1575-1650)第一个科学地绘出了人眼的示意图，正是他用牛眼的断层实验，验证了Scheiner 1619年绘制的眼调节图Kepler的倒像论，他用各种光学实验证明晶状体和玻璃体的屈光率，测定了角膜的曲率和晶状体的弯曲度，眼视光学从此登上科学的舞台。他写到，年轻人看东西清楚是因为他们的晶状体适应性好，网膜能自由活动。能够看远也能看近。

图6 Scheiner 1619年绘制的眼调节图

人类在对眼睛的结构进行研究的同时，发明了眼镜和照相机。

眼镜的发明改善了视力。据说眼镜最早出现在1289年意大利弗罗伦萨，是叫阿尔马托的光学家发明的。但马可波罗在1260年写到，中国老人为了清晰地阅读而戴着眼镜。说明眼镜是从中国传过去的。中国历史博物馆有一幅藏画“南都繁会景物图卷，中有一老者戴着眼镜，说明早在明永乐年间中国就有眼镜出现了。

照相机本身就是眼睛结构研究自然的产物。小孔成像的研究导致了暗箱的出现。水到渠成，经过了文艺复兴，1829年法国的艺术家盖达儿（Louis Daguerre，1787 – 1851）发明了照相机。

图7盖达儿

照相机的发明反过来又加深了对视觉的研究，因为与相机的对比，从开普勒到19世纪中，对视觉的研究很重要的一部分集中在对眼睛调节机理的研究上。人们推测是眼睛的哪一部分完成了调节作用使得人眼能在很大一个范围内看清物体，而不是像相机只能在一个距离上聚焦。有三种猜测：1，角膜改变曲率完成调节，近处曲率变大；2，晶状体在眼内前后移动，持这个观点的是开普勒，Scheiner是他的支持者，但也考虑晶状体形状的改变；3,晶状体改变形状完成调节，托马斯·杨（ThomasYoung，1773－1829），1793年从逻辑和生理的角度推出这个结论。他同时还解决了晶状体本身的结构问题，假设晶状体用肌肉的纤维组成。

眼睛调节在17世纪，被笛卡尔等作为知悉距离的线索，这成了柏克莱的肌肉调节是距离知觉的重要原因的空间视觉理论的重要依据。

网膜之后眼睛接受的图像去了哪儿？下节谈谈古人对双眼单视和视觉通道的解剖生理研究

视觉研究的前世今生（二）

▼

§2 视觉通道，双眼单视，和颜色视觉

§2-1视觉通道和双眼单视

人都有长在头前的两只眼，但看见的物景却是一个，这称为双眼单视。为什么双眼单视，双眼比一个眼看东西好，还是用一个眼好，自古以来就是学者们争论不休的话题。

双眼单视甚至在荷马的史诗“奥德塞（Odyssey）”中反映出来，神王宙斯（Zeus）的雷神就是独眼（cyclopine eye）。

亚里士多德（Aristotle）注意到复视，他说如果将手指压迫一个眼睛，一个东西就会看为两个，也就是说，从那时开始，人们就注意到双眼单视了。

这被托勒密（Ptolemy）用实验检验，较之Euclid只用光的投射解释双眼视觉，托勒密用控制观察法确定了双眼单视的条件，说明交叉和非交叉视差的差别。为现代双眼视觉研究铺平了道路。

托勒密的工作可能影响到几乎同时代的解剖学家盖伦（Galen），盖伦不仅通过解剖了解眼睛的结构，也通过解剖，发现从两眼到脑的神经通道。

图8 托勒密

J Wade 考证，在古时候，脑本身就不太被重视，视觉通道较之眼解剖更被忽视。希波克拉底（Hippocrates）认为愉快，感觉，思想在脑，但是心是感觉力的中心，虽然这一点，不为Aristotle赞同。通过解剖研究，Galen认为视觉通道起源于脑前室，在此，动物精神与视神经引起的视觉精神交互。视神经本身在视交叉聚合，但是每一方保留在自己这边。这个错误被重复，并被笛卡儿（Descartes）整合进入他的视觉分析中。Galen的脑前室类似于丘脑。在笛卡儿的折光学中视神经从每个眼同侧进入脑，在后面的松果体结合。他将此类比为盲人拄两根拐杖去触觉一个物体。

对于双眼和单眼的关系，亚里士多德考虑双眼从一个单源移动，因此单眼视觉优于双眼，他用眼动控制来解释这一点。托勒密注意到双眼和单眼的视方向不必一致，当两眼视方向一致时，双眼单视。而盖伦的理论是视精神在视交叉交互，故他考虑一个眼在使用时比两个眼视精神更集中。（Wade P240）

意大利自然哲学家波尔塔（Porta）则更激进，他认为因为竞争，每个时间只有一个眼在在工作。波尔塔的观点得到法国的画家，透视学教师LeClere的支持，他收集了一些实例，这些人每个眼分开比双眼看的更清楚，以此为证，说明每次只有一个眼在工作。

图9 笛卡儿

笛卡儿推测从两眼来的纤维（视神经）结合在松果体，但是作为画家和透视教师的 LeClere不同意他的观点，LeClere用透视图说明虽然两眼得到的图像来源于同一个物体，但是由于透视的原因两者并不相等，以此来反对笛卡儿的双眼融合论。

双茼望远镜和显微镜的发明者Cherubin dOrieans认为双眼视觉是优于单眼，在光度计被发明后，得到了证实。

§2-2颜色视觉

心理学家在什么是感觉，什么是知觉方面意见一贯不一致，但是他们一致同意颜色是感觉。但是为什么会有色盲，为什么我们会感觉到颜色，白光与颜色光的关系是什么，为什么会有彩虹这个问题一直到牛顿（Newton）才有了比较大的进展。牛顿在他的“光学”（1704）中说，我不是用假说解释光的性质，我是用推理和实验提出并证实它们。他用棱镜将白光分解成了彩色光谱，他意识到光谱是连续的，但报告了七种颜色，红，橙，黄，绿，蓝，靛，紫。从此人们知道白光能够分解成单色光，按一定比例，色光也能结合成白光。

图10牛顿

基于颜色混合的事实，汤姆士。杨（Young）在1807年提出三原色的假设。他设想视网膜上存在三种神经纤维，每种都引起一种原色的感觉，即红，绿，蓝色觉。到了1860年赫姆霍茨（Helmholtz）对三色学作了补充，提出光谱的不同成分引起三种纤维不同比例的兴奋，他们有不同的兴奋曲线

（寿书P234），在颜色混合中混合色是三种纤维按比例同时兴奋的结果。这就是后来有名的Young- Helmholtz三色学。三色说能很好的解释颜色混合现象，但是不能解释色盲现象。

色盲的概念是1844年由布律斯特（Brewester）提出来，但是在18世纪就已经有了纪录。原子论的提出者道尔顿（Dalton）1794年就在曼彻斯顿的文哲协会上就报告自己不能从黑色中区分红色，并引起了科学界极大的震惊（P137）。三色学认为色盲是因为缺乏一种（单色盲）和三种纤维（全色盲）造成的，按此学说至少应该有三种色盲：红色盲，绿色盲，蓝色盲，他们可以单独存在。并且依此理论只有三种纤维同时兴奋才有非彩色感觉，既然色盲缺乏一种或者几种纤维，那么色盲都不应该有明度感（白色感觉）。但是事实上，几乎所有的红色盲也是绿色盲，而全色盲着也同样有白色感觉。

图11赫姆霍茨

1864年赫林（hering）提出了对立色（拮抗）学说。认为视网膜中有三对视素，白-黑视素，红-绿视素，黄-蓝视素。每对视素对光照和黑暗呈相反的反映。色觉取决于视素的分解和还原。异化产生红，黄，白，复原产生蓝，绿，黑，在视觉研究史上称为hering law。拮抗学能很好解释色盲和负后像和同时对比。但是对三原色能产生光谱一切颜色没有给以说明。（hering law 英汉医学词典）

一个多世纪以来两种学说进行了长期，反复的争论，好像互不相容。近几十年来，尤其是微分光光度术的出现，色觉研究有了重大突破。现已证明人的视网膜上确实存在三种感色的锥细胞，而在从网膜向视觉中枢传递的过程中，颜色信息都是编码为拮抗对的形式传递。从而解决了两种理论之争，美国著名生理学家Hartline 说，两者都是对的。

图12 海林

视觉研究的前世今生（三）

▼

§3空间知觉

§3-1概述

学术界一致同意空间知觉是视觉的最高层次，也是视觉中最抽象，最难以理解的。众所周知。物体上一点发出的光线落到视网膜上只是一个点，但我们怎么能单凭视觉知道物体的远近，大小和位置？这个能力是先天的还是经验所致？这些问题在17-19世纪引起了学术界极大的兴趣，吸引了第一流的哲学家，物理学家，数学家，生理学家参加讨论，除了理工科学生熟悉的赫姆霍茨，海林，笛卡儿外，还有洛克（Lock）马尔布兰希（Malbranche），毛凌诺（Molyneu），康德（Kant），伯克莱（Berkeley）等。

当时流行的空间知觉理论是笛卡儿派的数学学说。笛卡儿继承了柏拉图和欧几里德的视觉观念，把光学和视觉等同起来，在几何光学的基础上加上对于视网膜，视神经的解剖和电生理知识，他发展了一套空间知觉理论。

最主要的观点可以简单归结如下：

1 在近处，物体的远近由物体对于双眼所夹的角决定，夹角越大物体越近，夹角越小物体越远；

2 在远处，是由可见点而来的光线落入眼睛的分光程度决定的，分光程度越大，离观察者的距离就越近，光线分散程度越小，离观察者的距离就越远。

因为知觉的远近是由几何定律决定的，因此笛卡儿派认为人生来就具有空间知觉能力。

但是这个观点，很多学者是不同意的。其中最著名的是洛克。他在他的名著“人类理解论”中，引用英国哲学家毛凌诺的信，提出了有名的毛凌诺问题。毛凌诺问题假设一个先天性的盲人，长大后学会了用手去区分方和圆的物体。如果此后他恢复了视力，在他第一眼看到物体时，能否凭借视力判断哪一个物体是方的，哪一个物体是园的？洛克和毛凌诺认为他在初视之下是不能凭视力分辨出方圆的。强调识别是与经验有关的，并不是先天所有的。

约翰·缪勒创立了神经特殊能量说，认为感觉神经分5种，不能互相替代，但不同性质的刺激作用同一感官可以引起同一感觉，如光刺激视网膜或者电流通过视网膜都能引起光的感觉。他主张视网膜同位观念，认为视网膜在它自身的活动中能自己感觉自己，我们自己的身体也在视野中。一切方向问题只能涉及各部分视野的相互位置。视觉方向仅仅依赖视网膜感觉部位的安排。（MACH，感觉的分析 P97）

大物理学家赫姆霍茨和海林不仅在颜色理论上各执一词，在空间知觉的看法更是水火不容。

海林主张先验论，认为空间知觉来自天生。例如，他赞同约翰·缪勒的观念，主张双眼辐合运动不是练习的结果，而是由遗传所致，应将双眼视为统一器官，协同运动依赖于天生的解剖基础。视觉空间是直接给予的东西。许多心理现象是由于人脑生来如此。

而赫姆霍茨则主张经验论，他提出了有名的无意识（unconscious inference）推理说，指出有些知觉看起来是直接认识，实际上是由于反复练习和联想才变为无意识的。例如根据所看见熟悉的物像的大小判断物体的距离，双眼的辐合运动，事实上依然是由经验而来的。与平常的推理类似，只不过平时没有自觉意识，故称为无意识推理。

在这场长达数百年的学术之争中，影响最大的就是1709年伯克莱写的“视觉新论”。他在这本不过8万字的小册子里系统地驳斥了笛卡儿派的数学学说，认为空间知觉是人们的一种内省经验，是人们用接近联想把视觉与触觉联系起来的结果。把对空间知觉的研究从几何光学中解脱出来，强调内省研究法，心理学就此进入了空间知觉研究的领域。

1838年，物理学家惠斯登（Wheaston）发明了实体镜，让人们第一次知晓了立体视觉-这一全新的深度知觉现象。实体镜给空间知觉研究提供了可控的研究条件，空间知觉研究从此进入了实验室研究阶段。

1885年，马赫写了“感觉的分析”的。在他那个时代，物理学取得了巨大的成就，甚至改变了感觉心理学，但是正是此时，物理学也遇到了危机：笛卡儿1664年提出来的“以太”观念（20世纪科学史P38）在光和电磁理论胜利后，在光速的测量中遇到了很大的麻烦。迈克尔孙-莫雷实验的否定结果挑战于机械的宇宙观。马赫就是在在物理学遇到危机的时候，反思物理学研究中可能出现的哲学问题，希望借此把“他毕生从事的各个不同科学部门（物理学，感觉生理学，心理学）理解为一种统一的事业”（爱因斯坦）。在此书中，他以大量的篇幅分析了空间知觉，把空间感觉与眼的运动和相应的神经支配过程联系起来，进一步提出了空间时间与运动的关系，爱因斯坦（Einstein）就是受了马赫“感觉的分析”的启示才提出相对论的。

20世纪初，格式塔心理学提出了完形说。

1951年J·吉布森出版了“视世界”（Visual Would）。认识到只在实验室用体视镜等仪器研究空间知觉是方向性的错误。

1987年奥大利亚心理学家BabraGillam发现遮挡存在时，双眼融合后共同区旁存在一个单眼区，对体视融合起了关键作用。这个现象被称为达芬奇立体视，以区分因视差产生的惠斯登立体视。空间知觉的研究来到新的时期。

下面分几段叙述有关的重大研究。

§3-2视觉新论

1709年24岁的伯克莱写“视觉新论”。这本小册子出版是响应洛克在“人类理解论”中，对知觉研究中笛卡儿的几何学和生理学派的的先天论的哲学观念的批判。但它比洛克说理更清楚，更深刻。有力的捍卫了全新的视觉研究观点，清算了笛卡儿以来在这个领域里积累的偏见，为学术界获得了积极发现所需要的自由气氛。（“感觉的分析”P96）

该书采用了一种不常见的格式，一共8万字的小册子，分成了160小段，按照1934年译者关文运的分析，可以分为7个自然部分，第一段是第一部分，是开张明义说明著述的目的是说明我们怎么知觉物体的距离，大小（幅度），和位置的。（这里，我用的2002年从Yorku 大学下载原文中magnitude 的原义“大小”，代替关老师译文中的“体积”。体积是3 D 的，含距离。大小既可以是体积，也可以是面积（2D），和长度（1D），这样更容易理解原文。）并进一步考虑视觉和触觉之间的差别，和有没有什么观念对两者是共同的。第二部分为2至51段，讨论什么是距离。第三部为52至87段，研究物体大小，面与体。第四部分为88到120段，解释什么是物体的位置。第五部分121-146，研究视觉和触觉有没有共同的对象。第六部分只有两段147-148说明视物体是大自然（造物者）构成的一种宇宙语言，帮助人们得以生存。第7部分（149-160）触觉的对象是实体，视觉的对象是颜色，在心中。

该书首先讨论什么是距离。伯克莱说众所周知，光是直线传播的，物体不论远近，从物体上一个点发出的的光落到网膜上都是一个点，为什么我们能用眼知觉距离呢？笛卡儿学派认为，距离主要是由两个方面决定的。首先是由物体对双眼张开的角度决定的，角度越大，物体离得越近。其次是由物体发出的光的分光程度，越分散，离得越近。伯克莱用内省法批驳说随便找个人试试，除了笛卡儿派的几何光学家，谁看见物体发出来的角度了？在英文原文的第4段有一句括号里的话（thefancy that we see only one eye at once being exploded ）我认为考虑到伯克莱写书之时，学术界关于双眼单视从盖伦以来有一种观点，说实际上虽然人类具有双眼，但只用一只眼时视精神更集中。而到了17世纪，法国的波尔塔更提出，虽然有双眼，每时刻实际上只有一只眼在工作。因此这段注解可以有解释为批评波尔塔等的单眼论。说，看看泡泡破了吧，大家都认为是双眼同时工作的。

对分光说决定远近，伯克莱引用了主流学派自己的反例，说几何学派的Barrow博士用反射，折射镜组合的实验得到的结果自己否定了自己。

伯克莱除了同意在远距离用视觉估计距离时，可以以物体到观察者间遮挡视线的其他物体多少来帮助估计远近外。提出了自己的两条原则；第一，人们是以注视物体时双眼的转动来知晓远近的；第二，人们是以视物时眼睛肌肉是否紧张来决定远近的。这两条为什么能知觉距离，是因为它们是与相应的触觉同时出现的，根据触觉，人们能知晓距离，由于眼动，眼肌紧张总是伴随相应的触觉，所以根据同时联想法则，人们用视觉也能根据这两条知觉远近。总之，伯克莱在这儿强调的是，距离不是用眼知觉到的，而是由于经验的作用，需要学习，空间知觉是心理现象，不能等同于网膜的几何特征。在后面几段，伯克莱将他的推理引申到对大小，位置的研究上，以毛凌诺的先天盲人问题为例，反复论证是经验而不是几何推理使人们能知觉大小位置。该书在对月亮大小，上下颠倒的问题的论证也很巧妙。

虽然当时的科学水平，还不能直接证实他们（伯克莱，洛克，毛凌诺）的关于突然得到视力的盲人，是无法将他由触觉得到关于远近形状的能力转化为视觉能力的推断。但这百年以来科学的进步已经提供了这样的条件，白内障摘除，角膜移植使很多先天盲人得到了了光明，但是研究发现如果他们是在关键期后得到的视力，终其一身，虽然有进步，但是还是不能使用视力正常生活。

2002年发现杂志就报道了这样一个例子，标题是“Sight Unseen”。报道美国加州一个有名的盲人企业家，运动员Mike May的故事。May3岁时由于矿灯爆炸失去左眼，右眼也因角膜混浊失去视力，但作为盲人这并没有影响他的发展，他甚至创造了盲人山地滑雪的世界纪录。在2000年May由于角膜移植重见光明，手术后第一个月他的行为完全证实了毛凌诺等的推测。此后，虽然他的视力渐渐改善，但是他始终没有学会用视觉去行动，出门依然带着他的导盲犬和手丈，成为一个有视觉的盲人。圣地亚哥的加州大学实验室的研究人员得出结论，手术后，物体发出的光信号到达了May的脑中，但是因为没有儿时的经验，没有很好的被解释。完全证实了300年前伯克莱的推断。

人们能用视觉知觉距离，大小，位置是视觉的内省经验而不是几何推理，这个观点是洛克和和毛凌诺先提出来的，但是伯克莱“视觉新论”里将其归结于于同时联想的作用，强调视觉是心理活动与几何计算无关是他的的新意所在。从此后心理学代替几何光学成为了视觉研究的主力。

在这儿要提到的是过去批评伯克莱总是以他否定视觉的对象不在心外，以此说明他是唯心主义，否定实物存在。我认为从今天生物信息论的角度来看，伯克莱说的有一定道理。300年前的心意味着脑（或者今天的神经系统），伯克莱说视觉的对象就只是光与色，这句话没有错，今天的解剖学证实视网膜能接受的就只是光与色，这是人们视神经系统的输入变量，只有经过神经系统的加工，在视觉系统的输出处，才是已经被识别了的物体和景物。在当时的科学发展水平称这为“心”是可以理解的。但是视觉系统到底是怎怎么加工光与色，使它们成为可以识别的事物，至今人类也没有解决这个问题。2011年，国际知名杂志“视觉研究”（Vision Research）在庆祝它创刊50周年的两篇回忆文章中（L.Ungerleider，A.Bell;G.Westhemer）承认这个问题的解决依然在路上。

§3-3实体镜的发明-空间知觉的实验室研究

惠斯登是个大物理学家，他发明的电桥使他几乎家喻户晓，但是他最大的贡献是他1838年发明了实体镜，使得被人们忽视了几千年的立体视觉现象被发现。

他是在设计电声仪器时，偶然发现在两块金属平板里反射出来的略有差别的蜡烛火焰图像，如果分别被两眼同时看见，融合后就有就会有实体感。他很有兴趣这个新现象，反复琢磨，最后发明了实体镜。1838年他公布了自己的发明，并称之为视觉理论的新事实。指出双眼中两个稍稍不同的图像的结合产生实体感。（Wade perception1987，P785）他指出这是一种以前没有观察到的现象，他称之为立体视觉。

实体镜和立体视觉现象很快吸引了年青学生的注意，也风靡了市民社会，从1838年来几乎没有任何其他视现象像它一样被如此多的实验研究，并作为理论前沿。两个图片（2D）引起实体感觉（3D），3D空间知觉能用2D图像而不是3D 实体来检验，视差能由图像线索控制，使得空间知觉能从它的客观基地上解脱，使得空间知觉的研究从自然观察进入到实验室研究，开创了空间研究的新时代。

其实，双眼仪器早就被发明，视差的概念也早就被提出（早在1679 法国的LeClere就用网膜视差攻击笛卡儿的双眼单视理论），立体视觉现象被成千上万的人看到过，但是为什么直到惠斯登才发现立体视觉呢？惠斯登对自己的发现是这样评价的，他说这事很奇怪，类似这样的现象已经被看见成千次，但从来没有足够的注意力让它成为哲学观察的主体？直到偶然被他注意到。（P811）1987年J.Wade 同意1942年波林（Boring）对立体视觉发现的评价，他说，惠斯登能发现立体视觉，不是因为他站在巨人的肩上，看得更清楚，而是因为他不熟悉他们的工作。换句话说是偏见比无知离真理更远，是旧的依据视觉方向解释双眼单视的理论从思想上阻碍了立体视觉的发现。

§3-4 马赫的“感觉的分析”

19世纪是物理学大丰收的时期，也是物理学困惑的时期。光学，热力学，电磁学都取得了引人注目的成就，麦克斯韦方程预言了电磁波的存在，并很快得到了验证，电磁波的出现，光电统一，为无线电通信，以至100多年后的互联网开辟了道路。但是也出现了了意想不到的烦恼和危机，高精度的迈克耳孙（A Mickelson）莫雷（JMorley）干涉仪（测量光速）实验的否定结果，否定了由笛卡儿提出的以太的存在，挑战从牛顿以来建立的机械的世界观。

在牛顿那儿，物质在与物质无关的绝对的时间和绝对的空间中有序运动，但现在这种理论受到挑战，问题出在哪儿？当时作为实验物理学家马赫（Mach 奥地利，1838-1916）由于工作性质，不仅研究光学和声学也研究听觉，视觉和运动感觉。他研究气体动力学，发现了声速和流速之比的马赫数，马赫角，和马赫效应。他研究圆盘高速旋转时的视亮度分布，发现了主观感觉在亮的一端呈现一个特别的亮带，在暗的一端呈现一个特别暗的带，后来这被命名为马赫带，是神经系统相互作用产生的。他研究动觉，通过转椅实验发现人和动物感觉到的是加速，减速而不是“绝对运动”。他把流体力学知识用来解释这种现象，指出运动感觉来源于内耳半规管内流体的惯性。具有这样交叉学科的研究经历，在这样的大环境之下，马赫自然就想到伯克莱对笛卡儿等同几何光学与空间知觉的批评。认为物理学的危机是不是牛顿力学把来自经验的东西和任意约定的东西混在一起引起的。经过了长达20多年的酝酿，马赫在1886年出版了“感觉的分析”。一书。（马赫研究P61）马赫的愿望是希望获得一种观点把他毕生从事的各个不同科学部门统一起来，为解决自然科学认识问题寻找一种哲学立场。

试图对牛顿的脱离任何物质的绝对空间和绝对时间的先验理论进行研究。把感觉看成物理经验和心理经验的共同要素。用感觉的复合来统一物理，生理和心理科学。他和伯克莱不同，时代对伯克莱提出的要求是在空间知觉研究中清除先验论的几何光学的影响，用心理学的接近联想法，用视触结合的方法去认识距离，大小，位置。而在马赫的时代需要对空间，时间本身定位，马赫根据当时心理学的研究认为空间，时间和颜色，声音一样也是感觉。他希望把客体，身体，意志记忆，用感觉统一起来，他说实在的世界和被感知的世界并没有真正的鸿沟，不同的只是考察方式。他指责盲目的借用其它学科的观点，方法会造成科学研究的混乱。他认为视觉，听觉是和空间感觉互相结合。

在这本19世纪最伟大的哲学著作中他用了5章去讨论空间感觉，一章讨论时间感觉，还有一章讨论声音感觉，因为本文是介绍视觉研究，我只能去把尽可能把马赫对空间感觉的研究介绍清楚。

马赫对什么是空间感觉的介绍很有特色，他举了有色字母的例子，说两个字母同形不同色，我们能一眼看出色的不同，但形式相同，这种相同的感觉成分就是空间感觉。这不是几何问题而是与眼动有关的。眼动相同的度量和方向引起相同的空间感觉。

马赫回顾了19世纪空间知觉研究的进展：1）清除了笛卡儿先验论的偏见；2）缪勒创立了神经特殊能说，主张视网膜同位说，认为视觉空间是先天的；3）惠斯登发明了实体镜；4）海林将双眼视为统一的器官，它们的协合运动依赖于天生的解剖基础，与高度感觉，宽度感觉，深度感觉相对应的是一个3D神经支配过程，这个过程按具体情况引起眼睛的左右转向，升降和收敛。他把缪勒的视网膜同位说总结提高，把空间视觉归结为一条简单的原理，同一视网膜部位具有同一高度与广度量值，对称视网膜部位则具有同一深度量值，因此，更严密的论证出空间直观是天生的。马赫对此有更深层的考虑，提出是否能用赫姆霍茨的方式从科学进化史的角度解释空间视觉。他用思想实验考察了这个问题，得出结论，认为促进视动的意志或神经活动就是空间感觉本身（感觉分析P101）。建立在运动感觉上的空间看来实际上是原始的东西。马赫在该书第7章14节应用耳迷路（耳蜗，半规管，耳石器的生理学研究结果支持自己的论点。他从生物目的论的出发用视网膜为例，说明空间知觉起源于生物的需要（P144），在某种意义上继承了伯克莱在视觉新论第6部分的观点，我们的空间视觉能力是造物主（author of nature）安排，是为了帮助人们趋利避害的得以幸福生存。

马赫在感觉的分析中用怀疑的经验论对牛顿脱离任何物质的绝对空间和绝对时间的先验论的批判，对理论物理做了巨大的贡献。深深影响了爱因斯坦，使得他能摆脱旧的机械的时空论影响，创建了相对论，统一了力学和电磁学。爱因斯坦自己认为是马赫给了他很大的启示。

§3-5 吉布森（J·Jibson）的视世界

吉布森是美国二战后最著名的心理学家之一，他有着与其他学者不同的一段经历，1941-1946，他在美国空军服役，担任航空心理专案计划执行人。当时飞机降落主要依靠驾驶员目测，他的研究发现飞机降落成功与否，主要取决与驾驶员的视知觉能力，于是提出以运动知觉作为甄选飞行员的必要条件。

二战开始后美国空军发现迫切需要了解当一个飞行物（航空器，飞鸟）登陆到飞机时如何从地面估计距离，空军专门立项研究与飞行有关的深度和距离知觉。他们在实验室研究各种单眼双眼线索，典型的仪器是，实体镜，深度知觉仪，或者能进光线的暗箱。心理学家在室内，在均匀的背景下，作了各式各样的实验，但没有一个能够准确预估在这个任务中，一个飞行器是成功或者失败。到了二战快结束了，学者才意识到，实验应该在自然环境在户外进行。

由于他的特殊身份，吉布森是少数几个在战争结束前，与飞行员一起用户外环境，照片，以及运动图片进行空间知觉研究的实验者。因为在飞行员的眼里，空间是由地面和地平线决定的，而不是被他飞行的空气中的物体和物体阵决定的，（P6-7）所以吉布森有了和其他研究者很不同的空间观念。在全面研究了空间知觉研究史，在讨论了先天论和经验论旷日持久的论战后，在格式塔心理学的启示下，吉布森依据他在二战中的实验结果，提出了一个被称为地面理论的假说，这个理论的基本概念是视空间不是知觉作为物体和物体阵，而是作为一个连续的表面或者相邻表面阵。

他提出环境光和生态光学理论，提出了光流的概念，他提出从二维平面的光流场可以恢复3D空间运动参数和结构参数的假说。他把这一切写进他的专著“视世界”（Visual World，1950）中。这本专著引起了学术界极大的重视，他提出的人是如何在不断变化的感觉基础上获得恒定知觉的问题，成了指导后来关于空间知觉研究的钥匙。

他的光流说，得到了计算机视觉的主流理论-3D重建理论的创始者Marr的重视，被写进了各式各样的计算机视觉教材，作为简单实用的图像运动的数字表示法，影响至今。

现在计算机视觉在没有找到通用理论的情况下，用光流计算也算是一种可行的做法。但是也有人提出了质疑。2000年，国际知名杂志“perception”上，JE Cutting 发表一篇论文“Images,imagination, and movement: Picturial representations and their development inthe work of James Gibson”,谈到有名的鸟飞光流图的可信性。有兴趣的可自己找来读。

§3-6达芬奇（ Da Vinci）立体视，遮挡问题研究（一）

在立体镜发现之前，学术界公认的深度知觉线索是双眼转动，眼肌紧张，另外视物的模糊，视物的大小，和遮挡（中间物体）也是很重要的线索。各种距离线索，比如眼动，眼肌紧张，视物模糊，因为与眼科学和神经生理学有关都被长期研究过，但很少有人想过遮挡为什么能引起空间知觉。

立体视觉的发现不但为空间知觉研究提供了实验手段，且因为立体知觉不需要经验，从而支持了数学学说的先天论者。60年代末，Julesz设计了随机点立体图对（RDS），说明只要视差不需要形状信息就能决定深度，更加支持了先天论的计算学派。80年代初，MIT人工智能实验室的Mar依此提出了按视差计算物体深度的3D重建理论，成了计算机视觉的主流理论，风靡一时。在这个理论中，为了达到物体和景物3D重建的目的，需要解决双眼图象对应点匹配的问题，因此学术界的焦点都放在了解对应性问题上，Marr虽然注意到遮挡存在时，双眼有不对称区存在，但他把不对称区作为噪声抛弃，遮挡对深度知觉的作用再一次被边沿化。

虽然Marr在80年代几乎被神化，不但在计算机视觉，也在心理，生理学界有了很大的影响，但仍然有一些学者发现遮挡引起的双眼不对称区对产生深度感是有作用的，不能被忽视。其中有澳大利亚南方新沃尔斯大学的Babara Gillam，哈佛大学视觉研究所的KenNakayama，加州大学伯克莱校区的G Westheimer加拿大约克大学的HiroshiOno 等。

1987年，B Gillam通过RDS实验，发现（1）单眼区是加速而不是延迟立体感的产生，（2）立体感起源于视差不连续处，不匹配仅仅在不连续区发现并且定位它们。Gillam还通过视觉史的研究发现早在文艺复兴时代大画家达芬奇（Da Vinci）就注意到这一点，达芬奇说两眼一起能看到小的前景物体背后整个背景，就像前面小的遮挡物是透明的一样。

Gillam指出，当前景物足够宽的时候，背景被完全挡住，但是在双眼观察时前景物的两边各有一条单眼区，只能被一只眼看见。就是在Julesz设计的随机点立体图对（RDS）中，为了产生视差，中心方移动的结果每个眼的图像中空出了一块，Julesz用随机点填补了这些区域。这样的区域在另一眼的图像中没有对应的区域是单眼区。Crimson，Mayhew及Frisby 等在80年代初就发现他们的算法在表面深度不连续初遇到极大的麻烦。

Gillam于是提出了新的假说，她认为深度的不连续是因为双眼图像的不匹配区，这些区域被视系统用来决定深度不连续，附加的单眼细节有助于双眼过程。她用心理物理实验来验证自己的新设想，实验结果证实了她的想法，前面流行的基于视差计算的3D重建模型开始遇到了有力的挑战。

Ken Nakayama等接着对这种现象进行了系统的实验和理论研究，1990年他的“DA VINCI STEREOPSIS：DEPTH AND SUBJECTIVE OCCLUDING CONTOURS FROM UNPAIREDIMAGE POINTS”一文在“Vision Research”发表，他用对系统的实验结果分析指出，这种双眼图像在遮挡物后的不对称可以分成两种，一种是现实生活中可以发生的，因为遮挡物在正中，或者由于孔径（缝隙）对周边的遮挡引起的。他称为生态可行遮挡限制，另一种是现实生活中不可能出现的双眼图像不对称，被分为生态不可行限制，指出视系统正是用在真实世界中无处不在的遮挡关系从不对称点恢复深度、轮廓和表面，这种由于遮挡引起的立体视因为最早被达芬奇发现故称为达芬奇立体视。

1990年Nakayama等在Perception（知觉杂志）发表题为“Transparancy：relationｔｏdepth，subjective contourS，luminance，and neon colour spreading“一文。受Marr的启示提出了一个视表面表象中间层知觉理论希望通过这个理论来统一解释两种立体视。

1994 年BartonAnderson 与Nakayama在“PsychologicalReview”上发表“Toward a General Theory of Stereopsis:Binocular Matching Occluding Contours and Fusion ”提出融合，立体视，遮挡是一致的，并提出一个简单的理论框架。

18年后，2009年知觉杂志就Nakayama1990年论文“Transparancy：relation to depth，subjectivecontours，luminance，and neoncolour spreading“中提出的视表面表象中间层知觉理论这个问题重新组织了一个讨论专题，Nakayama 在讨论中回顾了90年代初的各种视觉理论从Barlow到Marr ，和自己提出这个理论的学术背景，并指出在1992年受Gibson光流的启示，改进了自己的模型，并指出一切工作仍然在在幼年期。讨论中Anderson 指出了自己与这个理论的分歧。

26年后，Gillam，Barton Anderson，J Wade ，HiroshiOno等仍在遮挡问题上做研究工作，坚持至今。

Ken Nakayama 曾经领跑此项研究，依照Marr与Gibson提出过表面表象，但近年来他已经主要在研究面孔知觉了。

来源：http://blog.sciencenet.cn/blog-1239700-853296.html

◆ ◆ ◆

往期精彩文章推荐，点击图片可阅读

算法可视化：把难懂的代码画进梵高的星空

反向激励，在加速这个社会的黑化

方志远：不能指望借助古人的智慧、指望倡导古人的精神来解决现实的问题

阿哲发圈点赞大太子！杰哥爆电母X视频，曝瓜三平台年度电母！

S胖子！我见你老妈！户外一哥和瘦皇“激烈对喷”！互相问候家人！无惧大客户封禁！

“很多人让我对她轻一点”！旭旭宝宝和米儿“梦幻联动”！怒喷搞事水友！

视觉研究的前世今生（上）

往期精彩文章推荐，点击图片可阅读

算法可视化：把难懂的代码画进梵高的星空

您可能也对以下帖子感兴趣

反向激励，在加速这个社会的黑化

方志远：不能指望借助古人的智慧、指望倡导古人的精神来解决现实的问题

阿哲发圈点赞大太子！杰哥爆电母X视频，曝瓜三平台年度电母！

S胖子！我见你老妈！户外一哥和瘦皇“激烈对喷”！互相问候家人！无惧大客户封禁！

“很多人让我对她轻一点”！旭旭宝宝和米儿“梦幻联动”！怒喷搞事水友！

生成图片，分享到微信朋友圈

视觉研究的前世今生（上）

往期精彩文章推荐，点击图片可阅读算法可视化：把难懂的代码画进梵高的星空

您可能也对以下帖子感兴趣

往期精彩文章推荐，点击图片可阅读

算法可视化：把难懂的代码画进梵高的星空