汪涛:网上最专业的VR分析文章
最近一篇网文“美军专家表示VR可能永远不会成功”在网上流传,该文所讲内容作者个人深有感触。一些业内资深投资人希望我写篇文章分析一下,对当下VR热的确需要从真正专业的角度给些建议,遂有此文。
每过一段时间,投资界和产业界都会炒作一个主题,不过相当多的主题最后都不太成功,或者不象最初想象得那么成功。对于创新要容许一定的失败率,但有些创新是有规律可寻的,在一开始其实就可以评估到其成功的程度会有多大。前几年3D也曾如今天的VR一样热炒,3D电视甚至已经在很多电视网上进行试播,但很快就不了了之,仅在电影领域获得一定的成功应用。我很早就不太看好3D视频技术,这并非简单的直觉,因作者本人在北邮研究生期间学得就是图像和视频专业,并且前后从事了至少10多年视频相关产品技术和市场,我公司也刚刚投资了一家硅谷的VR创新公司Videostich,因此对该领域技术深有了解。
绝大多数人往往只是从音视频信号处理角度看问题,因此仅凭相关技术进步就想去得出市场应用的结论,其实这是很不专业的。音视频技术是不是能真正在市场上获得应用,其真正的核心基础是对人感觉生理的测量。最初电话信号带宽设定为3.4KHz,电视信号的帧率标准设定为24Hz,彩色电视信号采用红绿蓝三基色……所有这些全都是以对人感觉生理特性进行大量的测量为基础的。因此,我在当年学习图像和视频处理时,为了更好理解人眼的生理特性,专门阅读了很多眼科专业和视觉生理学的专著。其实一般电视和视频处理专业的专著里,也都有部分章节专门讲人眼的视觉生理特性,只是相对简单些而已。
现在我就来用尽可能通俗的语言告诉网友,为什么3D技术很难普遍成功,并且为什么长期看2D视频或图像不会太疲劳,而看3D视频和图像时间稍长就会很不舒服。
如果把人眼与摄像机简单进行比较,就可以较容易理解它们之间的一些细微却至关重要的差别。
先说分辨率。人工生产的摄像机或数码相机分辨率基本是均匀的,也就是你到整个图像的任何地方去看,它们的分辨率基本都一样,无论其具体分辨率数值是多少。但人眼却不同,在人眼视网膜大至中间位置叫“中央凹”,这部分产生视觉的主要是高分辨率的“视锥细胞”,边缘部分是低分辨率的“视杆细胞”。我们在视觉注意的目标点上会看得很清楚,而眼光周边的景物就看不太清楚,主要就是这个原因。这其实也是人们的常识就可理解的。在中央凹大约偏下的中心位置,有一个视觉神经集中的点,在这个点上因为没有视觉细胞,反而看不见了。这个点叫“盲点”,我们一般是注意不到的,但如果采用一定的方法,可以测到这个盲点,在这里就不详述了。
再说下聚焦的问题。相机聚焦一般是通过调节镜头距离来实现,因为相机的镜头一般是固体,焦距是固定的。而人眼却不是这样,人的眼球是一个形状可变的液态晶体,它可通过眼部肌肉作用改变眼球形状来调节焦距。这样,当你注意某个距离的图像时,眼球就调节成相应的形状来看清这个距离的图像,此时,更远处和更近处的景物就成为不清晰的虚像了。我们一般以为立体图像是通过双眼成像的像差实现,其实不完全如此,因为人眼可以通过聚焦看清的景物来判断距离,因此即使单眼也可以有立体感觉的。这个规律只要每个网友蒙上自己的一只眼睛看看世界就都可以体验到了。
以上这些其实我们所有人只要注意一下自己的视觉就可以明白了。只要理解了以上人眼视觉的基本特性,我们就可以来理解一些视频图像技术市场应用情况了。
当你看2D的图像或视频时,一般被看的视频或图像是处于同一“焦平面”内,也就是人眼球一定的形状所对应位置是清晰距离的垂直平面上。因此,看2D对人眼相对是比较自然的。
前面我们明白了,人眼球的形状只能对应一定距离的清晰图像。想象一下,如果你想让眼球同时看清楚5米和15米的景物,结果会是什么?这要求眼球同时得变成两种形状。人眼是做不到的。如果你对人眼提出这种要求,人眼岂能不难受死了。
但是,3D视频和图像技术在原理上就没考虑人眼以上特性会遇到的问题,它仅仅考虑了人的两个眼球从不同角度去看同一个景物,从而会通过视差来产生远近距离的判断。可是,当人在看这种“人造3D”视频时,眼球的聚焦机制会变得很痛苦,因为人眼实际接受的人造3D视频很可能全是从单一的比如说5米距离屏幕上获得的,但却要让人眼的视觉看到15米远的景物。这会发生什么情况呢?通过两个眼球获得的不同图像的确产生了15米距离的“假像”,此时眼球会很自然地向15米的距离聚焦,可是实际光线却只可能是从5米远的屏幕上传过来的。当人眼下意识地要去看清15米远的景物时,其实它必须聚焦到5米远才能看清。这种混乱在整个看3D的过程中会始终存在。并且人的眼球还会感到很困惑的一件事情是:明明看起来人造3D景物从1米、15米甚至30米远都有,但竟然全都是清晰的。实际看自然界时,如果15米远的景物清晰时,1米、30米的景物应该是模糊的才对。当人眼试图变换着要看不同距离的景物时,本来要改变眼球形状聚焦到不同距离处,但实际上它必须固定在5米远才能看清晰。在这些持续的视神经系统内在冲突下,人眼不感到痛苦才怪。
现在人工的3D视频原理只是建立在双眼成像,而完全未考虑单眼立体视觉特性。只要3D的技术原理是如此,就必然会存在双眼立体成像与单眼立体成像之间的冲突问题,都不可能让人眼真正舒服。这个问题从目前技术来说,别说还根本看不到解决的希望,而且根本就没人有胆量试图去解决。
如果是用头盔装置来看3D图像,应该中央部分清楚,图像边缘部分模糊才对。但覆盖了整个人眼视觉的图像竟然也全都是清晰的。这个问题不仅头盔式的3D存在,VR也会有这个问题。
以上就是“美军专家表示VR可能永远不会成功”一文中所说的即使目前最顶级的8万美元一套的军用VR系统看久了也会犯晕的根本原因所在,而且根本就没人有胆量试图去解决这个问题。
因此,3D只能在电影等部分场合获得应用,但却难以普及到电视和手机等所有屏幕。原因在于:电影屏幕距离很远,在看3D电影时单眼立体与双眼立体的冲突会小一些。但在看一些距离很近的景物时,人眼还是会有些压力。作为临时性的体验尚可接受,不过应明白别指望其体验会好到哪里去。尤其当试图产生距离人很近的景物时,人眼还是会不舒服。只是短时间产生一下冲突刺激一下还可以。
一旦我们深入理解了人眼的基本生理机理,就知道真正可行的潜在的市场应用在哪里了。VR之所以在今天被业界爆炒,并不是VR视频处理技术发生了多大的进步,虽然进步的确存在,主要是智能手机的普及带来了成本下降的革命性突破。原来VR头盔必须要自己制作液晶显示部件,这个部分的成本无论怎么降都是相当高了。但是,现在液晶显示部分可以完全去掉,用智能手机替代,VR头盔本质上只要一个架子和两个可调节的镜片就可以了。这样一个VR头盔价格即使顶级的品牌产品也可以降到100美元以下,一旦被中国大量山寨厂家做起来伴随手机免费送都可以了。
在智能手机的普及的同时,4G网络的普及也带来了VR视频传输的基础条件成熟。
以上两个条件就是VR可以被炒热的前提。
我体验过很多VR的产品,坦率地说绝大多数清晰度很低,看起来很难受。也有些产品技术做得不错。虽然我认为VR是否可成功长期有疑虑,不过从乐观角度说它可能会比3D潜在市场应用范围广得多。但无论如何,VR不会是一种象2D液晶屏一样极为普遍的视频显示技术,这涉及到另一个根本性的约束——VR头盔。VR同样是通过双眼成像来产生大场景视频的,其优点和问题也都在这里。
首先是头盔。很简单,只要是头上带上这么个玩意儿,无论技术怎么改进,都别指望长时间观看人会舒服。
另外一个问题是VR的大场景即是它的视觉震撼,同时也是它的问题所在。看到很大的视场会带来很强的震撼,但它与人眼观看真实的现实场景时同样存在必然的差异,这种差异也必然会让人眼产生疲劳。人在现实中可通过转动眼球来看聚焦不同方向的景物,但VR只能通过转动头盔实现。目前还极少听到可通过检测眼球转动来变换VR视频场景的技术。
人眼之所以只在中央凹处有极高清晰度,越到周边越模糊,就是可以用最少的信息量实现有效的视觉。而在VR中整个大场景全是清晰的视频图像,这会强迫人眼去关注整个可以覆盖全部视网膜的图像,这在带来震撼感觉的同时也会很容易使人眼疲劳。
因此,VR市场应用范围只能是一定时间的应用。如看房、看VR短片、飞行和驾驶模拟器、网上VR购物体验等,别指望它会最终普及到所有视频应用场合。