眼动追踪——能够快速准确地检测用户在 VR 头戴设备内的注视方向,经常在注视点渲染的应用场景下被谈论,它是如何调用资源,提高用户近眼显示质量,降低设备功耗。
多年来,眼动追踪一直被认为是 XR 一项遥远的技术。伴随着以 Tobii、七鑫易维为代表的供应链技术的成熟,XR 开发需求的叠加,从 2022 年以来,越来越多的 XR 设备开始配备眼动追踪技术,PS VR 2、Quest Pro、Vive Pro Eye 和 PICO 4 Pro 是目前 XR 消费市场中最典型的商用案例。
眼动追踪技术落地势头猛烈,预测在未来几年内可以看到该技术成为消费级 VR 头显的标配,当然,AR 眼镜在显示、功耗与体积未达最优解前可能还需要更长时间。
虽然注视点渲染是眼动追踪在 AR 和 VR 头戴式设备中的一个令人兴奋的技术场景,但眼动追踪的作用不仅于此。基于眼动追踪技术与更多 XR 软硬件的“串联”,可以开启更多产品功能,显著提高用户体验。
图源:网络
注视点渲染(Foveated Rendering)是大多人对于眼动追踪技术的第一印象,它旨在降低显示要求苛刻的 XR 场景所需的算力。
“注视点渲染”的名称来自“中央凹”(fovea)——它是视网膜中视觉(辨色力、分辨力)最敏锐的区域。以人为例,在视神经盘颞侧约 3.5mm 处,有一黄色小区,称黄斑,其中央的凹陷,就是中央凹。中央凹为我们提供了视野中心的高分辨率视觉,与此同时,我们周边的视觉实际上在捕捉细节和颜色方面非常差,更适合发现运动和对比。你可以把它想象成一个相机,它有一个只有几百万像素的大传感器,不过还有一个位于中间的小传感器,有着上千万像素。
实际上,人类可以看到高细节的视野区域比大多数人想象的要小得多,仅在视野中心占有几度。中央凹与视网膜其余部分的分辨能力差异巨大,如果没有中央凹,用户也将无法辨认此页上的文字。
现在,我们可以做一个小实验。如果你将眼睛集中在这个词上——“Fovea”——并尝试阅读下面的三行文字,你会发现几乎不可能看清楚这些文字,只能感受到它们是一群模糊的文字。人们高估视觉中央凹区域的原因似乎是因为大脑做了很多无意识的解释和预测,以建立一个我们相信的世界的模型。
注视点渲染旨在通过仅在中央凹看到的区域以高分辨率渲染虚拟场景,利用人类视觉特性,大幅降低周边视觉中无法仔细分辨的细节场景显示质量。这样做可以让我们将 XR 设备大部分处理能力集中在对画面细节贡献最大的地方,同时在其他地方节省运算资源。这听起来可能不是什么大不了的事,但随着 XR 头戴设备显示分辨率和 FOV 的提高,渲染复杂场景所需的功率也会相应提升。此时眼球追踪自然会发挥出最大的作用,成为提高近眼显示质量和节省设备资源的最佳调解器。注视点显示不是仅仅是改变屏幕显示中某些部分的渲染细节,而是实时跟踪渲染,无论用户看向哪里,它都始终保持在用户视线的前面。
注视点显示打开了在 AR 眼镜和 VR 头显中实现更高分辨率的大门,而无需通过试图在整个视野范围内以更高分辨率填充像素来强行解决问题。这样做不仅成本高昂,而且由于像素数量接近视网膜分辨率,还会遇到具有挑战性的功率和尺寸限制。
相反,注视点显示器会根据眼球追踪数据将一个更小的、像素密集的显示器移动到用户所看的任何地方,这种方法甚至可以获得比单一平面显示器更高的视野。在Varjo的头显中,像素密集的注视点显示器与更大、像素密集程度低得多的显示器大致近似。(图源:Varjo)
一个经典行业案例是 Varjo 的 VR 头显光学系统设计,他们在头显中使用一块显示屏,覆盖了广阔的视野(但像素密度不是很高),然后在上面叠加一个像素密度要高得多的微显示屏。这两者的结合意味着用户的周边视觉可以获得广阔的视野,而中央凹的视觉可以获得非常高分辨率的区域。
诚然,这种注视点显示仍然是静态的(高分辨率区域停留在显示器的中间),而不是动态的,但该公司已经考虑了许多移动显示器的方法,以确保高分辨率区域始终处于用户视线的中心。
除了检测眼球运动外,眼动追踪还可以用作生物识别符。这使得眼动追踪成为单设备,多用户差异化账户配置的理想选择——当一名用户戴上 XR 头戴设备时,系统可以立即将其识别为一个独特的用户,并调用自定义的虚拟环境、内容库、游戏进度和功能设置。当其他用户戴上 XR 头戴设备时,系统可以加载他们的偏好设置和应用数据。
当然,这里涉及在眼动追踪模组中加载其他生物识别算法(如虹膜识别),据 VR陀螺获悉,眼动追踪和虹膜识别可以共用一套传感器,而无需增加新的硬件,通过相应虹膜算法SDK的加载,XR 设备的眼动追踪还可以实现虹膜 XR 硬件解锁、虹膜支付等功能。
眼动追踪还可用于精确测量 IPD(瞳距)。了解用户自身的 IPD 在 XR 中很重要,因为需要将镜头和显示器移动到最佳位置,用户才能获得舒适的视觉效果。
不幸的是,很多人并不知道他们的 IPD 是多少,从而导致在使用过程中,视野中常出现一条黑线,双眼分看割裂画面,调试适配的过程并不难,然而却是无形中增加了时间成本,同时让人感觉 XR 的手动“落后性”。
通过眼动追踪技术,XR 设备可以很容易地检测到每个用户的 IPD,然后让头戴设备通过系统调动镜头移动,以毫米级的精度自动适配人眼的最佳观看位置。从用户体验角度来看,整个适配过程是更具含金量,并且相比于传统的手动 IPD 调节,依赖眼动追踪技术的自动 IPD 调节更加精准与科学。
在某些 XR 设备中,IPD 的适配是全自动化的,开机即用,而无需用户做任何适配动作,就像是你的智能手机在日光下,光线传感器会受到刺激,从而调用最大亮度,以让你可以看见,而 XR 设备未来的 IPD 趋势也将在眼动追踪的驱动下,更加无感智能化和自动化。从非球面透镜到 Pancake 折叠光路,VR 头显的光学投影方案愈加成熟和精进,相关技术路线也十分多样。然而,它们却并不支持人类视觉的一项重要功能:动态变焦。
当前的 VR/AR/MR 头戴式显示设备经常存在所谓的视觉辐辏调节冲突(vergence-accommodation conflict,简称“VAC”),通常立体图像能够驱动用户的人类视觉系统的聚散状态至任意距离,但在头显中用户眼睛的调节或聚集状态被光学系统驱动到了一个固定的距离。
因此,在长时间的 VR/AR/MR 环境中,当双眼视差与眼睛的聚散调节不一致时,VAC 便会产生,其后果是导致人眼疲劳,甚至是恶心和头痛(具体反应因人而异)。
变焦显示器——那些可以动态改变焦深的显示器——被提议作为解决 VAC 的一种方案。变焦显示器有多种实现方式,其中最简单的可能是从光学系统层面实现,在该系统中,显示器在镜头之间物理地来回移动,以动态改变焦深。
实现这种可驱动的变焦显示器需要眼动追踪,因为系统需要准确地知道用户正在看场景中的哪个位置。通过从用户的每只眼睛追踪进入虚拟场景的路径,系统可以找到这些路径的交点,从而建立用户正在查看的正确焦平面。然后将此信息发送到显示器以进行相应调整,将焦深设置为与用户眼睛到物体的虚拟距离相匹配。
采用良好的变焦显示器不仅可以消除 VAC,还可以让用户专注于比现有头戴设备更接近他们的虚拟物体,达到更沉浸式的体验。
在我们将变焦显示器放入 XR 设备之前,眼动追踪可以用于模拟景深,这可以近似于用户眼睛焦平面之外的物体的模糊。
截至目前,市场上还没有具备变焦功能的 XR 头戴设备,与以前的“眼动追踪”技术类似,这是一项具备未来应用价值,但尚未成熟的技术。在眼动追踪技术加入后,有望进一步加速该技术的研发与落地。
目前,大多数 VR 社交软件似乎都向用户展示了真实的眼球运动,包括眨眼、扫视和物体聚焦,包括《VRChat》、《Horizon Worlds》和《Rec Room》等。
精确的眼球追踪数据可以很容易地应用于 VR 数字化身,以表示用户何时眨眼,以及他们在看哪里。它还可以解锁有意识和无意识的非语言交流,如眨眼、眯眼和瞳孔扩张,甚至可以用来推断一些情绪,如悲伤或惊讶,这些情绪可能会反映在化身的脸上。
以社交起家的 Meta 一直在推动次时代 VR 硬件上的社交,如 Quest Pro 就具有眼球追踪和面部追踪功能,为虚拟形象带来了更真实的表达。
正如上文所提,通过对于用户眼球的追踪,眼动追踪对于被动地理解玩家的意图和注意力也非常有用。
假设开发者正在制作一款恐怖游戏,其中玩家在鬼屋中徘徊。传统上,开发者可能会花很长时间制作一个脚本序列,让怪物在玩家进入某个区域时从壁橱里跳出来,但如果玩家没有直视壁橱,他们可能就会错过恐惧。
而现在,眼动追踪就可以用来触发对应事件,只有用户看向正确的方向,怪物才会猛然出现,又或者直接跟随出现在人眼直视的区域。当然,如果设计师想制造一个更加惊悚恐惧的氛围,还可以让 NPC 出现在人眼的的周边区域,利用眼动追踪,每当人眼试图捕捉它时,它就自动切换位置,最大程度地展示恐惧,达到最佳效果。
在 PlayStation VR2 上,VR 恐怖射击游戏《黑相集:之字路VR》在眼动追踪和恐怖方面做了一些更有创意的事情——在游戏的某些区域,有一种幽灵般的人体模型,只有在你眨眼的时候才会移动……
除了利用眼动追踪来最大化恐怖感,这种被动输入还可以帮助玩家在虚拟环境中获得更高的精确度。例如,同样在 PlayStation VR2 上的《地平线 山之呼唤》中,用户的视线被用作一种“自动瞄准”,以帮助远距离拉弓显示更准确。
眼球追踪制造商 Tobii 展示了如何使用相同的概念来提高 VR 里投掷物体的准确性,通过根据用户的目光推断他们打算将物体扔向何处,系统将改变投掷物体的轨迹,使其达到完美精确的投掷。下面的剪辑动图虽然显示了实际和修正的轨迹,但在 VR 里的实际使用中,这对用户来说是完全不可见的,让人感觉更自然,体验更佳。
除了这种实时的意图理解,眼动追踪对分析也非常有用。通过收集有关用户正在查看的内容和时间的数据,开发人员可以更深入地了解他们的应用程序是如何被使用的。
例如,眼球追踪数据可以显示用户是否发现了一个重要的按钮机关,他们的注意力是否被环境中一些意想不到的画面部分所吸引,界面元素是否未被使用等等,帮助开发者更好地优化内容。当然,眼动追踪对于主动输入也很有用,允许用户有意识地利用他们的目光使游戏任务更容易完成。虽然现在许多 XR 应用程序允许用户通过指向物体,并按住“侧握键”远程抓取物体到手中,但眼球追踪可以使这一过程更快、更准确,让用户只需观察并抓取即可。
在该操作中使用眼动追踪实际上可以更准确,因为我们的眼睛实际上比用手柄更擅长指向远处物体,而我们的手有时会产生自然的抖动,对于指向远距离的物体时会有一定误差。
与抓取物体类似,眼动追踪输入还有助于拓展提高 XR 键盘输入交互的速度和效率,允许用户按下按钮和做其他动作,比移动身体或用手要快得多。可以预测,当 XR 成为一个真正高效的通用计算平台时,眼动追踪输入将发挥重要作用。此外,眼动追踪在医疗保健和研究领域也有广泛的应用,像 SyncThink 这样的公司正在使用带有眼动追踪功能的头戴设备来检测脑震荡,据称可以提高现场诊断的效率。
2022 年 3 月,SyncThink 宣布与 PICO 合作, PICO Neo 3 Pro Eye 设备结合 EYE-SYNC 后 ,将可以在开机后 10 秒内开始为病患进行评估。通过内置的眼动追踪,以 90Hz 的频率运行,临床医生可以捕捉到更多重要的数据,以辅助临床决策。
环绕声空间音频等其他功能也有助于实现测试程序和病人指导的自动化,在此过程中节省宝贵的时间。
研究人员也可以使用眼动追踪来收集和输入数据,比如更好地理解自闭症人群对社交目光接触的影响,或者为更多人提供远程无障碍服务等。
考虑到眼动追踪潜在的诸多功能拓展,眼动追踪必然会成为未来 XR 的硬件标配,与市场普及的重要推手。
1.眼动追踪是XR的游戏规则改变者,它远远超出了注视点渲染https://www.roadtovr.com/why-eye-tracking-is-a-game-changer-for-vr-headsets-virtual-reality/#1525802507571-6d24d015-7321 2.Pancake+可变焦,揭秘Meta(Facebook)轻薄VR头显光学设计https://www.vrtuoluo.cn/528510.html