查看原文
其他

(完整版)MR未来的爆发点在哪?

Rossky Rossky 2023-10-15

我们可以从前段时间,苹果一则专利刷屏了投资圈,“苹果可以模拟生成气味”,从这个专利里来详细拆解一下:

MR设备未来的爆发点在哪,想实现有别于现在的爆发,有什么难度。



但气体可视化其实只是这个专利中很小的一部分。因为,这个专利整体上描述了一个比较“科幻”场景中的应用:

非可见特征的可视化(Implementations of the subject technology provide visualizations of non-visible features of a physical environment, at the location of the non-visible features in the physical environment. )

一、整体专利拆解

在苹果这个专利里,他想要是实现的可视化包括:

  • 无线通信信号(wireless communications signals)

  • 声音(sounds)

  • 气流(airflow)

  • 气体(gases)

  • 温度(temperature of physical objects)

  • 次声波/超声波(subsonic and/or ultrasonic waves)

  • 识别隐藏物体(hidden objects)

这种可视化的程度是:

设备可以获取深度图,使设备能够确定物理环境中非可见特征的位置,并将可视化叠加在用户对该位置的视图上。通过这种方式,非可见特征可以在物理环境中的正确位置、方向、方向和/或强度上进行可视化。扩展现实技术旨在通过提供增强的物理环境,并将计算机生成的非物理环境内容融合其中,以弥合虚拟环境和物理环境之间的差距。

这句话里面的重点是,正确位置、方向、距离或强度进行可视化。

乍一看,感觉像是可视化找寻物品的专利,有点类似于airtag,只不过airtag是手机上交互,而这个是XR交互,更高大上一点。但真的是这样吗?

我们跟着苹果在专利中列举的说明图一个个来往下看,首先是示例的系统架构


这个架构图里值得关注的信息:

1、移动设备或固定设备成为了XR装置的运算分摊工具,从而减轻XR设备的处理负担,关于这一点,我们在2021年的文章里就有提到

未来手机可能更多的会作为个人终端的算力设备,为个人终端的其他可穿戴设备提供算力支持。
Rossky,公众号:Rossky【FLAG系列】从AirTag看电子未来的方向

2、152各种传感器,原文所列举的传感器如下:包括但不限于摄像头、图像传感器、触摸传感器、麦克风、惯性测量单元(IMU)、心率传感器、温度传感器、激光雷达传感器、雷达传感器、声纳传感器、GPS传感器、Wi-Fi传感器(例如包括用于发送和/或接收Wi-Fi信号的无线通信天线)、气体传感器、气流传感器、近场通信传感器和/或天线、毫米波雷达传感器、光强度传感器、空气质量传感器、湿度传感器、氢离子电位(PH)传感器、湿度传感器、火焰传感器、蒸汽检测传感器等。(感受一下原文:include various sensors 152 including, but not limited to, cameras, image sensors, touch sensors, microphones, inertial measurement units (IU), heart rate sensors, temperature sense , Lidar sensors, radar sensors, sonar sensors, GPS sensors, Wi-Fi sensors (eg, including a wireless communications antenna configured to send and/or receive Wi-Fi signals), gas sensors, airflow sensors, near-field communication sensors and/or antennas, millimeter wave radar sensors, light intensity sensors, air quality sensors, humidity sensors, potential of hydrogen (PH) sensors, moisture sensors, flame sensors, steam detection sensors, etc. )

简直就是一个大融合,把能想到的,无论是生物信息、气体信息、位置信息、电磁信号信息等等,如果这些全部都装上了,那这个头显的功能将会是什么样的?一个超级战士头盔??有了这么多信号,我们可以做什么?

苹果在整个专利里面列举了很多例子,很多细细挖下去都是特别精彩有深意的,后续的文章将会一点点的拆解出来,拆解完以后,我们也将可以回答“有了这么多信号,我们可以做什么?”

首先,我们先拆解一下苹果配图解说的五大应用,分别是:

  • wifi信号强弱及方向可视化(对应专利Fig 3及相关描述)

  • 给宠物的超声波围栏可视化(对应专利Fig 3及相关描述)

  • 对于通风口气流的可视化(对应专利Fig 4及相关描述)

  • 隐藏位置/物体找寻(对应专利Fig 4及相关描述)

  • 对吉他的调音辅助(对应专利Fig 5及相关描述)

这里我不会全部讲,其中有些功能也是现在已经实现了的,比如Wi-Fi信号可视化【一个有趣的Quest可视化Wifi信号应用《SeeSignal》】 一个有趣的Quest可视化Wifi信号应用《SeeSignal》_哔哩哔哩_bilibili

以及相类似的超声波围栏可视化(原理相同,实现难度不太大),

通风气流的难度不一定,难度较低的场景是:已知通风口,流向已知,流量的话可以传感器识别(不过传感器的结构可能是个挑战)。难度较高的场景是:未知通风口,如何找寻。当然一般有点风,我们人自己也可以判断了,通风口的方向用人选补偿后,难度似乎也就不大了,如果是人都感觉不到的通风口,但对于传感器的灵敏精度要求大幅度提升,对于干扰的剔除将成为大挑战。这里不再展开了,因为苹果这个专利里面将会涉及到相当多对于传感器的超高要求,将会在传感器相关的专题中再展开。

对于隐藏位置/物体找寻,专利描述的是:通过插座本身的电磁辐射,或者是电线本身的电磁辐射来定位出被家具遮挡的电源插座212。如果这单需要依靠XR眼镜上的传感器来完成的话,那么这可能成本太高了(对传感器要求高)。如前文所述,将在传感器专题去展开。

这里苹果描述了另外一种用途:通过XR记录了类似212设备的时间和位置信息,可以用来比对,发现物体时间位置的区别。以及用来发现被隐藏的信息。这个描述起来感觉人均福尔摩斯了?

剩下的对吉他的调音辅助,是本篇文章探讨的重点。

二、对吉他的调音辅助


这个图举的例子是:一种利用非可见声音的可视化来进行乐器调音的方法,以及如何通过调整指示器来指导调音过程。

专利里的描述是(已翻译中文):

正如图5的示例所示,非可见现象的可视化还可以用于指导设备的用户,例如电子设备105的佩戴者,调整物理环境。在图5的示例中,显示了一把作为吉他500实现的乐器,正在使用吉他弦的非可见声音的可视化501进行调音。在这个示例中,可视化501是声音在可见光谱中的表示,该声音存在于可见光谱之外。在这个示例中,可视化是基于一个视觉上下文生成的,其中包括两个正弦波,如第一个正弦波502和第二个正弦波504。 第一个正弦波502的频率可以显示为与吉他弦的期望频率相对应(例如,基于用户输入、使用相机150和/或传感器152检测吉他和/或吉他弦以及使用已知/存储/学习的吉他调音参数的已知特征来确定)。例如,电子设备105可以检测正在调音的吉他上的哪根弦,并且可以确定所检测到的弦的适当音高(例如,E弦:A,D弦:G等)。第二个正弦波504的频率可以根据所检测到的弦声频率进行调整(例如,使用传感器152的麦克风来确定)。随着调整吉他弦的张力,从而改变了弦声频率并被设备检测到,第二个正弦波504的频率可以更接近或距离由第一个正弦波502指示的期望频率。 如所示,可视化501是基于检测到的吉他和/或弦的位置显示的,以便第一个正弦波502和第二个正弦波504都似乎是从物理环境200中的吉他500的位置(例如,三维位置)发出的。图5还显示了如何在物理环境200中显示虚拟调整指示器,例如调整指示器506。例如,类似于电子设备105的设备可以检测对象的物理特征,例如吉他500的调音旋钮508(例如,通过将相机150的图像数据和设备的深度传感器数据提供给已经经过训练以识别各种对象的各种物理特征的机器学习模型来实现)。设备可以在与物体的物理特征相关联的位置上显示调整指示器,例如调整指示器506。

看完后觉得很酷,那么如何从产品层面实现?

这里面有一个很核心的点,首先要如何确认这个吉他弦的频率是多少?

苹果给出的做法是:基于用户输入、使用相机150和/或传感器152检测吉他和/或吉他弦以及使用已知/存储/学习的吉他调音参数的已知特征来确定

这句话里面包含了两类做法:

一、预先存储相关信息,也就是意味着提前对这个吉他进行了“标定”;

二、检测、学习,基于原有的数据库,当场对这个吉他完成分析,并建模;

但如果考虑到运输、存储条件、以及日常使用等等,哪怕这个吉他事先有标定,后续也将会需要不断的分析与建模。

需要相关的机器学习。

那么这样的边缘侧算力需求会是一个需要轻便的XR设备可以负担的吗?

本地化肯定很难,要么是设备网分摊,如前所说的手机作为算力侧,或其他硬件设备作为算力侧,要么就要求更高速的上传网络,云端处理。

有了以上信息后,就可以进入到对调音旋钮508的位置的指引控制:

该调音旋钮与生成声音的吉他弦相耦合。弯曲的箭头可以根据吉他弦声音的检测频率和对调音旋钮508的耦合进行调整,以指向调音旋钮508可以转动的方向,以调整吉他弦的频率以匹配期望频率。弯曲的箭头可以通过尺寸、厚度、颜色和/或一个或多个其他视觉特征来生成,以指示需要调整多少来将吉他弦的频率调整为匹配期望频率

苹果这个专利的目标,不仅仅是非可见特征的可视化,还包括了智能处理——经过数据库比对学习,完成特定的500吉他建模,然后做到可以给予可视化的指引——弯曲的箭头可以通过尺寸、厚度、颜色和/或一个或多个其他视觉特征来生成,以指示需要调整多少来将吉他弦的频率调整为匹配期望频率。

这个场景是不是很有意思?对于这类声音的乐器都可以这么多,苹果这里面给出的是调音,从另外一个角度来说,是不是可以进行跟练矫正?

我原来参与过一个创业项目,钢琴AI培训,做的事情就是把标准的练习曲数字化,然后再将学习者弹奏的曲子与标准做对比,来看哪个音不足,再由老师来分析指导动作。

而苹果这个对于声音的可视化,实现这个演奏的可视化应该也不会太难,弹奏的力的重量对于旋律的可视化及与期望旋律的差距,旋律间的衔接可视化等等,这将可能会改变乐器的部分教学方式。

那么推开到其他的行业呢?我目前还没有想出太多,期待各位评论区交流。


三、如何实现深度映射——苹果的设备网

另外需要补充的是,苹果在专利中一直强调了“深度映射(the depth mapping capabilities)”——实际三维位置显示的可视化对应这些非可见特征的存在位置(that allow the displayed visualizations to appear at the actual three-dimensional location in the physical environment at which those non-visible features actually exist.)也就是很多券商最近在苹果XR出来后一直在提的空间感知

券商更多提的是苹果XR设备上数量众多的摄像头+tof模组识别出的空间感知,但我觉得另外一个不能忽略的是,设备网。

我曾在Airtag面试前提出来过,用AirTag来辅助建立空间感知,辅助空间场建立:

AIRtagS出来的是设备网+平面的空间移动。但AR还需要三维的空间场及建模。目前苹果用的是LIDAR扫描来建场,那能否出来一个类似于AIRTAGS的小型器件更快的实现空间建立呢?
Rossky,公众号:Rossky消费电子的最近更新

从目前苹果这个专利中展现出的不仅仅是单纯位置深度信息,还要加上各类的非可视化信息的位置确认,一些比较简单的所见即所得的信息应该仅通过XR可以实现,比如专利里提到的超声波栅栏、吉他调音等,都是可以通过多个摄像头+tof定位出真实世界位置。

而一些难以被直接所见的,有可能就需要具备其他功能的设备在附近进行共同的判别了,比如那隐藏的插座,如果附近有个附带了电磁传感器的设备做补偿的话,或许对于XR眼镜上的传感器的要求就会减弱不少。当然最终实现这个功能不一定是附带电磁传感器的设备,或者是其他被电磁影响的参数可识别等等。

那么在这个专利里,苹果明确提到了组建设备网,部分证实了我原来的想法:


在块604中,设备可以获取至少部分物理环境的深度图。获取深度图可能包括使用来自额外传感器的额外传感器数据生成深度图,和/或使用相同的传感器。额外传感器可以是设备的额外传感器(例如,传感器152之一或多个)或物理环境中的附加设备的额外传感器(例如,与设备相关的伴侣设备,如智能手机、平板电脑、笔记本电脑、台式电脑、外围相机或与设备用户账户关联的外围深度传感器或指示器,或与另一个用户相关的设备)。获取深度图可能包括使用设备的一个或多个深度传感器(例如,传感器152的深度传感器)实时生成深度图,和/或获取某些部分物理环境的预先生成的深度图(例如,由设备或其他设备先前生成的深度图)。


四、有了设备网,智能家居控制是不是水到渠成?

It should also be appreciated that the examples of FIGS. 3, 4, and 5 are merely illustrative and a device such as electronic device 105 can provide visualizations of other non-visible phenomena in a physical environment. In one example, a visualization of sound volume or a type of sound can be displayed (eg, using a visual context such as a sound density map or other visual context for sound that can be adjusted based on microphone data). For example, the visualization of the sound can indicate various songs or types of music playing in various locations (e.g,in different rooms of a building) and/or the volume of the music playing in the various locations.

声音的可视化可以指示各种歌曲或类型的音乐在各个位置播放(例如,建筑物的不同房间)和/或在各个位置播放的音乐的音量

昨天和朋友探讨起这个场景,朋友说到,原本智能家居的中控是音箱,我吼一嗓子就好。但现在这样我还要带上眼镜后再去操控,这不是反了人性的懒惰吗?

确实,如果是现在这类XR产品在APPLE描述的这个应用里是有些“多此一举”的,不过对于XR眼镜而言,我们期望的是长时佩戴or随意切换。


五、MR长时佩戴的难点及其中一个解决办法‍‍

目前最棘手的问题是现有的能量体系难以支撑这类设备的长时佩戴,要么就要随身带个充电宝了,比如苹果现在的产品形态。

又或者是改变现在这种以 高亮、高刷新+眼动+高计算 这种高耗能来解决视觉辐辏调节冲突(VAC现象),这里有另外的技术路线正在慢慢的展露头脚,有些产品已经接近商业化,这里是个新坑,下次再来填坑聊。

还有一种则是物理世界的其他设备来进行“互动补偿”、“成像补偿”,即并不是所有的内容都是由眼镜的光机投现在视野内,也可以由其他设备投射到视野里来。

In other examples, one or more sensors of an electronic device can detect non-visible features of a physical environment at have been added to the physical environment specifically for detection and/or visualization with the electronic device. In one example: billboards, posters,or other print or screen media in the physical environment may emit non-visible light such as IR light that can be detected and visualized with an electronic device such as electronic device 105. For example, advertisements for upcoming attractions at a movie theatre may include enhanced visual features generated in IR light that are only visible to users of an AR,VR, or MR device that provides a visualization of the IR light. These enhanced visual features may include three- dimensional features that appear among the physical objects of the physical environment. In one or more implementations, a user of an electronic device may be provided with the ability to interact with the visual features. In one or more implementations, the detected non-visible light can trigger other feedback from the electronic device such as audio, tactile, or other feedback corresponding to the enhanced visual features.

在其他示例中,电子设备的一个或多个传感器可以检测已被添加到物理环境中,专门用于与电子设备检测和/或可视化的非可见物理环境特征。例如,物理环境中的广告牌、海报或其他印刷品或屏幕媒体可能会发射非可见光,例如红外光,可以通过电子设备(例如电子设备105)进行检测和可视化。例如,电影院即将推出的吸引人的广告可能包括在红外光中生成的增强视觉特征,仅对AR、VR或MR设备的用户可见,该设备提供红外光的可视化。这些增强的视觉特征可以包括在物理环境的物理对象中出现的三维特征。在一个或多个实施中,电子设备的用户可能具有与视觉特征进行交互的能力。在一个或多个实施中,检测到的非可见光可以触发电子设备的其他反馈,例如声音、触觉或与增强的视觉特征相对应的其他反馈。

这个场景感觉有点“科幻”的意思,但这个产品的实现有赖于,我定义为“可交互的控件”,比如设想一个这样的场景,这个广告牌怎么知道是我点选了它?而不是我边上的路人A点选了它,这个交互的确认控件是什么?这个问题我曾经和专门投AR领域的大佬交流过,但没有找到一个比较好的答案:


这个是我对于AR走向大范围实际物理应用中一个很重要的需要突破的点,这次苹果的这个专利中也有提到,比我之前想的更深了一步:

我之前想的是直接通讯模式而苹果的专利中是把QR code放在了不可见光的光谱中。

如果个人感兴趣的话,就去扫码,然后进行交互。这个倒是一个挺不错的解决办法。

In another example, non-visible light such as infrared light may be generated at one or more locations to provide coded information to an electronic device such as electronic device 105. For example, in order to avoid providing unattractive or distracting quick response (QR) codes at physical locations and/or on physical objects in a physical environment coded information (e.g. for providing a link to information or functionality for the device) can be encoded in non-visible light that is visible to a sensor of an electronic device such as electronic device 105.

An electronic device such as electronic device 105 may generate a visualization of the non-visible codes to allow a user of the electronic device to interact with (eg, scan or select) the code for further action by the device based on the non-visible code.

In another example, non-visible light and/or other sensors may detect non-visible beacons in the physical environment (eg, infrared beacons or ultrasonic beacons). For example, non-visible beacons for detection by an electronic device such as electronic device 105 can be provided in the physical environment to provide markers with which the electronic device can build AR and/or MR graphics. For example, the non-visible beacons can be detected by the electronic device and visualized by the electronic device to indicate a path outdoors, and/or to provide another boundary, shape, direction, or the like that can be visualized by the electronic device and/or used to locate additional virtual content generated by the electronic device. Ultrasonic beacons may be provided, for example, in physical environments in which visible or non-visible beacons may be less effective, such as due to lack of or too much light sunlight).

在另一个示例中,可以在一个或多个位置上产生非可见光,以向电子设备(例如电子设备105)提供编码信息。例如,为了避免在物理环境中的物理位置和/或物理对象上提供不雅观或分散注意力的快速响应(QR)码,编码信息(例如,用于为设备提供链接到信息或功能的信息)可以编码为红外光,该红外光可被电子设备(例如电子设备105)的传感器可见。电子设备(例如电子设备105)可以生成非可见码的可视化,以允许电子设备的用户与非可见码进行交互(例如,扫描或选择),以便根据非可见码进行进一步操作。

在另一个示例中,非可见光和/或其他传感器可以检测物理环境中的非可见信标(例如,红外信标或超声波信标)。例如,可以在物理环境中提供供电子设备(例如电子设备105)检测的非可见信标,以提供电子设备可以构建增强现实(AR)和/或混合现实(MR)图形的标记。例如,电子设备可以检测非可见信标并通过电子设备进行可视化,以指示室外的路径,并/或提供另一种边界、形状、方向等,电子设备可以将其可视化并/或用于定位由电子设备生成的其他虚拟内容。例如,超声波信标可以在物理环境中提供,例如在可见或非可见信标可能不太有效的物理环境中,例如由于缺乏或过多的阳光。


六、气味数字化的难点在哪?

那么关于万众瞩目的气味数字化呢?当时大家都有在猜,苹果是怎么来模拟气味?是不是有什么高科技?

苹果的答案很简单,配置人工气味装置。想要如何实现人工气味装置,苹果在这个专利里就没有描述啦,只能说如果是按照新闻传播的来看这个专利的话,那可会大失所望的。

For example, an electronic device such as electronic device 105 may be provided with an artificial scent device (a device configured to release one or a combination of gases, vapors, or particulates that mimic one or more predefined scents). The non-visible features added to the physical environment to trigger a scent experience may be detected by the electronic device, causing the artificial scent device to generate a corresponding scent.

例如,电子设备(例如电子设备105)可以配备人工气味装置(一种配置为释放一个或多个气体、蒸汽或颗粒物的装置,模仿一个或多个预定义气味)。用于触发气味体验的添加到物理环境中的非可见特征可以被电子设备检测到,导致人工气味装置生成相应的气味。例如,一个将水果和/或季节与气味联系起来的茶店可以生成(例如,使用非可见光和/或超声信号)水果的非可见描绘,可以由经过或在茶店内的电子设备,例如电子设备105的用户可视化。在一个或多个实施中,检测到的水果的非可见描绘也可以触发人工气味装置生成与所描绘水果相对应的气味。

而券商电话会议里组织的专家,所说的电子鼻微纳气体传感器,也是气体识别的一种传感器,不是能生成人工气味的装置。

不过,光是这个气体识别就很难了。这就回到了上篇文章里提到了,苹果这个专利里面对传感器提出了很多的高要求。

那么在气体识别传感器里,根据现在的气体传感器原理是很难以只用少量的敏感材料就能模拟人的鼻子识别出这么多的气体的。这个敏感材料的找寻,筛选将会是很大的障碍。

当然从产品的角度不用一步到位,可以先一点点的来,先是某个场景内的某几种气体的识别与产生装置的组合。


七、其他难点‍‍

这个专利里也谈到了许多的数据隐私安全,这种与物理世界紧密结合的产品,肯定是更加绕不过数据安全,合理采集收集数据的问题。那么对于这个问题,我们究竟是会像原来一样更加开放,还是会设立一道墙,这就不得而知了。我曾经是对在这种应用在我们内部的落地节奏是偏悲观的。


整个专利到这里就分析完了,分析完后,对于苹果给我们列举的“有了这么多信号,我们可以做什么?”的这么多场景,大家会发现的专利的描述看起来简单,但实现做起来可能还有很遥远的距离。光需要解决交互的前提——感知,想要感知出苹果专利中描述的那些与非光学相关的感知量,就特别难。

当然我们乐观的看,光学、声学的相关应用对比起前者是比较容易实现的。这个或许会是机会。我一直认为MR最后的爆发,一定不仅仅只是MR设备,一定会带动大量的辅助设备落地。而从这个专利里来看,或许那个在不可见光谱的编码器+识别器将会成为MR爆发的前驱基石

让我们拭目以待。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存