查看原文
其他

Vision Pro中参透Apple人工智能发展路径-AI范儿深度解读

ai汤源 AI范儿 2023-08-21

图|汤源

文|汤源

Apple WWDC发布的Vision Pro


题记

苹果刚刚低调地借Vision Pro推出了一个v1版的脑-机界面吗?

他们的一位前设计师刚刚在推特上写道:

“最酷的结果之一是预测用户打算交互却还没有实际点击之前的兴趣点。那背后可是一大堆工作,也是我引以为豪的事情。你的Vision Pro在你点击之前会提前做出反应,部分是因为你期待点击后会发生的一些事情的生理特征。因此,可以通过监控用户的眼球行为,来获取用户的大脑创建的生物反馈,并实时重新排列用户界面,以创建更多这种预期的瞳孔响应。这是一个通过眼球追踪初步实现的脑机界面,但已经非常酷了……”

附录:来自 @sterlingcrispin(原苹果公司神经技术原型研究人员)

当我在苹果担任技术开发小组的神经技术原型研究员时,我活到今天的生命中有10%的时间为#VisionPro的发展做出了贡献(笔者注:后文提到3.5年,也就是作者大概35岁)。这是我单次为一个项目持续努力过的最长的一次。我为它终于宣布而感到自豪和欣慰。我在AR和VR上工作了十年,在很多方面,这是一个单一产品推动了整个行业整个产品方向。我很感激我帮助实现了它,如果你想进入这个空间或完善你的策略,我愿意接受咨询和接听电话。

我所做的工作支持了Vision Pro的基础发展,灵感满满的体验,▇▇▇▇▇▇(笔者注:原推如此,应该是NDA协议不方便透露,下同)产品,以及更雄心勃勃的难如登月神经技术研究。比如,在你会点击之前就预测到,基本上是读心术啦。我在那里呆了3.5年,并在2021年底离开了,所以我很高兴能体验到过去两年如何将一切结合在一起。我真的很好奇是什么制作了这个剪辑,以及稍后会发布什么。

具体来说,我为能在Vision Pro的▇▇▇▇▇▇▇计划的初步愿景、战略和方向做出贡献而感到自豪。我在一个小团队中所做的工作帮助为该产品类别开了绿灯,我认为它有一天可能会对全球产生重大影响。

我在苹果所做的大部分工作都在NDA下,并分散在广泛的主题和方法中。但有几件事已经通过专利公开了,我可以在下面引用和转述。

一般来说,作为一个整体,我所做的许多工作都涉及根据用户身临其境体验时来自身体和大脑的数据来检测他们的精神状态。

因此,用户处于混合现实或虚拟现实体验中,人工智能模型试图预测你是否感到好奇、心不在焉、害怕、注意、记住过去的经历或其他认知状态。这些可以通过眼球跟踪、大脑中的电活动、心跳和节律、肌肉活动、大脑中的血液密度、血压、皮肤电导等测量来推断。

有很多技巧可以做出具体的预测,我提到的少数专利详细介绍了这些技巧。最酷的结果之一是预测用户会在实际点击之前点击某些东西。那是一大堆工作,也是我引以为豪的事情。在你点击部分之前,你的学生会做出反应,因为你预计点击后会发生一些事情。因此,您可以通过监控用户的眼睛行为,并使用用户的大脑创建生物反馈,并实时重新设计用户界面,以创建更多这种预期的瞳孔响应。这是一个通过眼睛生物反馈的初步实现的脑机界面,但非常酷。相比如侵入性脑部连接手术(Neural Link?)我更愿意随时接受这种读心术。推断认知状态的其他技巧涉及以用户可能无法感知的方式快速闪烁视觉或声音,然后测量他们对它的反应。

另一项专利详细介绍了如何使用机器学习以及来自身体和大脑的信号来预测你有多专注或放松,或者你学习得有多好。然后更新虚拟环境以增强这些状态。因此,想象一个自适应的沉浸式环境,通过改变你在后台看到和听到的内容来帮助你学习、工作或放松。

所有这些细节都在专利中公开提供,并且是精心编写的,不会泄露任何东西。我参与了很多其他事情,希望更多的事情最终能见天日。

很多人为这个产品等了很长时间。但在通往虚拟现实的道路上,这仍然是向前迈出的一步。直到这个十年末尾,该行业才能完全赶上这项技术的宏伟愿景。

同样,如果您的企业希望进入该领域或完善您的战略,我愿意接受咨询工作和接听电话。大多数情况下,我感到自豪和欣慰的是,这终于被宣布了。我开始做这件事已经五年多了,我一生中大部分时间都花在这上面,其他设计师和工程师大军也是如此。我希望整体大于各部分的总和,Vision Pro会让你大吃一惊。(笔者注:有广告嫌疑啦)

后记

虽然有推文结尾有广告嫌疑,但看在启发各位对苹果一直以来的人工智能发展路径来说,也还不算讨厌。

这让笔者联系起苹果在其全球开发者大会(WWDC)上展示了另外一个新功能,即一个由大型语言模型(LLM)驱动的键盘。这种键盘使用了Transformer模型,并可以在终端设备上进行运行和学习用户的打字输入模式。这个学习过程可能是在夜间通过LoRA(一种开源的LLM微调模型)完成的。

说起苹果在键盘上的努力,让我又想起上次看到一篇访谈Nat Friedman(原微软高管和参与微软收购github,现为投资人)和Daniel Gross(创业项目被苹果收购然后负责数个DRI模式的AI项目)中,作为苹果AI项目负责人提到过,Apple一直在搞智能输入,估计最近用了Transformer和Lora微调学习,取得了突破。

从这几个信息,可以看出,人工智能之路,苹果的打法还是有自己的坚持,AI还是紧紧发挥自己的硬件和芯片优势,在具体产品中以用户体验得到的一个个特性来突破。

之前也分析过meta的AI发展路线,这些美国大厂都在这波AI路线上走出了差异化的路线;转而看看国内AI现状,一窝蜂的千模大战,不劲让人着急啊……

其实AI之路千条万条,基于GPT原生创业方向就两个:

大模型炼丹-和OpenAI竞争或用于企业本地部署场景;

大模型Prompt-这个应用场景就多了,我个人比较看好MJ或characterai的GPT原生模式。

其它B端对于现有业务增强改善只是有阶段性价值空间。为什么说是阶段性价值空间呢,因为大炼丹会导致模型无处不在,对物理世界的改造范式发生了革命性变化,完全重构现有B端业务。

可以类比想象:工业化出现后,农业就不再是主要生产场景。


END


扫码加群,

立变AI🍚!


AI范儿读者群


👇关注、标星哦~

那些prompt了我的,

是否也prompt了你...


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存