因为AI进化的半成品
复联 3《无限战争》里有这样一幕,钢铁侠离开圣所上街查看情况,人群四散,他戴上黑框眼镜问助手「星期五」:「我在看什么?」当他的右手将眼镜取下并变装,眼镜又能自然地融入纳米战甲之中。这承载着我们对智能眼镜的一种期待,它应当成为洞若观火的「眼睛」,提供周围环境的信息并实时应答,以融入日常穿搭的形态低调存在。钢铁侠的钞能力复制不了,但我们正在一步步向超级英雄电影的寻常场景靠近。10 多年前的 Google 顶流,可能要换种方式「复活」了刚过去不久的 Google I/O,最受关注的当属基于多模态大模型 Gemini 的 AI 助手 Astra。合理怀疑,OpenAI 比 Google 提前一天开发布会,就是因为消息灵通,且要针对 Astra。果不其然,大家记不住 Astra 的本名,只当它是 GPT-4o 的「莞莞类卿」。其实单看 Astra 的演示,也做得很有意思,和 OpenAI 一样走日常生活向,至少在冗长的发布会里终于让人不困了。视频里的 Astra,能看、能听、能说,低延迟,与用户实时对话和视频聊天,开得了脑洞,解读得了代码,识别周围环境,还能帮你回忆刚才镜头一扫而过的眼镜在哪里。不过,举着手机,用镜头对准身边的物品问来问去,多少也有些累人和刻意。Google 显然考虑到了这种情况,在让 Astra 帮忙找到眼镜后,演示者戴上了眼镜,然后通过眼镜继续使用 Astra,让它解决白板上的题目。Google 并没有透露这副眼镜的更多信息,仅从视频中看,它带有摄像头和视觉界面,但外表朴素,辨识度不高,属于放在眼镜堆里容易找不着的路人甲。不久的未来,这副眼镜可能戴在更多人的脸上。Google 的官方博客解释了,演示分为两段,每段都是一次性实时拍摄的,前半段用的是 Pixel 手机,后半段用的是一款原型眼镜设备。为了让 Astra 的回答速度接近人类,他们连续编码视频帧,将视频和语音输入组合到事件时间线,并缓存这些信息,让 AI 处理信息的速度变得更快。接受彭博社采访的时候,Google DeepMind 首席执行官德米斯·哈萨比斯和 Google 联合创始人谢尔盖·布林也确认,Astra 在手机上的效果已经很好,正在考虑为 Astra 制造眼镜。虽然没打包票一定推出眼镜,但布林特意 cue 了一下,Google 在十年前已经入局了。说到这里,就要把 Google 技惊四座的 2012 年 Google I/O 大会搬出来了。当时这场发布会可不像现在这么无聊,戴着一副不对称眼镜框的布林在尾声登场,请了一群跳伞运动员,发布了一款让人过目难忘的产品——Google Glass。这些跳伞运动员也戴着 Google Glass,在高空接通了和布林的视频通话,然后一跃而下,骑山地自行车来到现场,现场观众从大屏幕欣赏第一视角,如同体验了一次极限运动。视觉冲击在前,无需更多言语,观众相信了,这副眼镜就是布林口中「很酷的东西」。至今,仍然有人在当年这场发布会的切片下留言:「这款产品远远领先于时代。」生不逢时的「美丽废物」超前有时候等于不合时宜。在当时,Google Glass 只能算包装华丽的失败品。Google 也清楚这款产品不成熟,先推出了 8000 个名额的「探索版」(Explorer Edition),换句话说就是半成品,但价格毫不手软,高达 1500 美元。走下神坛,拿在手中,人们很快发现了它的问题:比手机贵,又没有手机好用。听起来是不是有些耳熟?就像 Rabbit R1 等 AI 硬件评价的翻版。总体来说,Google Glass 有 7 个基础功能——搜索、导航、拍照、录视频、发消息、打电话、视频聊天,它也支持一些第三方服务,包括显示和播报推送到设备上的新闻摘要。这些功能手机都有,除了必须解放双手的时候,大多数情况下,手机比 Google Glass 更好用。并且,使用 Google Glass 的完整功能,还得把手机带在身边用来联网,离线情况下,Google Glass 只能拍照片和视频。Google Glass 最为人诟病的,其实是隐私问题,让它拍照很简单,用语音命令,或者按住顶部的按钮,但没有 LED 等亮眼的标志,提示他人正处在拍摄状态。所以,从路人的角度看,Google Glass 就是个不讲武德的「偷拍神器」,甚至曾有用户在电影院被保安赶出来。另外,Google Glass 还有一些体验过才知道的短板。当你用语音回复消息,让眼镜转化成文字,可能会出现错误导致「社死」。续航普遍在 5 小时左右,但如果拍多了照片和视频,可能就只有 2 小时了。Google Glass「漂浮」在现实世界的第二块屏幕,用来固然导航很方便,让你像使用高德一样,直观看到箭头的指向,但路人可能会觉得,眼睛总往右上瞥的你很奇怪,然后避而远之。当时有人开玩笑,Google Glass 的最大用处,是让英国王室的查尔斯王子记住每个人的名字。Google Glass 在 2015 年停产,之后被定位到 B 端,用到工厂车间、医疗教学等场景。不过在去年 3 月,Google 也停止销售了 Google Glass 的企业版。回首过往,Google Glass 当然没法替代手机,作为一款智能眼镜也没能成功,但理念超前,提供了一些可穿戴设备的可能性。不如手机是事实,但换个角度,Google Glass 提取出了手机比较重要的几项功能,比如相机、地图、联络信息,并且不像手机那么打扰,适合在行走等场景使用,拯救低头党。这不就是 Ai Pin 创始人说的,活在当下,为智能手机成瘾问题赎罪吗?Ai Pin 投影在手上如果不是价格太过丧心病狂,Google Glass 作为辅助还是不错的。所以,也有人将 Google Glass 称为「手机的一个方便的显示器」,或者「一个蓝牙耳机,但有显示屏和摄像头」。暂时不考虑隐私问题,Google Glass 拍摄的第一视角也很好,就像把广角镜头戴在脸上,真正做到眼睛看到什么就能立刻拍摄下来,很适合用来记录生活。Spectacles 拍摄效果2016 年,Snapchat 的 Spectacles 一推出就卖疯了,它其实就是一个会拍摄的墨镜,故意用了 115 度的广角镜头,画质比不过手机,但拍着很有趣味,同时也弥补了 Google Glass 的错误,会用 LED 提醒他人正在拍摄。更为重要的是,Google Glass 展现了一种生活方式:把传感器戴在脸上,它可以为你收集环境信息,提供额外信息,和你语音沟通,让你不用双手也能完成很多事情。这个理念从未过时,但我们可能从未像今天这样,有望将它变为现实。AI 的进击,不用掏出手机的可能当造型奇怪的 Google Glass 面世,路人最好奇的问题主要有三个:你脸上戴的东西是什么?这个东西有什么用?你戴着它时看到了什么?现在这些问题又抛给了奇形怪状的 AI 硬件,只不过第一个问题可能换成了,你别在胸口上的是什么?你脖子上戴的是什么?至少眼镜的形态看着比一些 AI 硬件靠谱多了,不反人类,不挑战用户原有的习惯。「免提」是眼镜生来就有的优势之一,如果我们在做饭或者运动,还需要让设备辅助的话,手机往往是被 pass 的那一个。不用掏出手机,不等于就能代替手机,但确实是一个实打实的优点。WSJ 记者用 Vision Pro 为做饭计时同时,智能眼镜的功能也并不少,打电话有耳机和麦克风,拍照有摄像头,当你需要屏幕,AR 让你的眼前呈现信息。Google 在 2022 年 I/O 推出了一款可以实时翻译的 AR 眼镜,字幕就在对话人旁边,不过也只是原型演示。十多年前 Google Glass 已有的功能,后来者或多或少地承袭和改进了。然而,如何让生成式 AI 融入,是目前大厂们还在探索的问题。从用户的角度来说,买智能眼镜究竟有什么用,希望戴着时能看到什么,答案也可能和最初的 Google Glass 不同了。眼下有一个比较成功的例子:Meta 雷朋眼镜第二代。它的市场反响不错,原因主要有以下几个:保留雷朋的时尚外观,质量控制在普通眼镜的水平,升级了摄像头、扬声器、续航等基础功能,用户甚至可以通过它开启直播。有人评价说,这是为网红准备的 Go Pro。与此同时,Meta 雷朋增加了前代没有的功能——多模态 AI 语音助手 Meta AI。去年 12 月,扎克伯格在 Instagram 发了一段视频,亲自展示了 Meta AI。视频之中,扎克伯格用「Hey Meta」的指令呼唤出 AI,让眼镜识别水果、把西班牙文本翻译成英语、给萌宠图片配上解说文字,以及从衣架拿下条纹衬衫,让眼镜参谋搭配什么裤子。Meta 雷朋眼镜内置的大模型为 Llama 2,除了以上功能,还支持查询体育赛事比分、当地地标、餐馆、股票等实时信息。这些 AI 功能真的是刚需吗?可能要打个问号,还不如当初召唤 Google Glass,问今天天气怎么样,某个地方怎么去。而且,Meta AI 的反应速度并不快,每次语音请求都会触发一次快门捕捉,也就是说先拍照,延迟几秒,然后 AI 才能读取和分析用户所看到的内容。和 Meta AI 对话仍然是回合制,不能像 GPT-4o 演示的那样随时打断。但不那么苛刻地看,AI 功能用来锦上添花挺好,让一款能拍视频、拍照片、语音通话的眼镜更加有用,看到和听到周围发生的事情,并以声音或文本形式提供反馈。基于 Google Glass 和 ChatGPT,帮助视障人士「看见」周围就像 10 多年前的半成品 Google 眼镜,Meta AI 这样的 AI 功能也需要时间进化。我们对于 AI 助手的想象往往从电影等科幻作品而来,它们最好和我们一样,可以理解和响应复杂的世界,但又要比我们记性好,记住所有看到和听到的内容,我们和它们交谈的时候,应当像面对另一个人类那样没有延迟。事实上,光是将 AI 的应答时间缩短为人类对话的水平,已经是一项巨大的挑战了,兑现在 Astra 和 GPT-4o 身上,已经足够让我们惊奇。通过它们,我们可以脱离文学想象,一个完全形态的 AI 助手可能是什么样子。就像 Google Glass 之前,已经有了很多脸上的可穿戴设备,但是它让人们觉得,智能眼镜是可能的。而在它之后,有了越来越多更精致、功能更多、领域更垂直的智能眼镜。Engadget 在 11 年前的测评说道,Google Glass 很有意思,但不值 1500 美元,应该等待它的第二代或者第三代。现在的智能眼镜,仿佛就是 Google Glass 的第二代或者第三代,就连 Google 自己,也在有意无意地召唤 Google Glass 的亡魂。一款产品世俗意义地失败了,可能因为功能鸡肋,也可能因为想法很棒,但技术所限,没能落地成良好产品。或许我们可以换个角度看,它们中的佼佼者,可能只是未来产品的未完成形态。2025 年,旗舰机就都要抛弃曲面屏了
苹果提前公布的这个 iOS18 新功能,可能比 AI Siri 更有趣