不想错过精彩内容?
1、点击上方“AR圈”;2、点击右上角“…”;3、设为星标★
一、扎克伯格在元宇宙里一小时的「真人对话」,惊艳了全世界
“这是我与扎克伯格在元宇宙中的对话。我与扎克伯格物理距离有上百英里,但我感觉是在和他面对面……这技术太神奇了!……一度让我忘记了眼前的不是真人。我认为这就是人们未来在互联网上交流的方式”,Lex Fridman 说道。🔺麻省理工学院(MIT)科学家Fridman“化身虚拟人”9月30日,麻省理工学院(MIT)科学家 Lex Fridman 与 Meta (原Facebook公司)创始人兼CEO马克・扎克伯格的一番隔空对话,成为了社交网络上的大热门。在 Lex Fridman 播客的《首次 Metaverse 对话》中,扎克伯格展示了 Meta 的 Codec Avatars(编码化身)技术。扎克伯格说,在元宇宙对话时(指Codec Avatars),“平台是在通过网络发送你形象的编码版本,这种方式比传输视频的带宽效率更高”。尽管Codec Avatars技术令人印象深刻,但扎克伯格说,“未来几年”,才能把这项技术商用。二、Codec Avatars:Meta研发逾10年的实时虚拟人技术,距离商用尚需时日Codec Avatars本质上是一种实时虚拟人技术,其原理包括如下5个核心部分:1. 面部(or身体)扫描:使用摄像头(及其他传感器)对用户进行多角度扫描,获取面部(及身体)的三维几何数据。这种扫描可以使用专用的设备,也可以使用手机或者XR头显本身。🔺早期Meta实验室中的全身扫描设备,需要171个摄像头,图源:Meta2. 3D建模:在发送端(XR头显),使用扫描数据训练机器学习模型,学习生成个性化的面部(和身体)模型。3. 表情和动作捕捉:在发送端(XR头显),使用传感器和计算机视觉算法捕捉面部表情(眼睛、眉毛等)和身体动作。🔺Codec Avatars编解码过程原理图,图源:Meta,编译:AR圈4. 实时编码:在发送端(XR头显),使用专门的编码算法,将每个时刻的表情参数转换为编码并发送。🔺Meta研发了专用的编解码芯片,图源:IEEE
5. 实时解码:接收端设备(另外一台XR头显),接收编码,并解码,驱动Avatar模型实时进行渲染,还原面部表情(及肢体动作)。🔺Meta的定制芯片采用了7纳米制程,图源:IEEEMeta对于Codec Avatars的研究由来已久。从2014年至今,Meta已经在这项技术上研究了近10年时间。- 2014年,Yaser Sheikh与Michael Abrash探讨在匹兹堡建立新的研究实验室。🔺Yaser Sheikh,美国著名的计算机视觉和机器学习专家,Meta Reality Labs研究总监
- 2015年,Yaser Sheikh加盟Facebook,领导匹兹堡团队。
- 2016年F8大会,Facebook首次展示了Codec Avatars项目。
- 2016年下半年,Facebook在匹兹堡成立了Facebook Reality Labs。
- 2017年,Facebook Reality Labs完工第一个面部捕捉工作室。
- 2018年,Facebook Reality Labs完工身体捕捉工作室。
- 2018年F8大会,展示了Codec Avatars的最新进展。
- 2019年,Codec Avatars的质量和实时渲染能力取得长足进步。
- 2019年起,Codec Avatars开始从研究向实际产品应用转化。
- 2022年4月,在麻省理工学院的 Virtual Beings & Being Virtual 研讨会上,Codec Avatars 团队的领导者 Yaser Sheikh 展示了该项目最新版本:“Codec Avatars 2.0”
- 2023年9月,扎克伯格通过Codec Avatars基于与AI科学家Fridman“元宇宙对话”,扎克伯格称该技术将在“未来几年”实现。
三、 苹果版Codec Avatars:Persona,明年一季度开卖与“惊艳全球”的Meta Codec Avatars相比,苹果却显得较为低调。苹果在6月份发布Vision Pro时,仅用40秒“偷偷地”公布了其称为“Persona”的技术。而承载Persona技术的苹果XR眼镜Vision Pro,明年一季度就会上市销售。
🔺苹果Vision Pro扫描脸部效果图,图源:苹果
苹果使用Vision Pro自带的传感器对人脸进行扫描,然后通过眼动追踪、表情识别等技术进行对人像、手势、语音等信息进行实时编码,在接收端解码后生成3D人像,其原理与Codec Avatars基本一致。
苹果Vision Pro之所以能够具备Persona功能,主要得益于其强大的处理器、操作系统与众多的传感器。🔺苹果Vision Pro采用了主处理芯片M2以及协处理芯片R1以及大量的传感器,图源:苹果🔺苹果Vision Pro搭载了4颗眼动摄像头与34颗红外LED采集眼动数据,图源:苹果在苹果Vision Pro实现实时虚拟人之前,市面上已经有很多的专业设备提供“面部捕捉”和“动作捕捉”等虚拟人制作。从阿凡达电影到初音未来,很多虚拟人都是通过此类系统生成。
🔺传统面部捕捉系统需要复杂且昂贵的面部捕捉硬件/软件,图源:JEUXACTU
🔺传统面部捕捉系统需要复杂且昂贵的面部捕捉硬件/软件,图源:digitalmediaworld
🔺阿凡达2电影中所采用的面部捕捉系统,图源:JEUXACTU但这类系统往往需要庞大而复杂的软硬件系统,常见的面部捕捉系统包括头戴式摄像机系统、反射点(需要粘贴在面部关键部位,辅助头戴摄像机捕捉面部运动)、计算机工作站(处理和计算大量捕捉数据的工作站)、存储设备(大容量的硬盘存储设备)以及面部捕捉数据处理和动画控制的相关软件。这些系统,一套软硬件动辄数十万美元。相比专业系统昂贵的价格以复杂的操作要求,苹果Vision Pro 3500美金的价格和傻瓜式的操作,则显得亲民许多。四、 以苹果Persona与Meta Codec Avatars为代表的实时虚拟人技术应用场景广阔
实时虚拟人技术颠覆了传统的二维人像,它让远距离的人们仿佛身处“同一个空间”,通过虚拟化身面对面交流、观察微表情,达到前所未有的互动感和亲密感。这项技术让我们联想到了科幻作品中虚拟世界的场景,其应用前景其实远不止会议,更有望广泛运用于以下领域:1、虚拟社交。在虚拟空间里,使用数字分身进行社交互动,大幅提高沉浸感和身临其境的体验。类似看到真人一样看到其他人的虚拟形象,会给人前所未有的代入感。2、在线演出、互动娱乐、电商直播。虚拟演唱会、虚拟人直播在疫情期间已经兴起。艺人通过虚拟形象与粉丝互动,观众的参与感会大大提升(如初音未来、洛天依)。但传统方式生成数字偶像需要极大的投入,而苹果Persona等技术把数字艺人的制作成本大幅降低。3、教育培训。老师能够通过虚拟化身进行融入式的远程授课,与学生面对面互动,这种沉浸感比传统的视频会议要高得多。比如在讲解某个课文中的角色时,老师或者学生可以将自己化身为课文中的角色进行互动。4、基于虚拟化身的游戏。我们可以 “化身” 游戏人物/动物并亲身体验其中的种种情节,未来甚至可能会出现专门针对虚拟人的游戏类型。5、数字电影制作也可大规模应用虚拟演员。这不仅能够节省成本,还能实现更多视觉效果,观众也会更加投入。6、AI驱动虚拟人。实时虚拟人可以由真人驱动,同样可以由AI驱动。AI驱动的虚拟人,不仅可以用于上述领域,还可以进一步减少人工驱动虚拟人的成本,实现7*24小时在线。
扎克伯格的虚拟“面对面”采访,使大众对虚拟人技术有了更多的了解和关注。而苹果则通过Vision Pro和Persona,悄然将虚拟人带给普通消费者。仅仅再过几个月时间,在苹果Vision Pro的帮助下,即使是普通人也能亲身体验拍摄《阿凡达》所用的“黑科技”了。警长相信,随着时间的推移,随着越来越多的普通消费者真正体验到Persona或者类似技术的魅力,这项技术不仅会改变社交的方式,也将渗透到办公、学习、娱乐等方方面面,甚至催生出崭新的生活模式。投稿/商务/转载/合作
请联系微信:XRInstitute