查看原文
其他

汽车秒变大黄蜂,这项实时AI研究让我们看到了AR的未来

前沿科技新媒体 青亭网 2021-10-19

Esther|编辑

在抖音、Snapchat等社交平台推动下,AR滤镜在主流市场的使用率越来越高,除了用来拍有趣的视频外,还可以用来宣传商品,比如试穿服装、鞋、口红颜色等等。目前,AR技术还处于发展初期,距离科幻剧中描述的场景还有较大差距,需要解决沉浸感、稳定性、低延迟等问题。

比如在某部美剧中,主人公通过AR设置服装的外观,即使只是穿了白T恤也可以改变在别人眼中你的形象。实际上,这种自然、沉浸式的AR效果,目前已经开始崭露头角。

近期,杜伊斯堡·埃森大学和瑞士联邦理工学院的科研人员们,研发了一种可以在移动设备上运行的实时AR渲染应用TransforMR。从演示视频来看,TransforMR可以将真实场景中识别到的汽车、人、动物等目标实时转化成AR图像,效果足够实时。据悉,这并不是后期处理的,而是实时抠图并叠加的AR。细节方面,TransforMR在Unity中运行3D场景并输出渲染的AR场景,在摄像头视场角内,可同时追踪多个目标,并同时叠加AR滤镜。

TransforMR的另一个关键特征是,支持实时姿态识别,可识别人体上18个节点,接着将AR图像绑定在节点上,即可实时模拟人的动作。也就是说,它与市面上只能识别几何表面的AR渲染方案不同,模拟姿态的效果更准确。

科研人员表示:近年来,计算机视觉技术在不断发展,尽管如此,算法对场景的语义识别、功能性推理效果依然限制着AR场景渲染的效果。为了解决这一问题,科研人员研发了TransforMR方案,它的特点是支持3D姿态识别,可用AR图像动态、实时替换真实场景中的物体或人。即使是在此前未测试过的环境中,TransforMR也可以实时识别并替换AR内容,而且AR可以根据其背后的真实物体的行为而动态变化。

实际上,手机滤镜已经可以实时追踪和渲染AR效果,但大多数以识别特定物体为基础,除了人脸滤镜外,还包括宠物滤镜等等。相比之下,TransforMR可快速识别更多样化的真实物体,并追踪物体、人的动作和位置变化,实时叠加清晰动态的AR特效。而且这个方案在移动设备上就能运行,不需要昂贵的动捕技术,在户外也可以使用。

据了解,TransforMR研发项目还得到保时捷AI团队的支持,为什么保时捷要投资这项研究呢?据保时捷AI架构师Tobias Grosse-Puppendahl透露,TransforMR的技术将有望提升司机和乘客的行车体验,比如提供AR车载娱乐内容等等。Grosse-Puppendahl还表示:我们想了解的主要方向是,如何通过改变真实场景并叠加互动式AR,为乘客带来乐趣。近年来,保时捷持续探索用来提升车内体验的AI技术,比如此前曾展示SoundRide原型系统,其特点是利用计算机视觉来识别周围环境变化,并根据这些变化来推荐音乐。

而对于TransforMR,科研人员需要解决如何将AR与真实场景自然接入和融合。目前,其效果还不够理想,不过展示了未来实时AR渲染的方向,结合AR眼镜后,将有望带来沉浸的AR体验,比如你可以定制眼前场景的主体,将汽车、建筑和行人变成科幻风格等等。目前,TransforMR采用的3D模型有点类似于微软早期的3D电影制作器的画风,而且AR与周围环境的交界处看起来比较模糊。

在研究过程中,科研人员制定的目标包括:1)适用于任何场景;2)可在手持屏幕上动态显示3D AR;3)兼容移动设备,支持单目RGB摄像头;4)实时渲染,这将需要平衡计算机视觉的计算量与硬件算力的限制。为了解决这些问题,所采用的技术包括3D目标姿态预测、实时图像分割、视频去水印、基于姿态变化的AR动态渲染。

TransforMR的计算部分在云端完成,因此需要联网才能运行应用。科研人员表示:TransforMR并不是直接像AR滤镜那样,将AR直接叠加在识别到的目标上,而是将目标完全从场景中分割,然后通过AI来实时处理场景,并用3D模型代替原来的目标物体、人或动物。有点类似动态去水印工具。TransformMR在识别的每一帧图像中叠加去水印网格,并在去水印抠图的部分渲染全局和本地预测,可信度高的像素值(根据环境分割点阵图来预测)。

为了增强AR与真实环境之间的融合,科研人员训练AI算法从真实场景中提取语义信息,以实现对环境的理解。在实际使用时,TransforMR可根据使用者选定的环境主题,来进行语义映射,也就是说你可以根据博物馆、动物园等主题来改变周围环境的外观。

不过,TransforMR的刷新率目前只有15fps,而且场景去水印的效果不够好。延迟方面,目前在50到100毫米之间,而且3D模型的图像质量也有待提高。科研人员表示:这些方面未来将有望得到提升,相对比较简单。

而主要的技术限制是,大规模图像对算力的要求高,因此目前只能渲染512x512的小尺寸图像。此外,带宽的使用率可以忽略不计,跟FaceTime需要的带宽差不多。在移动设备上运行时,只能渲染低清晰度、半透明的AR图像。

科研人员指出,TransforMR目前仅适用基于摄像头的AR透视方案,因为它主要是通过算法来实时渲染和处理AR和环境数据,而如果用在光学AR眼镜上,则需要解决AR与环境的亮度、饱和度匹配问题,而且很难在肉眼看到的真实环境中抠图。未来通过支持透视模式的VR头显,或许可以实现更理想的效果。
参考:
http://www.grosse-puppendahl.com/publications/ismar2021.pdf

( END)


    推荐阅读    




 
每天五分钟,轻松了解前沿科技。    
         —— 青亭网  
: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存