“头号玩家”不再是科幻,SenseMARS带你开启元宇宙探索
作为物理世界与虚拟世界的连接,元宇宙为我们带来了全新的社交和娱乐体验。
这是商汤SenseMARS火星混合现实平台的落地成果之一。
SenseMARS是商汤打造的元宇宙技术赋能平台,拥有多项关键技术。在上面的例子中,通过对三维空间的数字化重建,同时结合图像、物体识别等AI技术,SenseMARS可以做到理解场景中的人、事、物,进而创造虚实融合的超现实互动。
截止2021年6月30日,SenseMARS总共提供超过3500个人工智能模型,在200多个移动应用中使用。
SenseMARS平台背后的技术极为复杂,其开发联合了产业与学术界的力量,在总体框架设计与核心算法的开发中,商汤的研究团队和“浙江大学-商汤三维视觉联合实验室”都发挥了重要作用。
为此,商汤君采访了该实验室副主任、SenseMARS平台首席科学家章国锋教授,深入了解SenseMARS背后的技术,以及他对元宇宙等话题的思考。
▎干货:揭秘SenseMARS背后的故事
Q(商汤君):您会如何描述SenseMARS火星混合现实平台?
A(章国锋):SenseMARS火星混合现实平台,它深度融合了AI和AR/MR技术,可以在多种系统平台和终端设备上,实现具有沉浸式的虚实融合视觉效果和互动体验。
而且它还具有城市级场景的高精度三维数字化地图构建能力,以及实现室内外大尺度场景下的精准定位、导航导览与虚实融合效果。
Q:混合现实、增强现实等体验,很多用户都有接触过,SenseMARS会带来哪些区别?
A:应用范围就是一个很重要的区别,很多移动端的AR技术只能在几十到几百平方米的小场景使用,而SenseMARS可以做到大尺度空间的AR/MR应用,比如已经可以实现大型商超、博物馆、景区等室内外场景的精准定位和导航。
要实现这一点,需要事先构建场景的高精度地图,然后通过移动端的SLAM(同步定位与地图构建,是混合现实领域的关键技术)与基于云端高精度地图的视觉定位相结合,就可以在大空间实现精确的在线定位导航以及虚实融合与互动效果。
跟常见的二维地图不同,高精度地图可以理解为是包含了场景的外观、三维结构甚至语义等信息的数字地图,这跟自动驾驶领域的高精度地图是类似的。但自动驾驶的地图主要是室外,SenseMARS还包括了室内地图,而且二者应用范围和侧重点也有所不同。
Q:SenseMARS在技术上有哪些特点?
A:它是一个底层技术平台,综合了多种多样的技术,除之前提到的高精度地图构建和定位技术,还包括空间计算、物体/人体的三维数字化、感知理解、绘制与虚实融合呈现、人机交互等技术等等。正是多种技术的融合,才能打造真正的虚实融合的平台。
同时,为了让SenseMARS平台易于部署和大规模推广,我们主要采用基于视觉的高精度地图构建方案,硬件成本和采集成本比较低,适用范围广;在支持的设备上,SenseMARS同时支持Android/iOS/Web/小程序等系统或平台,以及智能手机、平板电脑、MR眼镜、汽车等多种终端设备。
Q:在其研发过程中有哪些技术上的难点?
A:难点有很多,比较重要的一点是,我们倾向于用纯视觉或以视觉为主的方式来构建高精度地图并实现精准定位,这一方面是我们长期的技术积累,另一方面也是因为考虑到了平台的产品化及推广,结合非视觉的方式会增加推广的成本。
但有一些场景,比如建筑物的楼层非常相似,甚至人也难以区分出来,如果只用视觉的方式做,很容易出现自动建图或定位失败。因此,我们也会利用场景中本就有的蓝牙、WiFi、地磁等信号来辅助解决问题,也就是通过多源信息融合的方式,尽可能在不需要额外设备布置的情况下满足应用要求。如果是室外场景,也可以结合GPS信号来提升建图和定位的精度和可靠性。
除了技术的可靠性,在产品化、自动化和UI等方面也有很多挑战。我们希望SenseMARS可以成为简单交付的标品,在实际应用开发中基本不需要研究人员再去调校,一般的应用开发人员就能基于SenseMARS平台快速开发应用程序。
Q:SenseMARS平台的应用场景有哪些?
A:作为一个软件平台,SenseMARS的应用场景有很多。
比如室内的定位与导航。目前,商超、展览馆、地下车库等大范围场景的室内导航还存在很多难点,而SenseMARS所支持的导航导览功能,结合了领先的视觉定位技术,不需要布置额外设备,只要预先对环境进行拍摄采集,就能实现厘米级的定位精度,解决了传统室内定位技术成本高、精度低的问题。
当然,室外也可以实现。比如在去年9月,商汤实现了对杭州西湖重点景区的精准三维重建和数字化再造。用户使用“掌上西湖”APP中的“AR游西湖”功能,即可获得沉浸式实景导航以及虚实融合导览体验。
目前,这些技术和功能已应用于博物馆、展览馆、景区、机场、商场、医院等场景。
而在娱乐应用方面,如视频、直播领域的美颜、表情互动、手势互动等多种MR特效,都可以通过SenseMARS平台的感知算法,手势识别等技术,实现特效创意。
它还可以对个人进行3D建模,生成专属的3D Avatar虚拟形象,应用在视频、直播、游戏、在线教育等多种场景。
在今年的WAIC世界人工智能大会期间,商汤就展示了根据真人表情、动作驱动的王者荣耀英雄公孙离,背后所依靠的就是SenseMARS平台。
Q:SenseMARS对元宇宙这一概念有什么影响,两者是什么样的关系?
A:SenseMARS是元宇宙的技术赋能平台,可以帮助形成物理世界的数字孪生,包括地图、场景,甚至是虚拟角色的构建,这个虚拟世界可以与物理世界对应、配准,再结合AI技术,我们可以在现实世界中与虚拟世界进行互动,做到虚实融合。
SenseMARS将虚拟与现实世界有机融合,可以打造一种类似于真实世界的元宇宙的技术,这也与完全虚拟的游戏世界有所不同。
Q:SenseMARS未来会怎样发展?
A:未来肯定会实现更大空间的混合现实,至少是覆盖一整个城市,甚至更大空间的场景,而且可以将各个终端连接起来,不仅仅是手机、智能眼镜,还包括机器人、智能汽车等终端。
实际上这已经部分成为现实,我们已经能做到较大场景的混合现实,覆盖整个城市应该是迟早的事。技术上也已经没有特别大的瓶颈,比如高精度地图构建,更多是效率和成本的问题,相信不久就能达到大规模推广的要求。
当然,城市级场景的地图不是一次扫描和构建就一劳永逸了,还需要更新和维护。因为真实世界的场景是动态变化的,需要局部、高频的自适应更新,这是大规模推广要解决的关键挑战。在这方面,我们也已经投入不少的研究力量来进行技术攻关。
另外,现在流行的混合现实应用大部分还是基于手机、平板电脑等设备,从体验来讲,还不是非常理想。大规模的应用应该还是要依靠混合现实眼镜这样的设备的成熟和普及,那时才能真正让MR融入人们生活和工作的方方面面。
Q:SenseMARS平台是学术界与产业界共同努力的结果,您如何看待这种合作?
A:我本人十多年来一直在从事SLAM和三维重建相关方面的研究。比较早之前就意识到,未来可以通过视觉为主的方式来构建城市级场景的高精度地图,还可以实现精准的定位导航、虚实融合和互动等效果。多年前我们课题组就已经有了不错的技术积累,但当时还主要是在相对比较小的场景中做了一些技术验证和应用。
2017年开始与商汤合作,共建联合实验室,把技术真正做到大规模落地和推广,对我自己来说也是非常兴奋的。SenseMARS大平台的架构与设计,还有一些关键的核心算法,都是由我们联合实验室主导的,当然也与商汤的研究和工程团队一起做了大量的打磨和优化。
我们实现了商超、景区等大场景的重建,在学校做研究时可能没有条件去采集那么复杂的场景数据,但这在实际应用中却是很正常的。对学校课题组来说,有这样一个平台去验证一些想法、一些理论上的方法是很好的,容易发现一些原来没有想到的新问题,而这些新问题又可以驱动我们把技术做深,从而形成新的研究课题和方向。
我们现在的很多研究课题,也确实是围绕SenseMARS平台在应用中遇到的问题来进行的。这是一个不断反馈循环的过程。
Q:这些新的课题与研究可以举一两个例子吗?
A:比如多源信息融合定位。因为仅用视觉信息总是有它的局限性,很复杂的场景可能做不到很理想,所以我们还深入研究了如何融合IMU(视觉惯性测量单元,包括加速度计、陀螺仪等)、WiFi、蓝牙以及地磁等信息进行跟踪定位。
例如,一个我们正在进行的研究课题,是如何结合基于学习的惯性导航与视觉SLAM来提升定位导航的可靠性和实用性。
实际应用中,很容易出现相机镜头被遮挡或者剧烈晃动的情况,比如用户在使用手机上的AR导航时,可能不会一直稳稳举着手机对着正前方,更有可能是拿着手机对着前面拍了一下然后就放下来(镜头对着地面或其他地方)甚至放到口袋里。
这时候基于视觉的跟踪定位往往就失效了,而如果我们能够很好地利用好IMU,即使没有视觉信息也能实现较长时间的准确跟踪定位,那就可以解决上述实际应用中遇到的问题。
基于学习的惯性导航能够克服传统方法的一些局限性,是目前的一个前沿研究热点。我们在这一块已经有了一些研究进展,最近有一个工作已经被增强现实和混合现实领域顶级会议ISMAR 2021录用。
再比如,要实现大尺度场景的视觉定位,需要预先扫描构建高精度地图,但对于城市规模的场景来说,精细、完整的建图的成本比较高,这会给大规模推广带来很大障碍。如何降低对高精度地图的依赖或要求,也是一个未来值得去研究的方向。
应用中出现的很多挑战性的问题,都驱动我们想办法深入思考和研究去解决。
相关阅读,戳这里