查看原文
其他

提速6倍,VR可用,书生·天际3.0实景三维大模型离你更"近"了

Shanghai AI Lab 书生Intern
2024-12-31


书生·天际3.0让用户和生成实景更贴近,也进一步缩短了从技术突破到落地应用的距离。


2023年7月,上海人工智能实验室(上海AI实验室)联合多家机构发布的书生·天际(LandMark)实景三维大模型以原创技术突破,首次实现城市级100平方公里全范围实时渲染。


一年多以来,围绕“降低门槛、拓展应用”,研究团队持续探索技术创新,对模型进行升级迭代。2024年3月,书生·天际2.0实现“单卡可用、实时渲染”;日前,书生·天际3.0开源发布,实现了渲染效率提速近6倍,同时将应用方式拓展至VR设备,以专用大模型的技术突破,赋能生产力提质增效。


同时发布的书生·天际训练渲染系统(LandMarkSystem),可兼容多种算法和硬件资源,支持多样化高质量实景三维重建,满足不同用户的应用需求。未来,在城市规划、智慧文旅、游戏开发、影视制作、具身智能环境模拟等领域,书生·天际具备广阔的应用潜力。


书生·天际3.0的算法和系统陆续开源,并提供免费商用。

书生·天际算法代码开源:

https://github.com/InternLandMark

书生·天际系统开源代码链接:

https://github.com/InternLandMark/LandMarkSystem


交互体验:更全面、更沉浸

在Web端的基础上,书生·天际3.0将应用方式拓展至VR设备,突破虚实边界的沉浸式交互体验得以实现。

用户戴上VR眼镜,即可在名胜古迹、城市街景或博物馆中自由穿梭、探索,无论是城墙上的砖瓦,还是厂房内的按钮,几乎“触手可及”。
书生·天际3.0可接入VR眼镜等设备,为用户带来沉浸式虚实融合体验

基于书生·天际3.0对VR设备、Web端等多终端设备的实时渲染支持,用户可在重建的三维实景中对场景进行更直观、更自由的编辑。
通过书生·天际3.0,用户可自由探索名胜古迹,体验现实中难以触达的观景角度。图中是对西安鼓楼的实景重建场景

书生·天际曾开创性地实现了百平方公里级城市实景三维建模,以4K级图像精度,准确呈现大规模三维城市场景。本次全面升级中,书生·天际3.0拥有了更全尺度场景的3D建模能力,可覆盖单个物体、室内布局及城市场景,面向更真实、立体的生活及生态空间呈现,助力新型基础设施建设。
依靠数张不同角度照片,即可实现单个物体、室内场景“一键还原重建”

利用少量航拍图像即可高效完成大场景重建训练和实时渲染编辑。图中是对上海外滩附近街区的实景重建场景

实景三维重建:更高效、更流畅

相较于上一代模型,书生·天际3.0的综合渲染效率提升了5.84倍。面对不同尺度场景对实时渲染算力需求的区别,结合算力需求与硬件性能,可对计算资源进行弹性调度。实验结果显示,新一代模型既能在单卡下进行实时渲染和交互编辑,同时,渲染性能可随着投入卡数的增加实现线性增长,进一步降低了硬件门槛。
书生·天际3.0综合渲染效率较上一代提升5.84倍

VR等终端设备的接入,对实景三维的成像质量及计算资源合理使用提出了更高要求。只有当FPS(每秒帧数)达到一定的要求,才可减少运动模糊和画面撕裂感,提供更流畅的视觉体验。不同于普通视频流以30FPS为基准,VR设备中的画面须达到90FPS以上,才可有效减少用户眩晕感,保障观看舒适度。

为此,研究人员提出连续渲染静态重用技术,渲染精度较传统方法提升36.93%,保证了成像流畅度。在书生·天际3.0中,室内场景中实现120FPS的流畅表现,在室外场景中则能保持稳定的72FPS,为用户带来身临其境的沉浸式体验。
单帧分立渲染(左)与连续渲染静态重用技术渲染(右)效果对比

VR等设备带来的双目成像需求,对算力使用也提出了全新挑战。传统单目交替渲染方法适应双目成像时,往往带来视差损失。为解决此问题,此前多以加大算力以弥补算法不足。针对现状,研究人员提出首个针对3D高斯(3D Gaussian)渲染的双目去冗融合渲染技术,在不增加额外算力的情况下可实现消除双目视差。
双目去冗融合渲染与传统双目交替渲染效果对比

算法系统支撑:更兼容、更有力

沉浸式的高质量虚实交互,得益于算法的全面演进和训练系统的创新支撑。

书生·天际研究团队同通过对Scaffold-GS、Dynload-GS等高斯算法的深度挖掘,提出原创的Octree-GS算法。将八叉树(Octree)这一空间结构引入至3D高斯算法,从多视角图像中学习场景表达,并按照细节层次(LOD)技术将高斯模型划分为多个级别。

在城市级别的大规模场景中,传统高斯算法中渲染的3D高斯数量会随视角拉远而急剧提升,不仅无法保持实时渲染,而且会导致算力需求提升。相反,Octree-GS可根据场景距离和复杂度的高斯筛选机制,在大规模场景渲染中,减少约73.3%的3D高斯数量,在保证高保真渲染结果的同时,实现了从近视角到远视角一致的渲染速度。
Octree-GS算法示意

为赋能训练推理与实景三维平台建设,研究团队构建了首个支撑城市级大场景重建训练和实时渲染的系统——书生·天际训练系统(LandMarkSystem)。通过将算法组件化、模块化,同时对算子进行大量优化,该训练系统实现了对多种算法的有效兼容,可提供更高效的实时渲染能力,为低成本、高质量的大规模场景重建提供了平台支撑。
研究人员对多种算法进行解构,LandMarkSystem目前支持Scaffold GS、Octree GS、Vanilla GS、GridNeRF、InstantNGP、Nerfacto 等6种3D重建算法

基于LandMarkSystem,用户可根据不同场景需求、不同硬件资源条件,选择最高效的算法以及最合适的优化渲染方式,从而使实现更高效、高质量的实景三维重建。
LandMarkSystem执行架构

继续滑动看下一个
书生Intern
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存