平面变立体,仅需5秒,书生·物华2.0再降数字资产创作门槛
一句话、一张图,一键“秒”变。
降低繁琐建模门槛,三维数字资产生成再创新范式。
近日,由上海人工智能实验室(上海AI实验室)与南洋理工大学联合推出三维物体生成大模型书生·物华2.0(3DTopia 2.0),基于语言、图像等多模态输入,五秒内即可实现三维物体高效生成。
在“平面转三维”的能力基础上,由书生·物华2.0生成的三维物体更接近真实的物理材质感,支持直接应用于游戏引擎及工业设计软件,同时,得益于“一键生成”的三维建模方式,书生·物华2.0将助推AIGC技术在游戏、影视、建筑、设计等行业的落地应用,助力从业者显著提升创作自由度与效率。
秉持以高质量开源赋能技术创新理念,书生·物华2.0模型代码已开源,支持用户本地部署,提供免费商用授权。
秒级生成,精细高效
为实现高质量文生三维能力,上海AI实验室联合团队此前曾提出包含10亿参数的三维扩散模型,将三维物体用三个正交的特征平面进行表示,同时通过变分自编码器对三平面表征进行压缩编码,得以通过文本输入生成三维物体。
在成熟的“文生三维”能力之上,本次升级的书生·物华2.0具备平面图片转三维物体的能力,并支持多视角重建模型等多模态输入,更贴近三维数字资产创作应用场景。
为此,联合团队引入了更高效的三维表征及DiT模型架构,使得模型能够在隐空间(Latent Space)中进行大规模可扩展训练,简化数据表示形式,从而使模型获得了由单张图像生成三维物体的能力。联合团队同时使用了游戏开发中常用的符号距离场(SDF)技术,使得书生·物华2.0生成的三维内容具备精细的纹理以及良好的几何结构,接近人工手工建模质量。
相较于上一代的“两段式”生成策略,书生·物华2.0采用全新的三维扩散大模型直出技术,实现三维物体“秒级”生成。研究人员提出一种基元混合(PrimX)的高效三维表征方式,在形状边界邻域内对局部几何,纹理及材质进行联合建模,大幅减少计算所需参数量,建模效率既高于传统手工方法,也体现出相较于其他开源模型的优势。
接近真实质感,更加可靠易用
外观材质是决定三维模型视觉效果的关键因素之一,为使三维物体呈现出接近真实物理世界的材质效果,传统创作中往往需要对材质处理投入大量人力成本和专业储备。
为解决真实外观材质这一行业“痛点”,研究团队利用变分自编码器对三维物体几何、纹理和物理属性材质(PBR Materials)进行有效压缩编码,通过在隐空间中对几何形状与材质属性的高效联合建模,从而使书生·物华2.0生成的三维数字资产接近真实物理材质质感。生成的三维数字资产可达到工业级应用标准,直接接入影视、游戏等工业设计软件中使用。有效节约了人力、物力投入,并为AIGC技术提供了新的落地范式。