查看原文
其他

平面变立体,仅需5秒,书生·物华2.0再降数字资产创作门槛

Shanghai AI Lab 书生Intern
2024-12-31


一句话、一张图,一键“秒”变。

降低繁琐建模门槛,三维数字资产生成再创新范式。


近日,由上海人工智能实验室(上海AI实验室)与南洋理工大学联合推出三维物体生成大模型书生·物华2.0(3DTopia 2.0),基于语言、图像等多模态输入,五秒内即可实现三维物体高效生成


在“平面转三维”的能力基础上,由书生·物华2.0生成的三维物体更接近真实的物理材质感,支持直接应用于游戏引擎及工业设计软件,同时,得益于“一键生成”的三维建模方式,书生·物华2.0将助推AIGC技术在游戏、影视、建筑、设计等行业的落地应用,助力从业者显著提升创作自由度与效率。


秉持以高质量开源赋能技术创新理念,书生·物华2.0模型代码已开源,支持用户本地部署,提供免费商用授权。

开源链接:
https://github.com/3DTopia/3DTopia-XL


秒级生成,精细高效

此前发布的书生·物华1.0实现了高质量、多样化的“文生三维”,为三维数字资产创作构建了技术基础。本次升级的书生·物华2.0,将生成基础由语言拓展至图片等多模态,用户输入文字或图片,在5秒钟内即可实现“平面转三维”。
输入文本即可生成高质量三维物体生成
基于书生·物华2.0进行进行平面-立体转换的“图生三维”

为实现高质量文生三维能力,上海AI实验室联合团队此前曾提出包含10亿参数的三维扩散模型,将三维物体用三个正交的特征平面进行表示,同时通过变分自编码器对三平面表征进行压缩编码,得以通过文本输入生成三维物体。

在成熟的“文生三维”能力之上,本次升级的书生·物华2.0具备平面图片转三维物体的能力,并支持多视角重建模型等多模态输入,更贴近三维数字资产创作应用场景。

为此,联合团队引入了更高效的三维表征及DiT模型架构,使得模型能够在隐空间(Latent Space)中进行大规模可扩展训练,简化数据表示形式,从而使模型获得了由单张图像生成三维物体的能力。联合团队同时使用了游戏开发中常用的符号距离场(SDF)技术,使得书生·物华2.0生成的三维内容具备精细的纹理以及良好的几何结构,接近人工手工建模质量。

相较于上一代的“两段式”生成策略,书生·物华2.0采用全新的三维扩散大模型直出技术,实现三维物体“秒级”生成。研究人员提出一种基元混合(PrimX)的高效三维表征方式,在形状边界邻域内对局部几何,纹理及材质进行联合建模,大幅减少计算所需参数量,建模效率既高于传统手工方法,也体现出相较于其他开源模型的优势。

研究人员将书生·物华2.0生成的数字资产在工业设计软件中进行了用户评测,在整体质量、几何平滑度、输入相关度和渲染正确性四个维度中均收获了专业用户的好评。

书生·物华2.0在整体质量、几何平滑度、输入相关度和渲染正确性四个维度均得到了用户青睐


接近真实质感,更加可靠易用

外观材质是决定三维模型视觉效果的关键因素之一,为使三维物体呈现出接近真实物理世界的材质效果,传统创作中往往需要对材质处理投入大量人力成本和专业储备。

为解决真实外观材质这一行业“痛点”,研究团队利用变分自编码器对三维物体几何、纹理和物理属性材质(PBR Materials)进行有效压缩编码,通过在隐空间中对几何形状与材质属性的高效联合建模,从而使书生·物华2.0生成的三维数字资产接近真实物理材质质感。生成的三维数字资产可达到工业级应用标准,直接接入影视、游戏等工业设计软件中使用。有效节约了人力、物力投入,并为AIGC技术提供了新的落地范式。

得益于“真实感”的提升,在应对工业应用场景的重打光、重渲染等具体需求中,书生·物华2.0体现出极高的灵活性和适应性,同时可根据特定应用要求对三维物体进行编辑和替换,为用户带来全新的创作自由度和效率。

由书生·物华2.0生成的三维物体,在不同光照场景下呈现出接近真实物理世界的材质效果
此前,受限于专业知识、学习门槛、硬件条件等多种因素,长期以来,三维建模存在显著技术壁垒。书生·物华2.0以AIGC形式为用户提供了低门槛工具,创意行业从业者可借助大模型解放双手,将精力充分聚焦于理念创新。

继续滑动看下一个
书生Intern
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存