近日,上海人工智能实验室(上海AI实验室)与南洋理工大学联合推出并开源三维物体生成大模型 “书生·物华” (3DTopia)。
3DTopia 集成了文本、三维数据等多模态数据,可根据文本输入高效率地生成高质量、多样化的三维数字模型,以创新的设计范式为三维数字资产创作提供技术基础,未来可广泛赋能游戏、影视、建筑等行业应用。
在“文生三维”的基础上,3DTopia中还可导入标准图形学管线(包括常用游戏渲染引擎和工业设计软件),对已生成物体进行后期编辑,相比传统人工建模方法,3DTopia大幅节约了三维内容创作的时间和成本,为用户带来更灵活、更高效的创作体验。
3DTopia同时开源模型及代码,并提供免费商用。
开源链接:https://github.com/3DTopia/3DTopia
由3DTopia生成的三维物体,具有精细几何和高清纹理特征。试想如果拥有一间私人博物馆,该规划陈列哪些藏品?借助3DTopia,只需以文本形式向其提出设计需求,便可一键生成高质量三维模型,为虚拟世界的私人博物馆添置丰富的“数字藏品”。为实现高质量文生三维能力,上海AI实验室联合团队提出了一个包含10亿参数且计算高效的三维扩散模型。该模型将三维物体用三个正交的特征平面进行表示,用于高效处理复杂的三维结构。同时,通过变分自编码器对三平面表征进行压缩编码,从而可以在隐空间中针对三维-文本数据集进行联合训练,实现通过文本输入产生三维物体的通用能力。模型精细化建模能力则得益于联合团队构建的高质量文本标注三维物体数据集。该数据集包含了多种类别的高质量三维物体以及与之对应的准确文本描述,例如“一只白色的猫,身上有黑色的斑点,眼睛是蓝色的”等,为三维生成模型提供了良好的训练基础。评测结果显示,3DTopia在生成物体的质量、多样性等指标上综合领先现有开源模型。在OpenAI提供的三维生成标准评测指标CLIP score中,3DTopia的成绩为36.4,超越OpenAI的Point-E(33.1)和Shap-E(35.5),展现出开源模型的巨大潜力。相比于传统的人工建模,3DTopia大幅提高了三维内容的创作效率。对于一间空置办公室,向3DTopia提出各种办公家具生成需求,便可迅速生成适应场景的办公家具三维模型,高效输出“办公室规划设计图”。3DTopia助力空间规划
为了兼顾生成的速度与质量,3DTopia采用两阶段生成策略。首阶段采用三维扩散大模型,可根据给定文本,在约一分钟内生成若干候选三维模型。该阶段主要关注三维模型的几何形状,生成的几何结构具有较高的逼真度和多样性。第二阶段通过约四分钟的优化过程,重新生成高清纹理,进一步提升生成模型的质量。该阶段主要关注三维模型的纹理细节,生成的模型具有较高的清晰度和真实感,接近手工建模质量。3DTopia提供多样化的三维物体生成能力,即输入同一文本,可通过大模型生成不同的三维模型,甚至能在几何和纹理上产生差异。试想当受领“月球开发”的前沿任务,将如何完成前期规划?在3DTopia的帮助下,向其输入“地面建筑”,便可生成不同类型、外观、风格的建筑模型,让荒凉的月面拥有生机。在模型优化阶段,可以为已生成模型选择多样化的纹理特征,使得模型外观更加丰富多样。
得益于高质量文本-三维训练数据,3DTopia具有泛化到各种文本的能力,可实现通用类别物体的差异化生成,为设计人员提供更多创意灵感。
输入同一文本“生成一套机甲套装”,可生成不同风格机甲套装