3D 生成,一直在等待它的「ChatGPT时刻」。
一直以来,创作 3D 内容是设计和开发视频游戏、增强现实、虚拟现实以及影视特效中最重要的部分。然而,3D 生成具有独特而艰巨的挑战,这是图像和视频等其他生成内容所不具备的。- 首先,3D 内容在艺术质量、生成速度、3D 网格结构和拓扑质量、UV 贴图结构以及纹理清晰度和分辨率方面具有严格的标准;
- 其次,与其他研究相比,可用的数据量少。虽然该领域有数十亿张图像和视频可供学习,但可用于训练的 3D 内容数量要少三到四个数量级。因此,现阶段的3D 生成还必须从非 3D 的图像和视频中学习,而且需要从部分 2D 观察中推断出 3D 信息;
- 传统方法生成的3D 资源通常难以实现逼真的照明和材质属性,从而限制了它们在专业工作流程中的实用性;
- 3D生成是一个非常耗费算力的过程,主要因为它涉及到复杂的计算和大量的数据处理,如实时渲染、细节处理。并且由于算力不够,可能会导致生成速度非常慢。
在生成式AI爆发的当下,很多研究者开始尝试针对以上问题提出解决方案。刚刚,Meta发布了最新系统Meta 3D Gen (3DGen),其用不到一分钟的时间,就能直接从文本生成3D资产。- 论文地址:https://ai.meta.com/research/publications/meta-3d-gen/?continueFlag=24428397aaeb0cc6751570d48a532d36
3DGen支持基于物理的渲染 (PBR),这是在实际应用中重新照明 3D 资产所必需的。此外,3DGen 还支持使用用户提供的额外文本输入对先前生成的(或艺术家创建的)3D 形状进行重新纹理化。比如下面所展示的,借助3DGen,研究者渲染出了一只金属色的小狗:
3DGen还能对生成的对象纹理进行进一步编辑和定制,同样的方法也可以应用于艺术家创建的3D网格纹理而不需要修改。如下所示,3DGen将艺术家创建的3D资产渲染成彩色的蝴蝶。
通过展示可以看出,即使是复杂的文本提示,3DGen也能很好地遵循指令,生成的3D形状和纹理质量也比较好。Meta 3D Gen 是一种两阶段方法,包括两个关键组件:用于创建 3D 网格的 Meta 3D AssetGen 和用于生成纹理的 Meta 3D TextureGen。这些技术协同工作,可生成具有高分辨率纹理和PBR材质的 3D 资产。Meta表示,该流程的速度是现有解决方案的 3 到 10 倍。
第一阶段为3D 资产生成阶段。在这一阶段,根据用户提供的文本提示,Meta 3D AssetGen(简称 AssetGen)创建初始 3D 资产。此步骤生成具有纹理和 PBR 材质贴图的 3D 网格。推理时间约为 30 秒。接下来是第二阶段。给定第一阶段生成的 3D 资产和用于生成的初始文本提示,第二阶段将基于该资产和提示生成更高质量的纹理和 PBR 贴图。第二阶段用到了文本到纹理生成器 Meta 3D TextureGen(简称为 TextureGen)。推理时间约为 20 秒。此外,给定一个无纹理的 3D 网格和描述其所需外观的提示,第二阶段还可用于从头开始为该 3D 资产生成纹理(网格可以是先前生成的,也可以是艺术家创建的)。推理时间约为 20 秒。下图为第一阶段和第二阶段可视化对比。后者往往具有更高的视觉美感,看起来更逼真,细节频率更高。
我们不难发现,3DGen 以 AssetGen 和 TextureGen 为基础,将3D 对象的三个关键信息进行了很好的互补:视图空间(对象的图像)、体积空间(3D 形状和外观)和 UV 空间(纹理)。此过程从 AssetGen 开始,通过使用一个多视角和多通道的文本到图像生成器,生成关于物体的几个相对一致的视图。接着,AssetGen中的一个重建网络会在体积空间中提取出3D对象的第一个版本。此过程接着进行网格提取,建立对象的3D形状和其纹理的初步版本,这一系列步骤构成了从文本描述到3D模型的转换过程。最后,TextureGen 组件利用视图空间和 UV 空间生成的组合来重新生成纹理,提高纹理质量和分辨率,同时保持对初始提示的保真度。论文将3DGen的性能与业界领先的文本到3D生成模型进行了比较,包括 CSM、Tripo3D、Rodin Gen-1 V0.5、Meshy v3等。
在时间上,stage1最快的是Tripo3D(经过笔者实测,Tripo3D线上版本目前stage1为10秒,stage2是2分钟);stage2最快的是Meta 3D Gen,Tripo3D紧随其后,Rodin Gen-1 V0.5排名第三,用了2-30分钟完成。在功能上,除了Rodin支持重拓扑之外,笔者实测Tripo3D也支持retopology。表2主要表现了不同模型遵循 prompt的结果。主要关注text-to-3D,实验中用了来自2023 Google DreamFusion论文中的404个prompt,细分为物体(156)、角色(106) ,组合角色物体 (141),难度由低到高。定量对比部分全部是user study(用户偏好)。
结果表明:在text-to-3D比较重要的prompt fidelity指标上:- 综合排序为:Meta 3D Gen > Third-party T23D generator > Tripo3D > Meshy v3 > CSM Cube 2.0 > Rodin Gen-1 。其中前三名差距很小(3个点的差距,404个prompt中的12个)。CSM和Rodin相较其他方法有明显差异,Rodin和3DGen相比,两者相差 21.8个点。
- 分项评测方面,最简单的objects中表现最好的是Meshy v3。角色类和复杂组合概念的表现代表了技术水准,也是3D产业应用中最重要的部分,Meta在复杂组合上排名第一,Tripo3D则是难度越高表现越强,仅次于Meta,和第一名差距很小。
表3比较了Meta和其他方法的A/B win rate和loss rate结果,数字win rate越低代表所对比方法越强,loss rate越高代表所对比方法越强,可以得出: - Meshy v3纹理分最高、Rodin纹理分最低;
- 在综合性一致性、整体质量方面,Rodin表现不佳;
- All users和专业用户打分标准可以看出略有不同,但排名趋势是一样的:对几何和纹理的正确性给予了更多的权重;
上图横坐标是前面提到的prompt复杂度,纵坐标是Meta win rate,低于50%说明对比方法比Meta好,折线越低说明方法越好。图中比较了多个维度,包括prompt还原度、综合视觉质量、几何视觉质量、纹理细节、纹理瑕疵等指标。Meta在论文中谈到越复杂的prompt,他们的方法优势越明显,这个其实和前面Table 2中Tripo3D的趋势和优势是一致的。可以推测如果这里加上Tripo3D,Tripo和Meta应该不分伯仲。在这篇论文中,Meta还给出了几个模型的定性结果对比图,我们可以从这些图中看出一些差别。
从prompt遵循程度来看,3DGen表现优秀,比如对于第一行的羊驼雕塑,它可以把prompt中提到的logo文字写上。但以第三行的case为例,CSM的语义理解较弱,Tripo则展现了其他模型都失败的「被锻造的锤子」,甚至还基于推理生成了3DGen没有考虑到的炭火。但综合几何细节和纹理细节来看,3DGen的纹理细节略显粗糙,Meshy和Rodin的第一行几乎没什么纹理,而Tripo3D的纹理结果则要好得多,几何细节非常丰富,人、物也更保真,不像3DGen一样有时候脸会垮掉。
图7表现了同一场景下的比较结果,包括 Tripo3D 、Meshy v3 、以及 3DGen。综合来看,Meshy方法生成的纹理瑕疵多一些、生成的几何粗糙一些;放大来看,Tripo和3DGen效果不相上下,但Tripo生成结果更形象、灵动一些。3D生成赛道其实一直是资本市场的宠儿。A16Z接连对3D生成赛道出手,除了最近名声大噪的Luma Labs之外,Meta论文中提到的CSM,Google系的Yellow,还有曾经争议较大的Kaedim都是A16Z的被投明星企业。在Meta论文中参与比较的工作中Meshy出自知名学者胡渊鸣的团队,Tripo则出自之前和Stability AI发布TripoSR的团队VAST。Meta此篇论文中引用了不少VAST团队的论文,不仅包括TripoSR,也包括刚被ECCV收录的UniDream、曾经爆火的Wonder3D、Triplane meets Gaussian splatting等等。据笔者根据Tripo官方海外媒体信息,全球开发者已经基于TRIPO生成了近四百万个3D模型,TripoSR上线一周就在Github上拿到了3K+的star量。基于这种人气,Tripo社区也推出了全球第一个AI 3D全球渲染大赛。据笔者调研,不管是CG还是3D打印领域都有许多目前的落地探索,不管是全球最大的3D素材交易网站CG模型网定向邀请创作者测试,还是3D打印龙头开始探索AI,都体现出比想象中更快的商业化落地速度。
VAST上线Anycubic的模型社区网站Makeronline和CG模型网Keadim则选择和初创团队Nakkara一起探索3D打印业务:
总体来看,3D生成技术在学术和行业落地层面都不断取得突破性进展,我们有理由相信,3D大模型会释放更多潜力。© THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com