研读 | WAIC2022回顾 (1):AI 助力元宇宙 3D 重建与内容生成
The following article is from Mindverse Research Author 心识宇宙团队
人工智能、区块链、元宇宙是生产力、生产关系和社会文化之间的关系,人工智能对元宇宙的建设可以在基础设施、交互与生态三个层次上多维度结合。这次的世界人工智能大会(WAIC)也体现了这一点,元宇宙的概念几乎渗入到了各个主题中,甚至初入会场让人误以为是一场元宇宙大会。
具体而言,对元宇宙的场景感知和视觉,AI 对 3D 重建与 3D 内容生成是重点,对场景的信息入口与生产要素,虚拟人的智能和意识水平是重点。以下会从这两方面总结本次 WAIC 中 AI 对元宇宙 3D 场景和内容建设的分享和研究,首先是 3D 重建与生成部分。
目 录
✦
3D 场景重建和生成与深度学习框架
NeRF 到 3D GAN:3D内容重建与缺乏内容生成
基于流形学习的三维内容生成
✦
✦
3D场景重建和生成与深度学习框架
基于规则的方法:分析图像的颜色纹理、几何结构等信息,基子定的规则构造能量表达式,直接或近似求解 数据驱动的方法:以互联网海量可视媒体数据作为素材,通过先检索、再过滤、最后合成的步骤生成新的内容(2D内容) 基于深度学习的方法:以卷积神经网络为工具,利用对抗训练策略,学习训练样本中的潜在语义信息,生成真实感的内容的内容
对于基于深度学习的方法,其中二维数据的生成,现在有很多成熟的模型,如生成对抗网络(GAN)、变分自动编码器(VAE)、基于流的生成模型(Flow-based models)、扩散模型(Diffusion models)等。
几种常用的生成模型[1]
然而对三维数据重建和生成,却不是那么容易解决的。胡事民教授的分享中重点介绍了清华大学计图 (Jittor) 深度学习框架针对三维几何学习模型的支持。
基于三维体素、点云、网格(mesh)等数据表示,计图支持一种基于细分结构的网格卷积网络SubdivNet,可以将输入网格进行重网格化(remesh),构造细分结构,得到一般网格的多分辨率表示,结合直观灵活的面片卷积方法、升/降采样方法,可以将成熟的图像网络架构迁移到三维几何学习中。
对基于深度学习的方法,其中最普遍成熟的模型是NeRF(Neural Radiance Fields),可以采用多张2D图片隐式重建3D场景。模型输入是一组5D参数,包括三维坐标(x, y, z)以及二维视角位置(θ, Φ),通过训练将三维场景隐式存储在多层神经网络,输出则是这个点在这个方向发光的颜色和体素密度。
[2]
这样,NeRF 就将场景建模成了一个连续的 5D 神经辐射场,只需要通过输入一个相机方向,就可以获得场景或物品的图片。
随后几年,后续研究对NeRF模型有了诸多改进。计图 (Jittor) 深度学习框架也支持一种新的Recursive-NeRF模型,通过递归神经场由粗到细表示和渲染场景,通过不确定性预测,在不确定性足够低时提前退出,避免不必要的计算以加速渲染,这样根据场景复杂度,就能实现网络的动态生长。与NeRF在网络最后一层中输出所有点的颜色和密度不同,Recursive-NeRF递归地呈现最终图像,基于递归的渲染方式,能够加深最深的网络层数以带来效果提升,但是渲染时问能够更少。
[3]
NeRF 到 3D GAN:
3D内容重建与缺乏内容生成
[4]
对以NeRF为首基于神经场表征的三维重建工作进行改进,分别开发出了混合场景表征快速渲染(Hybrid Scene Representation for Fast Rendering)、神经表面表征高质量重建(Neural Surface Representation for High-quality Reconstruction)、基于物理学的场景表征(Physics Informed Scene Representation)、神经动画化人体表征(Neural Animatable Human Representation)等工作,都极大提高了对现在三维场景的重建工作效率。
在此基础上可大规模获取 3D 可视化数据,从而为生成具有多视角的 3D 数据提供基础。
另一方面,也可以直接考虑生成多视角和姿势的 2D 数据。刘玲洁团队出一种生成 2D 人类各种外观和姿势的模型:HumanGAN。
这样,当获得了重建或生成的多视角数据后,就可以使用各种3D GANs生成模型完成大规模3D数据生成工作。
不过,这些数据依然面临配对数据缺乏问题,为此刘玲洁团队提出一种新的无监督反演渲染方法(GAN2X: Non-Lambertian Inverse Rendering of Image GANs),通过体积渲染和基于制材阴影的隐性神经表征,成功地恢复了不同物体类别的高质量的三维形状、反照率和镜面特性。
最后,刘玲洁展望未来,认为大规模多模态学习模型(Large-scale multimodal learning models) 会和 3D 内容生成结合,包括文本生成 3D 内容、以及基于 3D 生成内容的语言学习等等。
基于流形学习的三维内容生成
来自微软亚洲研究院的童欣做了题为《基于学习的三维内容生成》的分享。在他看来,传统的 3D 内容创作,存在以下问题:
三维建模软件难以学习和使用 采集成本高,耗时长 劳动密集型,需要大量高度专业技能、熟练的工人 可扩展性低,不能为不同目的重复使用
为解决这些问题,他们从3D形状生成、3D纹理生成以及3D物件生成三方面进行了探索和研究。
首先对第一个问题,要输入某种类别的一系列形状,最终输出一个用于自动创建三维形状的三维GAN生成器模型,难点和挑战是质量和真实感不足够高。为此采取了三个解决思路:
传统表征 → 基于隐式有向距离场(SDF)的体素特征
生成器设计 → 基于 StyleGAN 的生成器
判别器设计 → 基于SDF梯度下降的全局和局部判别器
对于第二个问题,目标是从二维图像中为 3D 形状生成完整的纹理集,其输入是三维合成形状或从不同角度捕捉到的三维形状的二维图像,输出是一个自动为合成的三维形状创建纹理的生成器。其解决方案是:
通过解决二维图像集的合成三维形状和未知三维形状之间的分布差距问题,使用形状剪影作为纹理生成器的条件,多视图联合判别器的视图一致性,创造一个形状感知的纹理生成器。
对第三个问题,目标是从二维图像集生成物体的三维神经辐射场(NERF),其中输入是一类物体的二维图像集合(例如脸、猫、车等),输出是一个可以生成NeRF,用于渲染高质量的3DGAN模型。
其中挑战是如何实现高质量的生成并保持三维一致性。例如对于现有的基于NeRF的GRAF, Pi-GAN等解决方案,具有高三维一致性但质量较低,而对GIRAFFE, StyleNeRF, NeRF+图像卷积空间升采样等方案,虽然质量较高,却没有严格的三维一致性
童欣研究员团队的思路是将NeRF限制在一组流形表面上(辐射度流形),以及在在图像空间中不使用任何二维卷积升采样。
实证结果表明,这种生成算法最终取得了良好效果。
[4]
童欣研究员最后总结认为, 从二维图像集合到实现三维内容,深度学习为3D内容创作提供了一种新的方式,能够极大提高传统3D建模方式的生产力,但同时依然充满挑战。例如如何分离的三维表征(结构、形状、外观),以便用于有效控制和编辑,使用诸如扩散模型等新方法进行生成、以及基于对新的输入(文本、视频)进行生成等等。
此外,斯坦福大学的Gordan Wetzstein也做了《Neural Scene Representation,Rendering and Generation》的分享,浙江大学计算机辅助设计周昆做了《可微分的三维数字化技术——构建流光溢彩的数字世界》的分享。
本次《生成AI缔造无限创新》的直播回放可以通过官网平台进行观看:https://live.sh-aia.com/v1/live/news/2102626/intro?collectId=3751
参考文献
[1] https://lilianweng.github.io/posts/2021-07-11-diffusion-models/generative-overview.png
[2] https://www.matthewtancik.com/nerf
[3] https://arxiv.org/abs/2105.09103
[4] https://arxiv.org/pdf/2112.08867.pdf
城市棱镜 | 简单思维无法应对城市的复杂问题
研读 | 移动政务哪家强?2022“掌上好办”指数发布
城市阅读 | 解决大城市病,而不是解决大城市
内容来源 / Mindverse Research,2022年10月9日
今日编辑 / 范姝含
责任编辑 / 戴晟昱
审稿 / 杨武剑
城市大脑研究院提供开放研讨平台,所有文章仅代表作者个人观点,欢迎共同探讨。原创文章,转载请注明来源:城市大脑研究院。部分图片来源于网络,如涉及版权问题,敬请及时联系我们。