查看原文
其他

OpenAI开源文生3D模型,数字人和元宇宙再获AIGC助力,PE应用站上风口

元透社 元透社 2023-10-10


OpenAI近日公开了其最新的开源模型Shap-E,这款创新型3D模型生成器能将描述性的文本转化为相应的3D模型。Shap-E的开源,不仅为全球的研究者提供了一个新的研究工具,也为数字内容创作者、游戏开发者和元宇宙设计师提供了一个强大的创作工具。

用户只需提供描述性的文本,就能生成具有高度细节和复杂度的3D模型,大大提高了创作的效率和质量,而作为通用人工智能核心应用技术的自然语言描述技术Prompt Engineering(PE)也将成为新的风口。

文生图领域的新玩家

"文生图"领域的玩家,致力于从文字描述生成相应的图像或三维模型,核心技术是计算机视觉和自然语言处理。在这个领域,Stable Diffusion 率先开源,与闭源的 Midjourney 难分伯仲。

Stable Diffusion是一种开源的生成模型,它使用了一种称为"扩散过程"的技术来生成数据。扩散过程是一种随机过程,通过不断地添加和去除随机噪声,最终生成新的数据。Stable Diffusion是率先开源的模型,为研究者提供了一个重要的研究工具。Midjourney则是闭源模型。从公开的结果来看,Midjourney在生成质量和速度上与Stable Diffusion相当,两者都是目前文生图领域的重要参考。

OpenAI本次发布的Shap-E也是文生图模型,但它的特点是可以生成3D模型,而且走的是开源路线。

Shap-E的优势在于,它对单个物体的理解能力较强,可以从文本描述中提取出物体的属性并生成相应的3D模型。
不过,Shap-E在处理复杂场景,如多个物体的组合时,其理解能力较弱,可能无法准确地生成出符合描述的场景。此外,Shap-E生成的模型在细节上可能较为粗糙,比如在生成仙人掌的3D模型时,可能无法准确地再现仙人掌的纹路。

尽管存在这些限制,Shap-E对于提升AIGC(人工智能生成内容)的3D内容生产模型的速度和质量依然具有重要的推动作用。Shap-E的开源,将使开发者有机会探索和改进这个模型,以实现更快的生成速度、更高的生成质量,以及对复杂场景和细节的更好理解。

Shap-E的新玩法

元透社分析发现,从技术创新的角度看,Shap-E的独特之处在于其基于深度学习和生成对抗网络(GAN)的核心设计。

GAN由两部分组成:生成器和判别器。生成器创建新的、假的数据,判别器尝试区分真实的数据和生成器生成的数据。这两个网络在训练过程中相互对抗,以提高各自的性能。在Shap-E模型中,这种方法被用来生成与输入的文本描述相符的3D模型。

与传统的3D生成模型直接产生单一输出表示不同,Shap-E的创新之处在于它直接生成隐式函数的参数,这些参数可以表现为纹理网格和神经辐射场(NeRF)两种3D表示方式。纹理网格通过多边形网格(通常是三角形)表示3D对象的外表面,并包含了表面的颜色和纹理信息。而NeRF则使用深度学习模型来表示3D场景的体积和颜色信息,可以捕捉更复杂和详细的3D信息。

Shap-E的这一设计,为用户提供了更广泛的选择和更大的灵活性。

我们可以以Shap-E的训练过程为例,观察它的创新空间。

Shap-E的训练过程分为两个步骤。首先,训练一个编码器,将3D资产映射到隐式函数的参数,这个过程是确定性的。然后,在编码器的输出上训练条件扩散模型。条件扩散模型是一种生成模型,能够生成新的、多样化的输出。通过这种两阶段训练过程,Shap-E能够有效地处理高维和复杂的3D数据。
OpenAI的研究团队在大型数据集上进行了Shap-E的训练。结果表明,Shap-E能在几秒钟内生成复杂多样的3D资产。这种高效的训练和生成能力,使Shap-E在面对大规模的3D模型生成任务时,表现出了显著的优势。
与此同时,相比OpenAI之前开源的生成模型Point-E,Shap-E在训练速度和样本质量上都表现出了显著的提升。Shap-E对更高维的、多表示的输出空间进行建模的同时,其收敛速度仍更快,样本质量也达到了相当或更高的水平。

文本生成3D的创新溢出效应

在“文本生成3D”领域,OpenAI的Shap-E、谷歌的DreamFusion和英伟达的Magic3D都是重要的竞争者,但又各有擅场。

谷歌的DreamFusion是一个深度学习模型,它使用大量的训练数据来学习如何从文本描述生成3D模型。DreamFusion的优势在于谷歌强大的计算资源和丰富的数据,使其能够训练出高质量的模型。

英伟达的Magic3D则另辟蹊径。今年3月,英伟达宣布与设计工具公司Shutterstock合作,共同训练这个模型,英伟达将可以利用Shutterstock的设计资源和专业知识,提升Magic3D的生成质量和效率。Shutterstock首席执行官Paul Hennessy表示,这一合作将大大缩短从创建到发布具有精美纹理、结构化的3D模型的周期。
OpenAI的Shap-E,虽然在一些方面存在局限,如对复杂场景和细节的处理,但其开源的特性使得全球的开发者都可以参与到这个模型的改进和优化中来。这种开放性可能是Shap-E在与DreamFusion和Magic3D竞争中的一大优势。
Shap-E的发布,使得OpenAI、在推动人工智能生成内容(AIGC)的3D生成技术的发展上,与谷歌和英伟达一起上演三剑客的角色。
文本生成3D技术的迅速扩散,将使得许多行业和应用领域也开始从中受益,包括但不限于营销、游戏、建筑和工业数字孪生等。
在营销领域,AIGC可以用于生成个性化的3D广告和产品展示,为消费者提供更真实、更吸引人的视觉体验。在游戏行业,开发者可以利用AIGC的3D生成技术来快速、高效地创建出丰富多样的游戏角色、场景和道具,极大地提升了游戏的创作效率和质量。
在建筑领域,AIGC可以根据设计师的描述生成详细的3D建筑模型,使得建筑设计变得更加高效、精准。工业数字孪生领域则可以利用AIGC生成复杂的3D工厂和设备模型,为工业设计和管理提供强大的工具。
对于元透社读者来说,AIGC的3D生成技术更重要的价值是推动元宇宙的快速发展。作为数字技术创新创造的新世界,元宇宙所有内容都可以由AIGC生成。这些3D生成的内容,不仅可以降低元宇宙的创造和维护成本,还可以提供更真实、更丰富的用户体验。
扩展来看,文生3D技术的潜在应用广泛,从游戏和电影的视觉效果制作,到虚拟现实和增强现实的内容创建,再到工业设计和城市规划等领域,都有可能得到广泛应用。不仅如此,Shap-E还为人工智能和人机交互的研究提供了新的可能性,例如,将自然语言处理和计算机视觉结合起来,让机器更好地理解和生成3D世界。

PE新赛道站上风口

Shap-E的开源,"Prompt Engineering"的概念也被引入了3D设计领域。

"Prompt Engineering(PE,描述工程或对话工程)"指的是为这类自然语言处理模型设计有效输入(即"prompts",描述或对话)的技术,以使模型产生期望的输出。此前,OpenAI的GPT模型以其强大的文本生成能力走红,催生了许多以“Prompt Engineering”为核心的商业应用。

Shap-E作为"文本生成3D"模型,可以根据输入的文本提示生成对应的3D模型。因此,如何设计有效的文本提示,以引导Shap-E生成高质量的3D模型,成为了一个新的挑战和机遇。

Prompt Engineering在3D设计领域的应用将带来一系列新的商业机会。例如,可以开发出新的3D设计软件,用户只需输入描述物体的文字,就能得到对应的3D模型。或者,可以开发出新的在线3D设计服务,用户通过描述他们想要的物体或场景,就能得到专业的3D设计结果。

Prompt Engineering在3D AIGC领域的应用,将带来一场商业模式的革新,催生一系列新的商机,推动产业升级,为创业者、实体经济和投资者提供大量的机会。

设计服务提供商:利用Prompt Engineering技术,企业可以提供快速、高效的3D设计服务。用户只需提供描述物体或场景的文字,服务提供商就能生成对应的3D模型。这种模式可以大大降低设计成本,提高设计效率,使3D设计变得更加普及和便捷。

设计软件开发商:企业可以开发新的3D设计软件,内置Prompt Engineering技术。这种软件可以让用户通过输入文字描述就能生成3D模型,使3D设计变得更加容易和直观。这种模式可以吸引大量的非专业用户,开拓新的市场。

内容生成平台:企业可以创建一个在线的3D内容生成平台,用户可以在平台上发布他们的设计需求,平台通过Prompt Engineering技术生成相应的3D模型。平台可以通过收取服务费或者广告费来盈利。这种模式可以吸引大量的用户,形成强大的网络效应。

PE和Web3联手助力数字人元宇宙商业模式创新

在数字人和元宇宙领域,Prompt Engineering加上3D AIGC的创新会引发多种商业模式的演变和新机遇的产生。

数字人创建与定制服务:Prompt Engineering和3D AIGC可以简化数字人(或虚拟角色)的创建和定制过程。企业可以提供数字人生成服务,用户只需提供描述,如性格特点、外貌特征等,便能生成独一无二的数字人。这种服务可以应用在社交媒体、网络游戏、虚拟现实和元宇宙等领域。

元宇宙建设与开发:Prompt Engineering和3D AIGC可以大幅提升元宇宙中的虚拟世界建设效率。开发者可以通过简单的描述来创建复杂的3D环境和物体,极大地降低了开发成本和难度,使得元宇宙的建设和开发变得更加容易和普及。

元宇宙商业模式:在元宇宙中,企业可以开设虚拟商店,销售由Prompt Engineering和3D AIGC生成的3D商品,如家具、服装、装饰品等。用户可以通过描述他们想要的商品特性,商店则能生成对应的3D商品。此外,企业还可以提供虚拟地产开发服务,用户通过描述他们想要的环境特性,企业则能生成对应的虚拟地产。

广告与营销:企业可以利用Prompt Engineering和3D AIGC生成个性化的3D广告。例如,用户可以描述他们想要的商品特性,广告则能生成展示这些特性的3D商品图片或视频。这种广告形式不仅更具吸引力,也能更好地满足用户的个性化需求。

湾区新型实体经济研究院的分析团队认为,在基于区块链核心技术的Web 3理念下,Prompt Engineering和3D AIGC更可以为数字人、元宇宙等领域带来更多具有创新性和颠覆性的商业模式。

数字资产所有权和交易:基于区块链技术,用户和企业可以创建、交易和拥有独特的3D数字资产。这些资产可以包括虚拟商品、土地、建筑物等。通过智能合约,资产的所有权、交易和使用规则可以被确保。这种商业模式可以激发用户参与度,增加元宇宙内的经济活动。

去中心化创作平台:结合Prompt Engineering、3D AIGC和区块链技术,可以创建一个去中心化的3D创作平台。在这个平台上,艺术家和设计师可以上传、展示和出售他们的作品。平台可以利用智能合约确保作品的原创性和所有权,保护创作者的权益。

元宇宙治理与共建:基于区块链技术,可以建立一个去中心化的元宇宙治理和共建体系。用户可以通过代币投票参与元宇宙的规划、建设和管理。这种模式可以使元宇宙更加民主化,更具包容性和创新力。

加密艺术品市场:结合Prompt Engineering、3D AIGC和区块链技术,可以创建一个加密艺术品市场。在这个市场上,用户可以购买、展示和交易独特的3D艺术品。这些艺术品可以成为具有投资价值的数字收藏品,激发艺术市场的活力。

虚拟身份与隐私保护:基于区块链技术,用户可以创建独特的虚拟身份,并通过零知识证明等加密技术保护自己的隐私。这种模式可以使用户在元宇宙中更加自由地沟通、交流和交易,同时确保个人隐私的安全。

元透社分析家认为,包括Shap-E开源在内,通用人工智能领域的创新,PE赛道的蓄势待发,都将带给用户更真切的多维感知体验,并通过XR、Web3的融合效应,进一步深刻推动数字人、元宇宙内容和场景创新,促成全球新型实体经济和未来产业的加速发展。

欢迎继续浏览新型实体经济专题


-END-



如需加入社群、投稿或商务合作请点击公众号菜单栏


欢迎关注元透社视频号,关注国内外行业动态。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存