查看原文
其他

3D行业专题研究报告:AI的下一个涌现

(报告出品:方正证券)

一、文生2D复盘:“千万级数据和亿级数据”是关键

2D模型数据量变大,涌现能力出现

涌现能力的定义:在小模型中没有表现出来,但是在大模型中变现出来的能力。涌现能力大概可以分为两种:通过提示就可以激发的涌现能力和使用经过特殊设计的prompt激发出的新的能力。无论哪种涌现能力,当模 型规模超过一个临界值时,效果会马上提升。以LeNet和AE为例,涌现能力在CV计算机视觉任务中也有所体现。LeNet是由Yann Lecun(2018年图灵奖得主 创造,其在手写体字符识别领域创造性引入卷积神经网络,是CNN的发展起点,通过观察LeNet在MNIST 21上 训练的结果,随着模型参数的增加,测试精度显示出不可预测的大幅增长;而在CIFAR100图像数据集上训练 的自编码器(AE)随着模型参数的增加显示陡峭的均方重建误差变化。

扩散模型领先于GAN、自回归模型

扩散模型(diffusion models)成为2D生成模型中主流模型,逐渐领先于GAN、自回归模型,显著提高了 图像生成的稳定性、准确性和多样性。并且扩散模型在诸多应用领域都有出色的表现,如计算机视觉,NLP、 波形信号处理、多模态建模、分子图建模、时间序列建模、对抗性净化等。

ImageNet:首个千万级别2D数据集,借助众包平台完成

ImageNet数据集09年发布,目前包含约1500万张标注图像。ImageNet数据集由斯坦福大学教授李飞飞牵头从 2007年开始收集建立。2009年发布时包含有320万张图像,是当时最大的2D图像数据集。经过发展,ImageNet 数据集已拥有22000类约1500万张标注图像。ImageNet来源于网络图像,借助众包平台(Mechanical Turk)完成。数据集的大量图像数据来自于日益增长 的网络平台,考虑到手动标注工作的大量人力需求,研究团队借助于Mechanical Turk(亚马逊开发的众包平 台)完成这项工作。

多个重量级算法诞生于ImageNet数据集

基于ImageNet的比赛ILSVRC每年举办一次,从2010年开始举行,2017年后的比赛由Kaggle社区主持。比赛逐渐 成为全球大型赛事,2016年有172个作品参赛。短短7年内,分类领域的错误率就从0.28降到了0.03。以扩散模型为基准,ILSVRC冠军算法中AlexNet(12年)、GoogleNet(14年)、ResNet(15年)、SENet(17 年)等算法均超过扩散模型的影响力(以年均被引用量表示算法影响力)。比赛的历年优胜者中,诞生了基于 ImageNet训练的AlexNet、VGG(2014年定位比赛冠军)、GoogleNet等经典的深度学习网络模型。冠军算法历年 的测试错误率在6年间从15%下降到2%,极大地推动了计算机视觉领域的发展。

LAION:破亿数据集出现,模型落地离不开亿级数据

LAION(拥有全球成员的非营利组织)在2021年公布的LAION-400M是当时最大的公开图文数据集,22年10月发 布的LAION-5B是上一版本的14倍。网络爬虫带来数亿级别公有数据集。LAION的收集使用加州非营利组织 Common Crawl收集到的代码来定位网络上的图片,并将它们与描述性文本关联起来,对人工的依赖性很小。上亿数据集成为图像训练模型成熟应用的必要条件。LAION的数据集已经被用于文生图的生成器,包括谷歌 Imagen和Stable Diffusion。同时,其他已落地图像生成应用的国内外公司均是在上亿级别的2D图像数据集进 行模型训练取得满意效果。

二、3D研究框架:已破千万级数据集,OpenUSD加速数据集扩张

3D发展研究框架

OpenUSD统一数据表现形式和文件格式,提供3D发展加速度。3D数据集数据记录形式多样,包含点云、体素等, 以往模型往往针对不同形式有不同的算法;同时,3D数据文件格式多样,跨文件转化不易,也提高了数据集收 集门槛,限制了3D数据集的发展。而OpenUSD的推进有望解决以上问题,进一步解决数据集规模问题。更大数据集和更好模型相互促进发展。基于更大3D数据集进行的训练能够得到更好的3D生成质量。生成结果经 过简单处理可以大大减少人工建模时间和步骤,从而进一步扩大3D数据集,至此3D生成领域良性循环发展。

3D模型表示方式多样,隐式表示越来越受重视

主要数据表示方式:隐式表示,其中INRs(隐式神经表示)被用于3D主流模型NeRF中,受到学界重视。3D数据 的世界没有一致性,目前已有的3D数据集表示方法包括点云、网络、体素、多视角图片等,不同的表示采用的训 练路径也大不相同。隐式表示解决了显式表示造成重叠、消耗内存等缺点,适用于大分辨率场景,INRs甚至可以生成照片级的虚拟 视角。NeRF模型首次利用隐式表示实现了照片级的视角合成效果,也将隐式表示推向新的高度。

通用格式解决模型互导问题,USD简化3D文件访问

3D文件格式多样,适用领域不同,模型互导问题通过通用文件格式解决。3D创建需要各种工具和平台的搭配利 用,其他应用程序无法编辑甚至读取,带来了模型互导的问题,导致3D文件格式众多,种类有数十种。多软件 之间对同一模型进行编辑操作时先将模型文件另存为通用格式,再导入到其它软件。USD作为一种通用软件,支持移动端等途径的便携访问和读写。许多传统3D模型为本地客户端设计,需要极高 的硬件配置才能正常浏览,存储占用较大且文件打开速度慢。而对于.usd/.usdz文件格式,用户可像浏览普通 照片或者文本一样在桌面端、Web端、移动端、AR/VR等终端正常浏览。

USD统一3D表示标准,OpenUSD联盟降低USD使用门槛

USD承担互联网3D时代的HTML角色。23年8月8日SIGGRAPH大会上,NVIDIA创始人黄仁勋表示:“正如 HTML点 燃了2D互联网的重大计算革命,OpenUSD也将开启协作式3D和工业数字化的时代。” AOUSD不断降低USD文件学习和使用门槛,推动USD成为3D标准。USD是由皮克斯公司(Pixar)开发的开源格式, 可以在不同的工具间进行内容创作和交换,但学习曲线陡。针对这一问题,致力于推动USD文件格式发展的 OpenUSD联盟(AOUSD,由皮克斯、Adobe、苹果、Autodesk和英伟达与Linux基金会下属组成)开展了一系列 有效举措,如NVIDIA Omniverse™ 平台,来降低用户的使用阻力。

首个千万级数据集出现,3D发展来到2D的“2020-2021年”

2023年7月11日发布的Objaverse-XL数据集包含1020万3D资产,对比于Objaverse1.0版本增加一个量级。bjaverse-XL通过对互联网上3D对象的类源进行爬虫获取,实例涵盖生活、虚拟多样化场景,最终获得了1020 万已渲染的高质量3D文件数据。类比于2D生成发展路径,3D生成出现了具有统治地位的NeRF模型和千万级数据集Objaverse-XL,3D发展来到 2D的“2020-2021年”。可以预见当未来数据集成长到亿级,3D生成也将迎来爆发。

数据集越大,新视角图片更优,3D生成效果更好

对已有算法PixelNeRF(NeRF的一种改进方法)和Zero123(一种文生图模型)进行训练,发现通过基于更多 数据进行训练,3D质量有显著的改进。PixelNeRF随着数据集量级变大,图像质量评估指标PSNR(Peak Signal-to-Noise Ratio,峰值信噪比,数值 越大表明失真越少)变大,表明新生成的视角图像质量越好,有利于提高后续三维重建质量;对使用 Objaverse-XL(1000万量级数据)、Objaverse(800万量级数据)训练得到的Zero123-XL和Zero123比较,发 现生成的3D资产侧面、背面的完成度有显著的提升。

3D资产建模流程长,免费实例不足

原有3D建模流程长,具有资产属性。3D资产在游戏、动画公司等均属于资产,目前大多数实例由Blender和 Maya3D等建模软件手工设计,人工建模涉及环节多,主要流程有:寻找实例-粗略布局-细节说明-纹理-渲染检查,且建模过程需要大量时间和专业知识。3D资产昂贵,免费实例不足。公开的免费实例较少,成为阻碍3D数据集扩展的主要原因。在号称世界上最大 的3D内容库平台Sketchfab上,3D模型每个价格从$3-$500不等。

3D生成质量变好,模型产物补充3D数据集内容

3D模型训练效果依赖于3D数据集,但目前的数据集量级无法激发出模型的涌现能力,对生成的AI+3D资产进 行人工进一步优化所需要的时间和人力成本依然巨大。目前数据集仍然是3D生成领域发展的重中之重。更大规模的数据集一旦能够出现,AI+3D模型的质量会随之变 好,因此,模型生成的3D资产在经过简单的加工之后即可补充到3D数据集中,良性循环由此开启。

三、文生3D的方向-扩散模型+NeRF

3D生成产业方向-文生3D是最终需求

报告节选:

(本文仅供参考,不代表我们的任何投资建议)

文琳编辑

免责声明:转载内容仅供读者参考,观点仅代表作者本人,不构成投资意见,也不代表本平台立场。若文章涉及版权问题,敬请原作者添加 wenlin-swl  微信联系删除。

为便于研究人员查找相关行业研究报告,特将2018年以来各期文章汇总。欢迎点击下面红色字体查阅!

文琳行业研究 2018年—2023年8月文章汇总


今日导读:点击下面链接可查阅

公众号 :文琳行业研究

  1. 2023年房地产行业竞争格局趋势研究报告

  2. 2023年全国新房市场报告

  3. 2023年青年置业报告

  4. 房地产行业城中村改造专题报告:城改大有可为,战略高度定位

  5. 2023年建材建筑行业专题报告

  6. 2023年中国房地产精装修暨家装生态白皮书

  7. 2023年家居行业消费传奇系列报告

  8. 2023住小帮家居家装洞察白皮书

    ▼长按2秒识别二维码关注我们

《文琳资讯》

提供每日最新财经资讯,判断经济形势,做有价值的传播者。欢迎关注

今日导读:点击下面链接可查阅

  1. 国务院常务会议:加快推进新型工业化

  2. 事关网暴,最高法、最高检、公安部正式发布!

  3. 做好“关门”准备!美政府面临停摆风险

  4. 战争意味着产业::战争,通胀,经济与中美俄欧的地缘博弈

  5. “你这瓜保熟吗?” 演员孙红雷提起诉讼,全国首例

  6. 回顾海航集团破产始末!

▼长按2秒识别二维码关注我们
公众号 :就业与创业
点击下方可看
  1. 许家印身家缩水90%;核酸大王张核子进军预制菜;存量首套住房贷款利率今起下调

  2. 董宇辉央视专访视频被喷上热搜后,任正非的一句大实话让人醍醐灌顶…

  3. 官方通报:多名主播被批捕!

  4. 已经是事业单位在编人员,还有考公务员的必要吗?

▼长按2秒识别二维码关注我们


继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存