Luma AI：基于NeRF，文字、图片、视频都可生成3D模型

Original 前沿科技新媒体青亭网 2023-05-10

hi188 | 编辑

上周，我们刚刚报道了3D内容方案商Luma AI完成2000万美元A轮融资消息，本周Luma AI继续宣布推出视频转3D场景API：Video-to-3D API。简单来说，现在Luma正式开放了NeRF能力，意味着正在进行商业化探索。

正如最近很火爆的GPT等生成式AI那样，NeRF在最近两年同样是一项关注度极高的方案，而以NeRF为核心的Luma AI发展同样迅速。

可能很多人还不熟悉Luma AI这家公司，它是一个专注于3D内容方案的平台，短短半年之内先后基于NeRF上线了文生3D模型、网页版全体积NeRF渲染器、视频到3D模型API等功能。

关于Luma AI

前面我们提到，Luma的核心就NeRF，简单来讲这是一套三维重建技术方案，它的特点是基于现有视角的图像生成新视角的图像。

有了NeRF，可以说你手里的相机不单单只是拍照这么简单，而是变成数据采集装置，通过拍摄大量图片或视频，即可创建出一个可微分的三维场景。比起传统的摄影测量方案，NeRF的优势是可以用更少量的数据生成三维模型。

据青亭网了解，Luma公司成立于2021年9月，总部位于美国加州，创始人：Amit Jain、Alex Yu，分别在3D视觉、机器学习、实时图形学有所建树。

近半年发展历程：

22年10月，开放网页版Luma；
22年11月，iOS版App开始测试；
22年12月，推出文生3D模型功能；
23年1月，iOS版App开始支持NeRF Reshoot；
23年1月，升级NeRF，自动去除杂影；
23年2月，推出网页版全体积NeRF渲染器；
23年3年，iOS版App 支持AR预览；
23年3月，推出视频转3D API。

那么，接下来我们分开来解析一下Luma的产品组合。

Luma App

实际上，上述很多功能都是组合形式出现，例如手机App，当前Luma只推出了iOS客户端。可以通过iPhone上传视频，基于NeRF生成3D场景。手机版App的推出可以说是一个大的突破，因为之前市面上并没有类似的NeRF产品出现。

很快，经过网友们的测试发现Luma NeRF的效果非常出色，色彩、光影、清晰度等方面都良好。据悉，Luma对NeRF进行了改良和优化，才有这么好的表现。

视频效果‍

导出3D模型效果

iOS端支持导入视频，以及引导模式和自由模式三种：

导入模式，这个很好理解，和Web模式功能类似，对设备和视频理论上要求最低。
引导模式，需要360度拍摄，App将具体提示框提醒你的拍摄视角、拍摄位置；
自由模式，支持非360度（部分视角）拍摄，App不会给出明确提示框，当然也需要尽可能拍摄多个角度。

引导模式、和自由模式需iPhone 11或更新机型，而查看3D模型要求是iPhone X或更新机型。

根据@未来GIS实验室的测试，小物体渲染后细节表现不错，室内场景可还原墙面和地板的反光，室外场景的效果同样非常逼真，整体的效果可以说是非常不错。

NeRF Reshoot也是一个有意思的功能，通过生成的3D场景你可以“重新拍照”，比如你可以从其它角度查看图片并重新拍照；重新定制虚拟相机路线，生成一段新的视频；修改图片/视频比例；调整帧率等等，也可以在AR模式下结合6DoF模式还原当时拍摄场景，算是一项进阶玩法。

另外，Luma App还加入AR预览模式，这个没啥难度，应该就是基于ARKit的体验拓展。

网页和API类

网页版本目前集成了主流功能，包括：网页版Luma、文字转3D模型、视频转3D API。

1，网页版Luma

网页版Luma就是自行上传照片、视频来进行三维重建，网页版可以上传更大的文件，目前视频和图片（ZIP压缩包）体积最大限制5GB，通常来讲照片的生成质量比视频要好一些，前提是照片是进行特定拍摄，无明显模糊。

另外，Luma官网还会列出一些精选的3D场景，大家可以用于参考。当然，在App里可以查看或编辑其他人的精选3D场景。

2，文字转3D模型

文字转3D模型功能目前依然未全量开放，就像是Midjourney一样，只需输入文字描述，即可生成对应的3D模型。

文字生成3D模型效果图

上图是文字生成3D模型的示例，官网上也有更多示例，并不是每一个质量都很好。当然，目前也处于测试阶段，效果也跟你的Prompt有很大关系，感兴趣可以先加入等待列表。

3，视频转3D API

效果方面，视频转3D的效果几乎和网页版一致。价格方面，转换一个视频费用1美元，就是单纯的按照次数收费，不管视频容量大小，所以当然是尽量丰富视频的细节，转换时间在30分钟左右。

Luma表示，这一方案将为：电子商务、游戏美术、影视特效等领域发展重要价值，因为此前创建3D模型的价格在60-1500美元，时间需要2-10周（Luma提供数据）。

拍摄技巧

以下是Luma提供的用于转换3D场景的拍摄技巧：

捕获过程

捕获速度：运动模糊会显著降低重建质量。为了达到最佳效果，慢慢移动手机，尽量避免快速移动，尤其是旋转。
场景覆盖：为了获得最佳效果，应该从尽可能多的独特视角捕捉物体或场景。此外，在拍摄时最好移动手机(在3D空间中)，而不是从静止位置旋转它。站在同一个地方，在一个球体中向外捕捉通常不太好。引导捕获模式是一个很好的选择，以确保足够的覆盖。
对象大小：对于引导捕获，任何可以从所有角度(包括顶部和底部)轻松查看的对象都是一个很好的候选对象。对于自由形式的捕捉来说，任何东西都是公平的，尽管更好的覆盖范围会产生更好的结果，所以较大的物体可能难以获得完全干净的结果。
物体距离：为了获得最佳效果，在扫描时尽量保持整个物体在帧中。这样做将为应用程序提供更多关于反射和物体形状的信息，从而实现更准确的重建。
物体材质：目前，该应用程序挣扎于复杂的反射(例如，曲面镜面)，弯曲的透明物体(例如，车窗或塑料水瓶)，以及非常大的无纹理表面(例如白墙)。大多数其他材料都很好。
捕捉环境光照水平：该应用程序可以在大多数光照条件下捕捉物体，只要纹理仍然可以识别(即，没有被洗掉或完全黑暗)。照明条件将被烘焙，所以场景应该点亮，但你希望它出现在最终的结果。
移动的物体：在捕捉过程中，场景中的任何运动都可能降低最终结果的质量。例如，在风中移动的树叶可能会导致细节的丢失，而在背景中移动的人可能会引入伪影。拍摄时请注意不要将手指/手臂/腿伸入画面。

相机设置

视频设置注意事项：如上传视频，需关闭视频稳定选项，尤其安卓手机；iOS需禁止使用“HDR视频”选项。
曝光：建议使用固定曝光，尽管动态曝光对室外场景有益。

捕获格式

基于图片生成：可在Luma网页上传图片压缩包。通常照片比视频质量更高，但需特定拍摄，无模糊，并包含EXIF元数据。
提醒：可上传原始格式图像(如CR3和DNG等)和HDR图像(.exr)，以实现更高的动态范围，以提高质量。如果使用原始文件，元数据将用于sRGB渲染(而底层NeRF将是HDR)。使用EXR，渲染的颜色将在当前颜色空间中，因为没有colorspace元数据。
不建议上传大于4K分辨率的图片，当前版本对高分辨率图像效率更低；
鱼眼相机和360相机：360度视频可以更有效实现大面积，但很多360相机实际上是双鱼眼相机，进行拼接形成，拼接可能会导致失真。但可以手动在网页版上传，注意选择对应的模式。注：单鱼眼模式Insta360 .insv文件可以直接重命名为mp4上传；多鱼眼模式可将Insta360 .insv文件放在一个zip上传。

参考：

https://captures.lumalabs.ai/imagine

https://twitter.com/LumaLabsAI

https://zhuanlan.zhihu.com/p/608239141

https://apps.apple.com/in/app/luma-ai/id1615849914

（ END）

高三女生醉酒后被强奸致死？检方回应

高三女生醉酒后被强奸致死？检方回应

波罗的海，电缆断裂！

川普的成长秘辛：家庭和大学如何塑造一位“坚刚不可夺其志”的总统

萝莉岛事件背后所隐藏的真相，可能比我们想象的更恐怖

Luma AI：基于NeRF，文字、图片、视频都可生成3D模型

关于Luma AI

Luma App

网页和API类

捕获过程

相机设置

捕获格式

您可能也对以下帖子感兴趣

高三女生醉酒后被强奸致死？检方回应

高三女生醉酒后被强奸致死？检方回应

波罗的海，电缆断裂！

川普的成长秘辛：家庭和大学如何塑造一位“坚刚不可夺其志”的总统

萝莉岛事件背后所隐藏的真相，可能比我们想象的更恐怖

生成图片，分享到微信朋友圈

Luma AI：基于NeRF，文字、图片、视频都可生成3D模型

关于Luma AI

Luma App

网页和API类

捕获过程

相机设置

捕获格式

您可能也对以下帖子感兴趣