Z Potentials | 独家专访 Luma 创始团队 ,构建多模态人工智能扩展人类想象力,获 a16z 领投的 B 轮融资
在每个技术革新的浪潮中,我们都见证了内容形态的重大转变。从胶片技术催生的好莱坞黄金时代到数字家庭录像机引领的 YouTube 兴起,再到移动互联网和算法推动的 TikTok 时代,技术的进步总是与内容消费的扩张同步。如今,随着 AI 技术的迅猛发展,我们站在了另一个历史性的节点上,探索着新的内容形态——3D 内容的边界。在这场技术变迁的过程中,NeRF(神经辐射场)和 3D 生成作为最新的技术进展,正在重塑我们对三维内容的理解和创造方式,共同开启了内容创作的新纪元。
Luma AI 作为硅谷 TOP 的 AI 创业公司,也是目前 3D 领域最有竞争力的创业公司之一,刚刚获得了 a16z 领投的 4300 万美元 B 轮融资。本期访谈我们有幸邀请到了 Luma AI 创始团队成员,包括联创 & CEO Amit Jain,联创 & CTO 余思贤、增长负责人戴高乐以及首席科学家宋佳铭。在这场深入的对话中,我们一同探讨了 NeRF 和 3D 生成技术的发展、对内容创作行业的影响、如何打造下一代内容平台等问题。让我们一起深入了解他们的故事!Enjoy!
01 重视技术研究和产品开发结合的核心团队
Amit Jain:我叫 Amit Jain,目前是 Luma AI 的首席执行官,我的本科专业是物理学和数学,本科毕业后,我去硅谷的早期创业公司工作,公司被收购后,我来到了苹果公司,并后来参与了 Vision Pro(苹果XR设备)的开发,在 3D计算机视觉、相机硬件、机器学习、系统工程和深度技术产品方面积累了丰富的经验。和 Alex 于 2021 年共同创立了Luma AI。
Amit Jain:My name is Amit Jain and I am currently the CEO of Luma AI.The undergraduate majors were physics and mathematics. After graduating from undergraduate studies, I went to work in early-stage startups in Silicon Valley. After the company was acquired, I came to Apple and later participated in the development of Vision Pro (Apple XR device), where I gained extensive experience in 3D computer vision, camera hardware, machine learning, systems engineering, and deep technology products. Amit co-founded Luma AI with Alex in 2021.
余思贤:我叫余思贤 Alex,现在是 Luma AI 的创始人兼 CTO,来自于浙江杭州,从小来到温哥华生活,从9岁开始热爱编程,高中的时候就参加过一个创业竞赛,拿到了温哥华第一名。大学就读于加州大学伯克利分校,跟随一位来自日本的 Angjoo Kanazawa 教授做早期 NeRF 神经渲染研究,同时也在 Google 和 Adobe 实习过,2021年毕业之后,拒绝了斯坦福大学、麻省理工学院等博士Offer,决定开始创业。
我之所以开始创业,是因为遇到了现在 Luma AI 的创始人兼 CEO Amit Jain,Amit 曾在苹果参与 Vision Pro 的研发,并在 LiDAR 和 3D 重建领域工作了多年,到了 2021 年,注意到 NeRF 技术取得了显著进步,解决了长期困扰他的问题,他认识到如果是在大公司中推动创新方向,自己的想法可能难以得到实现,当 Amit 看到了我的研究论文,并通过共同认识的人介绍与我见面,我们当时就产生了共鸣。我本人一直渴望做出有影响力的科技创新,并对创业抱有浓厚兴趣,因此我们迅速达成共识,决定一同创业。
戴高乐:我叫戴高乐 Barkley,现在是 Luma AI 的增长负责人,负责推动用户增长并设想产品的未来方向。我在耶鲁大学完成了本科学习,专业是统计和数据科学,本科毕业后,我加入了 TikTok 担任产品经理,在2021年底,我和团队关注到了早期的文生图趋势,并在 TikTok 推出了第一个 AI 特效,当时还没有 Stable Diffusion ,一经推出便广受欢迎,促使 TikTok 北美开启了 AIGC 项目,我也参与了许多 AIGC 特效的开发,包括头像生成、风格转换等在 TikTok 上颇受欢迎的 AI 特效。
去年 7月,我加入了 Luma AI 团队,我认为 Luma AI 是探索全新方向的好机会。当前,许多图片和视频内容最终都发布在 TikTok、Instagram 等成熟平台上,如果 AI 确实是未来更大的应用场景,内容媒介肯定会发生相应变化,我认为 3D 是一个非常有趣的媒介,尽管目前还没有哪个产品能够很好地展现它,但 3D 提供了更沉浸式的体验,Luma AI 在 3D 重建和生成方面的进展让我非常激动,因此我选择加入这个团队。
宋佳铭:我是宋佳铭,现在是 Luma AI 的首席科学家,我在清华大学计算机专业完成了本科学习,在大二时开始进行机器学习的研究工作,主要聚焦于理论方面,后来,我有幸前往斯坦福大学深造,并师从 Stefano Ermon 教授,继续在生成模型的相关领域进行研究,在 Diffusion 模型的论文刚刚问世时,我因为对这个领域有深入的研究,迅速意识到其优势和应用潜力,尽管它存在生成速度较慢的问题,因此,我着力于解决这个问题并提出了 DDIM (denoising diffusion implicit models) 算法,显著提升了扩散模型的生成速度,从原来的大约 1000 次迭代降低到 20-50 次,后来我的算法在诸如 Stable Diffusion 和 DALL·E 2 中都得到了应用。
毕业后,拿到了清华大学姚班的教职 Offer,但还是选择在学校进行了一年的博士后研究,后来加入了Nvidia,从事相关研究和大模型训练工作,并发表了一些研究文章。
去年7月,我加入了 Luma AI 团队,这得益于我博士期间的一位合作者,他在 Luma AI 工作并强烈推荐我加入,Luma 的研究新方向和团队的多元化背景对我来说极具吸引力,团队成员间技能点的互补和共同学习是我十分看重的。在此之前,我的经历主要集中在学术研究和发表论文上,曾在 Meta 和 OpenAI 进行实习,虽然我与创业相关的经历不多,但我曾参加过一个以脑机接口设备为主题的 Hackathon,那是一段有趣的经历。
戴高乐:应该说我们是一个非常重视研究和产品开发结合的团队。虽然作为一个研究密集型的团队,我们在早期取得了许多原创成果,例如,我们探索了将 NeRF 技术应用于C端产品,赋予产品三维重建的能力。但与其他公司不同的是,我们不仅仅将目标定在开发一个工具,而是致力于打造一个完整的C端用户体验。当研究团队完成基础的工作后,我们的下一步是深入思考如何将这些技术转化为优秀的产品。总的来说,我们的团队很综合,偏重研究和产品,人才方面也是偏重研究、偏重底层模型开发并且能把模型应用到实际的消费场景中。
ZP:2021 年我们为什么选择创业做 3D 方向,当时看到了什么样的机会?
余思贤:首先确实是传统 3D 内容比较短缺,需要专业人士花很多时间去制作,在 2021 年,我们 CEO Amit 看到了 NeRF 的快速发展,意识到对 3D 领域有革命性的改变,于是做创业做了这个方向,我们最初主要专注于 NeRF 重建技术,但现在我们的主要目标是发展 3D 和 4D 大模型,和之前有所不同。最开始的时候,大多数人对此一无所知或持怀疑态度。然而,随着最近 AI 领域的飞速发展,尤其是去年,这个领域变得非常活跃,也发生了很多变化。
余思贤:NeRF 技术的原始论文发布于 2020 年,“NeRF:Representing Scenes as Neural Radiance Fields for View Synthesis”,一开始这项技术的处理速度很慢,需要一整天甚至几天时间进行训练。在 Luma AI 成立之初,也正赶上许多能够高速处理的 NeRF 技术成果问世,其中最重要的是 NGP(Neural Graphics Primitives)。在 Luma AI,我们对 NeRF 也进行了大量工作,主要是为了改进其渲染速度和质量,并且适应更大规模的场景。
近期非常受关注的 Gaussian Splatting 技术,在某些方面与 NeRF 相似,它的主要优势在于可以实现快速渲染并容易在所有设备上使用。我们在 Luma AI 中同时使用 NeRF 和 Gaussian Splatting 技术,因为它们各有所长,虽然许多研究正在探索 Gaussian Splatting 技术,预计它可能最终会取代 NeRF,但在目前,Gaussian Splatting 在某些场景下还存在不足,例如在移动过程中可能出现突然的跳动,导致渲染的视频不连贯等。
宋佳铭:在我们的手机端应用程序中,当用户重建一个物体时,系统会同时生成 NeRF 和 Gaussian Splatting 两种格式的数据。然而,如果用户需要将重建的物体导出为 Mesh 或任何其他类型的 3D 格式,实际上更多会采用 NeRF 格式,因为它在转换和兼容性方面更为成熟。但在应用内实时展示时,我们倾向于使用 Gaussian Splatting,因为它提供了更快的处理速度和更佳的实时展示效果。因此,在我们的应用中,NeRF 和 Gaussian Splatting 这两种技术实际上是并行存在的,以满足不同的使用需求和场景。
余思贤:可以,但是不如 NeRF 转 Mesh 成熟,因为 NeRF 每个点都有一个特定的密度值,而在 Gaussian Splatting 中,并没有为每个点分配密度,它是在渲染时通过排序来实现效果的,因此每个点并没有固定的值。如果我们尝试使用 Gaussian Splatting 直接重建一个 Mesh,结果通常是表面非常不平整,质量看上去较差。但目前已经有人在探索这个工作了。
余思贤:我们团队很早就意识到仅仅依靠 NeRF 技术进行重建可能不够完善,因为总会有些部分看不见或难以捕捉,需要拍摄大量的数据才能进行比较完整地重建。因此在2021年底,我们就推出了 Imagine 3D,类似于 Google 的 DreamFusion,这是一款文生 3D 的产品。实际上,我们很早就开始研究和开发生成方向的技术,最近我们开发的 Genie 产品,就能够快速生成 3D。
当前,3D 生成技术仍然处于非常早期的阶段,今年预计还会有许多革命性的进展。事实上,去年的主流方法仍然是依赖于 2D 模型优化成 3D,而今年才开始有真正实用的 3D 模型出现。尽管如此,这些技术仍有一定的局限性,目前大多还仅限于单个物体的重建,并且质量上存在一些问题,还不能直接应用于游戏等领域。
余思贤:目前还没有收敛,仍存在许多不确定性,关于大型场景生成和动态内容生成等问题仍然没有得到有效解决,在物体建模方面,材质、UV映射等关键技术问题也尚未完全解决。
宋佳铭:Shap-E 和 DreamFusion 各有优缺点,Shap-E 在生成速度上表现不错,能在不到一分钟内完成生成,但问题是其生成素材的分辨率较低,效果偏模糊,这可能与所使用的数据集质量有关,也和模型有关;而 DreamFusion 的主要问题在于生成速度过慢,可能用户没有足够的耐心等待几分钟甚至几小时来生成一个素材。我们在开发 Genie 的时候也发现了一个关键痛点,用户通常不愿意等待过长时间,如果生成速度不够快,用户留存度和吸引力可能会大大降低,我们注意到,那些发布在 Discord 社区的同类产品用户量会少一些,也是受到这个因素的影响。
因此,我们的重点之一就是尽量缩短用户等待时间,让他们在提交下一项 Prompt 时就能看到上一项的生成结果,即便是30秒的等待时间,也可能超出用户的耐心范围,因此我们目标是将这个时间缩短到大约10秒左右,这意味着我们需要在技术路线上作出一些权衡。从速度的角度看,我们认为追求 3D 原生技术相较于 2D 优化可能是一个更有前景的方向,最终我们的努力得到了用户的认可,吸引了大量用户使用我们的产品。未来,我们希望看到更好的解决方案的出现,或者通过更多的计算资源来进一步改善现状,我们预计未来一年内会有诸多新的发展和进步。
ZP:现在 3D 生成有哪些关键点需要突破?
余思贤:数据是很大的问题,质和量都是重大挑战。目前,许多人依赖的是 Objaverse 之类的开源数据集,这些数据质量参差不齐,缺乏真实性,且数量有限。我们有 Luma AI 的 APP,收集了大量真实的 3D 数据。
ZP:怎么看待文生 3D、图生 3D、视频生 3D 这几种不同的方式?怎么评估优先级和未来发展趋势?
宋佳铭:视频到 3D 的转换和三维重建技术是更加接近的,在 Luma AI 的 APP 中,用户可以上传一个视频并将其转换成三维模型,这种方法的优点是生成的 3D 模型更加接近于现实世界,但缺点在于可能需要更多的视频数据,且生成的质量与原始视频的质量密切相关,如果视频本身模糊或随意拍摄,生成的效果可能不尽如人意。
目前,我们主要专注于文生 3D 技术。相较于图生 3D,文生 3D 仅需要文字描述就能生成 3D 内容,这对用户来说在交互过程中更为简便。此外,我们还考虑了在社区平台如 Discord 上,用户上传图片可能导致一系列社区管理问题,但我个人认为,视频生 3D、文生 3D 以及和其他模态的结合都是值得探索和推进的方向,可以借鉴 2D 领域的路线,将文本、图像或其他模态结合作为输入,为专业用户提供更可控的生成平台。而对于普通用户,文生 3D 已经能满足他们的需要,提供足够的娱乐和探索价值。预计未来这些技术都将蓬勃发展,但目前还有许多关键技术问题待解决,技术路线尚未收敛,各方面的研究都具有较高的优先级。
余思贤:目前,NeRF 和 3D 生成这两条技术路线正迅速靠拢,许多 NeRF 的研究者已经开始探索 3D 生成,比如使用几张图生成 3D 内容,利用这些生成模型来改进重建过程被视为一个关键的研究方向。如果能发展出一个能够处理任何重建需求的模型,那么使用几张图进行三维重建将与 NeRF 的目标大体相符。
宋佳铭:如果关于三维物体或场景的信息越丰富,技术路径将更倾向于 NeRF 或三维重建;而信息越少时,则可能更侧重于生成方法。从文和图的角度来讲,对于三维物体的信息相对较少,可能更偏向生成。相反,当有多张图像或视频时,信息量增加,便可能倾向于三维重建。正如 Alex 所提到的,这两个方向实际上是在逐步融合中。
对于 NeRF 或三维重建而言,一个主要挑战是期望用户能够用尽可能少的输入——比如少量视频或图片——来获得所需的结果,比如对于被遮挡的部分,如果想要查看其后面的结构,可能就需要依赖于生成技术的帮助。另一方面,为了实现更优质的文生 3D 或图生 3D,我们需要更高质量的三维数据,这意味着需要用户提供更多的多视角数据,我们希望通过三维重建和 3D 生成这两条技术路线的互补,形成一个正向的飞轮效应,通过三维重建,我们可以积累更多数据来改进生成技术,随着生成技术的提升,又能进一步推动三维重建的发展,吸引更多用户提供三维数据,这样的循环不断促进两个方向的发展和完善。
宋佳铭:一方面,首先是三维重建和生成技术如何帮助现有行业降本增效,例如在电影行业,特效制作经常需要大量三维素材,我曾与《流浪地球》团队的三维专家讨论过这个问题,他们表示对三维重建、3D 生成非常感兴趣。当前制作每个三维素材都需人工设计,而这些素材在电影中可能只占很小的像素,如果有更有效的生成方案,对于降低特效制作成本将大有裨益,游戏行业同样存在类似需求。
另一方面,更令人期待的是,三维重建和生成技术能够带来哪些新的应用。我们希望这些技术不仅仅用于生成素材,而是能够激发和解锁更多人的内容创造潜力,开发新的应用。三维内容媒介的关键在于其交互性——在三维场景中,用户可以通过手机或触摸控制影像场景,这种交互性是游戏市场超越电影市场的一个重要原因。就像移动互联网和智能手机让更多人能够拍照,催生了 Instagram、Snapchat 等现象级应用一样,如果三维甚至四维技术变得更加成熟,我们希望能够借此让用户开发出前所未有的应用。
戴高乐:我们目前主要聚焦于两条产品线,一条是三维重建,是基于 NeRF 和 Gaussian Splatting 等底层技术的应用,这一部分主要服务于例如好莱坞的小型工作室等专业群体,半年前,One Direction 的主唱通过一个纽约的小型工作室使用我们的产品为其新歌进行MV拍摄,利用我们的技术重建了骑摩托车和与女主角相处的场景,创造出一个时间胶囊概念,并将其融入音乐视频中,效果非常惊艳,因为三维重建的产品已经发布了一段时间,并且一直在进行迭代优化,我们持续看到各种新的使用场景和需求,所以在三维重建这一领域,我们的产品不断演进,以满足从音乐视频到专业电影制作等各式各样的创新应用。
我们的另一条产品线是 3D 生成,这是我们去年 10 月份推出的新产品,我们观察到用户主要是使用它来创建模型,并将这些模型应用于自制小游戏或 AR 场景中。通过 AR 技术,这些场景可以让模型动起来或者制作成简单的动画。当然,这些应用还处于相对早期阶段。
目前,三维重建功能已经集成在了我们的主 APP 中,而 3D 生成目前还只能在 Discord 上使用,但我们计划很快会将 3D 生成也集成到主 APP 中,提供更为直接和便利的用户体验。虽然现在我们提供了一些简单的 API,但这并不是我们的重点产品方向。
戴高乐:在短期内,3D重建和3D生成产品线的应用场景和用户群体确实存在一些差异。三维重建主要侧重于现实场景的复现,因此其用户群体通常是需要拍摄现实场景的个体或机构,如博主、好莱坞工作室等,他们使用这项技术来捕捉并重现真实世界的细节和动态。相对而言,3D 生成更多倾向于创造虚拟场景和物体,这方面的应用潜力更多地体现在虚拟现实、增强现实或游戏等领域,或者是创造类似体验的内容,而这些内容不一定是完整的游戏。虚拟场景的生成为用户提供了一个更为宽阔的想象和创造空间。
正如 Alex 和佳铭所提到的,虽然目前两者在应用上有所区分,我们认为未来两者将更加紧密地结合起来,创造出新的应用和体验,只是实现这一融合可能还需要一段时间。
戴高乐:目前,我们服务的用户群体既包括专业人士,也包括小白用户,但我们更倾向于小白用户。特别是在3D重建领域,我们采用了 Gaussian Splatting 技术进行快速重建,目的就是让普通用户也能简单易用。尽管目前还存在一定门槛,比如用户需要绕着物体转动以捕捉完整的三维信息,这并不像拍摄短视频那样直观。我们的愿景是使普通用户也能在出游等日常活动中轻松使用我们的三维重建技术。而在 3D 生成方面,用户体验已经非常简化和友好,用户仅需输入文本或上传图片,就能快速生成 3D 内容,这与大家早期体验 Midjourney 时的方式类似,几乎没有门槛,适合所有用户尝试和使用。
戴高乐:去年第一个关键节点是实现了自定义路径和高级编辑功能,这显著提升了产品的灵活性和用户体验。去年9月,Gaussian Splatting 技术的出现带来了实时渲染的突破,这一进展极大地加快了渲染速度,改善了实时交互。去年10月,Genie 产品推出,在整个行业中还是比较新颖的,我们也在持续进行技术迭代。
我们正在探索的一个重要方向是产品的融合,特别是将生成技术应用于重建过程中,这种融合可以显著降低用户使用门槛,例如,当前要完整地捕捉一个物体,用户需要绕物体转一圈,但如果我们可以通过生成技术来补全物体的缺失部分,用户只需拍摄一两张图片或扫描物体的一部分,这样用户捕捉物体所需的时间从一两分钟降低到了仅需十秒钟。总体来说,无论是提升用户体验还是降低门槛,我们的发展都依赖于模型和算法的不断进步和创新。
戴高乐:目前我们正处于技术的早期阶段,还是主要专注于底层模型的研究。不同于其他许多公司,我们选择避免过早商业化,而是专注于打造一个更大的娱乐生态或娱乐平台。我们设想的终极目标并非通过直接销售技术或素材来实现盈利,而是希望建立一个类似 TikTok 或 Musical.ly 这样的平台,我们期望它成为一个全新的内容增长点,从而培育出一个独特的 3D 生态系统。
我们意识到,尽管当前市场上许多公司通过为游戏公司提供素材来盈利,但这一市场的规模有限,且游戏公司对这种服务的支付意愿受到技术成熟度的制约。此外,如果只将我们的技术视作一种工具,比如类似剪映,那么随着市场的深度整合,留给小型创业公司的机会将变得微乎其微。我们相信未来的机会在于构建一个广泛的生态平台,这意味着我们需要在技术和产品方面取得突破,逐渐从一个工具属性向一个平台属性转变,正如国内早期快手的发展历程,这中间需要技术和产品的进一步突破,这是我们最终的愿景。
戴高乐:关键在于能否形成创作-消费-再创作的闭环,如果我们仅仅将自己定位为一个创作工具,用户会在我们平台上创作内容,然后再将其发布到其他平台,如 TikTok 和 Instagram。关键在于可以让用户实现在单一平台内完成从创作到消费的整个流程。
理想情况下,用户不仅在这个平台上浏览和体验内容,而且还能以极低的成本进行再创作,就像早期的 Musical.ly 那样。这种模式允许用户快速地改编或再创作内容,生成全新的作品,并推动其在平台上的传播。这一生态循环,从创作到消费再到再创作,如果能在一个平台内自然发生,就能使该平台超越单纯的工具属性,成为一个真正的内容平台。这是打造持久生态和社区的关键,也是我们将重点发展的方向。
而现在,很多用户使用产品生成的结果会发布到 TikTok 和 Instagram 上面,这是目前用户增长的手段,但长期肯定希望用户能够在 Luma AI 的平台上完成体验,因为 3D 的特点是可交互,但是现在 TikTok 和 Instagram 都是纯内容消费的平台,希望 Luma AI 上有更多可交互的体验,比如类似于半玩游戏半看视频,用户就可以最终留在平台上消费内容。
戴高乐:当前我们的产品形态还没有完全成熟,正如 Musical.ly 早期也是尝试了非常多不同的方向,最后找到了对口型的玩法火遍美国。如果我们将整个娱乐内容范畴设定为一个坐标系,一端是视频内容——具有高消费价值和低创作门槛,但缺乏交互性,另一端则是游戏——特点是交互性强但创作门槛高,我们的目标是探索这两种形态之间多种排列组合下的内容形态,寻找能够受到消费者喜爱的新型体验。
可能的方向包括休闲小游戏或互动视频等,甚至是目前还未被发掘的全新内容形态。为了达到这一目标,我们正与行业内的创作者合作,探索和实验各种创新的内容形态,我们的愿望是通过不断地尝试和创新,找到一个能够平衡消费价值和创作门槛、同时提供足够交互性的独特内容形态,为用户带来前所未有的体验。
戴高乐:尽管市场上的公司众多,但 3D 仍然是一个新兴的领域,可以和游戏、视频、AR、VR等多种方向结合,目前整个 3D 的生态还没有建立起来,所以也还不是存量市场的竞争状态,而是正处于一个大家共同探索的阶段,把盘子共同做大,所以我们也非常欢迎与不同厂商合作,共同推动 3D 内容的发展。目前短视频这个主流的内容形态,从自 Musical.ly 开始也有7、8年的时间,我们认为新的内容形态的出现还处于早期阶段,这需要多方团队在不同方面进行创新尝试,以帮助全球用户更好地接受和认识到 3D 内容的价值。
余思贤:竞争的核心在于模型的优化和适用性,关键是先确定你想服务的特定场景,并专注于为该场景优化模型,模型的优化涉及到准确性、效率、生成质量等方面,谁能够先开发出更适应场景需求、性能更优的模型,谁就能在竞争中取得优势。
宋佳铭:我觉得很重要的一个点是,如何将技术边界和用户需求结合起来。许多科研团队虽然发表了高质量的文章,但可能没有直接解决用户的痛点,导致理论上优秀的技术并不一定满足客户的实际需求。因此,我们的技术和产品团队需要关注并解决这些痛点问题,从而吸引更多用户。在 Genie 项目中也有所体现,当时 DIscord 上有很多类似的项目,但我们通过专注于生成速度的提升,成功吸引了大量用户。所以后续我们也希望研究团队和产品团队能够增强交流与合作,共同发掘并聚焦于解决用户的核心痛点,通过这种方式,我们可以更快速地将产品推向市场。
戴高乐:技术上我们不断迭代并致力于吸引全球的顶尖人才,技术领域的快速发展要求我们的团队保持对最新研究成果的敏锐关注,并对其进行严格地验证和筛选,以确保只有真正具有突破性和实用性的技术被整合进我们的模型和产品中。这一过程不仅需要我们投入大量的时间和资源,更需要聚集全球优秀的 AI 人才。
同时,我们也专注于产品的不断优化和用户体验的提升,从早期吸引 3D 技术爱好者到逐步降低使用门槛吸引更广泛的用户群体,继续保持用户增长。
余思贤:To C 软件的护城河就是产品,一个高品质的产品可以确保用户的持续使用和忠诚度,在 AI 领域也需要关注数据和模型这两个关键要素。
戴高乐:目前我们全球整体的用户注册量已经达到两百万余,也逐渐由最开始的专业摄影 Studio 向 Instagram 和 TikTok 的达人甚至是普通创作者泛化。因为也是为数不多的目前完全免费的 AI 产品,因此在一些国家的用户增速一度达到 30%-40%,这些用户也用 Luma 来捕捉各种生活中的人、物体和事件片段。
Amit Jain:Luma AI 的愿景是构建多模态人工智能,以扩展人类的想象力。我们相信多模态对于智能至关重要,为了超越语言模型,构建更具意识、能力和实用性的系统,下一个重大变革将来自视觉。因此,我们正致力于训练和扩展多模态基础模型的规模,这些模型能够观察和理解、展示和解释,并最终与我们的世界互动。我们将部署这些系统,创造一种新型的智能创意伙伴,它能与我们一起想象,远离创造性的压力。这是为了那些想象力受到束缚的人,为了那些曾试图通过支离破碎的语言传达生动梦想的人,希望他人能看到我们内心所见。这是一个能帮助我们展现——而不仅仅是讲述的伙伴。
Amit Jain:Luma’s mission is to build multimodal AI to expand human imagination and capabilities. We believe that multimodality is critical for intelligence. To go beyond language models and build more aware, capable and useful systems, the next step function change will come from vision. So, we are working on training and scaling up multimodal foundation models for systems that can see and understand, show and explain, and eventually interact with our world to effect change. We will deploy these systems to make a new kind of intelligent creative partner that can imagine with us. Free and away from the pressure of being creative. It’s for all of us whose imaginations have been constrained, who’ve had to channel vivid dreams through broken words, hoping others will see what we see in our mind’s eye. A partner that can help us show — not just tell.
戴高乐:我们经常喜欢说的一句话是“Make 3D Available for Everyone”,就是用 AI 的技术来赋能 3D 内容,然后让每个人都能够体验和消费这些 3D 内容,所以我们如果说未来预期的话,至少希望能做到一个 3D 版本的 Musical.ly。因为我之前在 TikTok,对这个发展路径会比较熟悉,当然 Musical.ly 做到 TikTok 后面可能有字节的流量扶持和一些成熟的运营方法,但是 Musical.ly 早期的时候,也是一群比较年轻有想法的人,然后去试、去创造一种新的内容形式,所以我们觉得至少先有这样的一个小目标,把内容平台做起来。
ZP:我们对 3D 内容的爆发的时间点有什么预期吗?
戴高乐:目前来看还难有定论,就像在 2010 年左右问短视频何时能爆发一样,是需要有早年快手喊麦或 Musical.ly 对口型那样具有标志性的内容形态或玩法的出现,才能够引领整个行业向前发展,但是到目前为止,3D 领域还没有出现这样具有决定性影响的内容形态和玩法。
ZP:是否可以谈谈 Luma AI 是如何做GTM的?
余思贤:2021年的时候没有做什么营销,主要是因为我们是最早做了基于 NeRF 的产品,主要靠用户自发传播。
戴高乐:当时我们推出的产品是首批在手机端应用中使用 NeRF 技术的团队之一,之前的产品都是基于 Photogrammetry,但是这个技术路线必须依赖 Lidar sensors,就严格限制了只有 iPhone 的高端机型可以使用,也就限制了用户群体。而我们的 App 则突破了这一限制,理论上任何手机都能使用。尽管我们只有 iOS 应用,但通过网页端上传功能,安卓或其他设备的用户也能上传内容进行三维重建,这在当时业内是独一无二的,为我们赢得了显著的先发优势。后来也有用户使用无人机拍摄内容后上传到我们的 APP 中进行三维重建,直到去年7、8月份,我们几乎没有做刻意的推广,主要依靠用户的口碑和他们在平台上发布的内容来吸引新用户。
ZP:接下来在 Marketing 上会有哪些策略?
戴高乐:我们一直坚信最核心的增长还是产品驱动的增长,最终还是要做好产品体验。事实是我们早期的增长主要源于用户自传播,尤其是我们旨在打造C端消费级内容平台,用户传播就更加重要。
在此基础上,我们开始做一些达人营销,因为Luma AI 是全球范围的产品,会在各个国家做本地化,让各个地区的达人做内容的展示,因为我们本身也在探索什么类型的内容是大众喜欢的内容,要不是内部团队去探索、要不就是找创作者合作,这将是我们未来继续做增长的方式。
戴高乐:我们观察到的情况是,有些内容会在特定的地区火,比如去年5月份在印度、印尼和东南亚地区,我们的产品经历了一轮小爆发。深入分析后发现,当地用户特别喜欢使用我们的产品来拍摄他们的摩托车,因为在这些地区,摩托车是许多人的重要交通工具,他们希望通过 3D 建模技术将其保存并随时在手机上查看,因此我们看到了大量拍摄摩托车及其骑行者的内容。所以我们也会关注不同地区本地的增长,做相应的市场营销。
Amit Jain:因为我之前在苹果工作很长时间,这极大地塑造了我们公司的文化,我个人也非常钦佩乔布斯的故事和他的创业历程,面对巨大的不确定性时,乔布斯那种乐观和信念驱动的态度,作出一些和其他公司不同的选择,我们在方向的选择上,也受到了苹果文化的影响。
Amit Jain:Because I worked for a long time at Apple, Apple's spirit greatly shaped our company's culture. I personally admire Steve Job's insight and optimism. Even when facing great odds and uncertainties, he can lead Apple to make bold decisions that others dare not to take. This has impacted our principles on choosing our strategic direction as well.
彩蛋来啦!Luma AI 正在招聘全球 AI 研究、开发、创意和市场方面的人才,具体职位可以查看https://lumalabs.art/join,如果您有兴趣,也可以联系邮箱 hello@lumalabs.ai。
请注意,此次访谈内容已经过精心编辑,并得到了Amit Jain、余思贤、戴高乐、宋佳铭的认可。欲了解更多关于 Luma AI 的信息,敬请访问其官方网站 https://lumalabs.art/。我们也欢迎读者通过留言互动,分享您对本访谈或 Luma AI 的看法。
Z Potentials 将继续提供更多关于人工智能、全球化市场、机器人技术等领域的创业者访谈。我们诚邀对未来充满憧憬的您加入我们的社群,与我们共同分享、学习、成长。
-------------------------------
扫码获取社群二维码,加入社群
我们将经认证真实身份的产品、技术和创业者邀请至对应的产品群、技术群和创业者群,若想加入认证实名群可以扫码填写问卷,经认证后邀请加入。
关于Z Potentials