新公司融资2.3亿美元,李飞飞亲自解读空间智能公司的AI创新与独特盈利模式(附采访视频)
(关注公众号并设为🌟标,获取最新人工智能资讯和产品)
全文约7,000 字,阅读约需 10分钟
金句摘录
——语言本质上是一种生成信号,而3D世界遵循复杂的物理定律,受材料等多种因素影响。要在3D空间中实现智能交互,需要一种根本不同于语言处理的能力。
——空间智能将升级为3D体验,构建完整、模拟、互动的3D世界,未来将广泛应用于游戏、虚拟摄影等领域。
——宇宙本身就是一个不断演化的四维结构,广义上的空间智能就是理解它的全部深度,并找到应用这些知识的方式。
人工智能正在迈向一个新的前沿- 3D世界的生成与理解。AI科学家、斯坦福大学教授李飞飞最近宣布离开学术界,创立名为"World Labs"的AI公司,专注于探索这片充满潜力的新领域。李飞飞表示,这是她"一生事业的延续"。她认为,AI技术的未来发展需要从2D图像转向3D空间智能。World Labs一经成立就获得了AMD、英特尔、英伟达等芯片巨头的投资支持,同时也吸引了包括谷歌DeepMind首席科学家Jeff Dean和AI先驱Geoffrey Hinton在内的业界知名人士的投资。
李飞飞也指出,与语言模型不同,3D世界的生成面临着独特的挑战。她认为,智能的进化轨迹最终指向"使用功能"—— 能在现实世界中移动、交互、创造。未来的AI不仅要能生成图像或视频片段,还要能创造出完整的、模拟的、充满活力且可交互的3D世界。这种空间智能有望在多个领域带来革命性的应用。
视频时间轴
00:00 - 空间智能:新领域
06:56 - 算力的作用
09:16 - 数据作为关键驱动因素
18:58 - 什么是空间智能?解锁 AI 中的 3D 理解
26:35 - 比较模型:空间智能与基于语言的人工智能
29:41 - 1D 与 3D
32:39 - 用空间智能构建沉浸式世界
35:11 - 从静态场景到动态世界
37:42 - VR 和 AR 的未来
44:26 - 建立世界一流的团队
1、空间智能的含义
主持人: 我读了您的书,真的是一本很棒的书,我强烈推荐给大家。飞飞,对您来说,似乎在很长一段时间内,您的研究方向一直围绕着空间和像素相关的内容,以及智能方面的探索。现在,您正在进行World Labs的项目,主要是关于空间智能的。您能否谈谈,这对您来说是不是一段长期的项目?为什么您现在决定去做这件事?这是一个技术上的突破,还是一个个人的突破?请您带我们从AI研究的宏观视角转向World Labs。”
李飞飞教授: 对我而言,这既是个人的也是智力上的。我一生的智力旅程——正如你提到的我的书——其实是对寻找北极星的热情,同时我也相信这些北极星对我们领域的进步至关重要。在研究生毕业后,我记得我当时的北极星是想要讲述图像的故事。对我来说,这是视觉智能的重要组成部分,是你所说的人工智能或通用人工智能的一部分。但是当Justin和Andrej实现了这一点后,我当时的反应是,‘天啊,那是我的梦想,我接下来要做什么呢?’ 这一切发生得比我想象中要快得多。我原以为需要一百年才能做到这一点。
但视觉智能一直是我的热情所在,因为我相信对每一个智能体来说,无论是人类还是机器人,或者其他形式,了解如何观察世界、理解它、在其中进行交互是非常重要的。无论是导航、操控、制造东西,甚至建立文明,视觉空间智能都是极其基础的,可能比语言更为古老和重要。因此,对我来说,World Labs的目标非常自然——就是解锁空间智能。正如Justin所说的,我们现在拥有了这些必备的要素,包括计算能力、对数据更深入的理解,以及算法的进步。我的合作伙伴,包括World Labs的联合创始人Ben Mildenhall和Christoph Lar,他们在NeRF领域处于最前沿。我们正处于一个正确的时机,可以去下注并专注于解锁这一领域。
主持人: 为了让听众更清楚一些,您正在创立的公司World Labs,专注于空间智能,您能否简洁地描述一下这到底意味着什么呢?
Justin Johnson(李飞飞学生): 空间智能指的是机器在3D和4D时空中感知、推理和行动的能力,它意味着机器可以理解3D空间中的物体和事件,以及它们是如何相互作用并影响3D和4D时空的位置。这不仅包括感知和推理,还包括生成和交互——将机器从数据中心或主机中解放出来,让它能够理解现实世界中的3D和4D世界,拥有丰富的空间感知能力。
我认为可以是物理世界,还是一种抽象的概念两者兼而有之,这也是我们长期愿景的一部分。即使你是在生成虚拟世界或内容,将这些内容放置在3D空间中也是非常有益的。同样,当你在识别现实世界时,能够将3D理解融入其中也是非常重要的。
2、为什么创办“World Labs”公司
主持人: 对所有听众来说,World Labs的另外两位联合创始人,Ben Mildenhall和Christoph Lar,在这个领域堪称传奇人物。现在他们四位决定共同创办这家公司,所以我想深入了解一下,为什么现在是合适的时机?
Justin Johnson: 对我来说,这确实是一个长期演进的过程。博士毕业后,当我想要成长为一名独立研究员时,我一直在思考AI和计算机视觉领域中最重要的问题。我得出的结论是,过去十年主要是关于理解已经存在的数据,而接下来的十年将是关于理解新数据。
以前,我们研究的是网络上已经存在的图像和视频。而在未来,我们将要理解的是新生成的数据,比如手机拍摄的新图像,这些摄像头有新的传感器,并且位于3D世界中。我们不仅要从互联网上获取像素信息,还要通过这些像素来理解现实世界的3D和4D结构。我的博士后工作方向也因此发生了重大转变,转向了3D计算机视觉,和一些Facebook AI研究院的同事一起研究3D物体形状预测。然后,我对通过2D图像学习3D结构的想法产生了浓厚的兴趣。虽然3D数据很难获得,但2D图像是3D世界的投影,其中蕴含着丰富的数学结构。许多人已经做出了出色的工作,探索如何从大量的2D观测数据中推断出3D结构。2020年,正如您所提到的突破性时刻,我的联合创始人Ben Mildenhall发表了他的NeRF(神经辐射场)论文,这是一个非常重大的突破。
我们通过Nerf方法从2D观察中推导出3D结构,这是一个非常简单明了的方式,也点燃了整个3D计算机视觉领域的热情。我认为很多领域外的人可能并不理解,那个时候也是大型语言模型(LLM)开始崛起的时期。其实,很多关于语言模型的东西早在学术界就已经发展起来了。即便是在我读博期间,我还和Andrej Karpathy在2014年做了一些早期的语言模型工作。当时使用的是LSTM,我还记得LSTM和RNN的那些天,那是在Transformer之前。但到了GPT-2的时代,这些模型已经不再能在学术界完成了,因为它们需要太多的资源。然而,Nerf的一个有趣之处在于,你可以在一两个小时内用单个GPU训练出结果。在那个时候,有一种动态变化,我认为很多学术研究者开始专注于这些问题,因为有核心的算法问题需要解决,而且你可以用较少的计算资源取得领先的成果。
李飞飞教授: 是的,不过从我的角度来说,我想要和最聪明的人交谈,所以我找了Justin。我还想谈论一个非常有趣的技术问题,大多数研究语言的人可能没有意识到。在计算机视觉领域,我们这些处理像素的人有一个很长的研究历史,叫做‘3D重建’。这项研究可以追溯到上世纪70年代。你可以通过拍摄照片进行重建,因为人类有两只眼睛,通常是从立体照片开始,然后通过三角测量法构建出几何形状,并生成3D结构。
这是一个非常困难的问题,直到今天它都还没有被完全解决,因为涉及到对应性等问题。然后,当Nerf出现时,在生成方法和扩散模型的背景下,重建和生成开始真正融合。如今,在计算机视觉领域,重建和生成之间的界限变得模糊不清。无论你是看到某物,还是想象某物,最终都可以生成它们。这对计算机视觉来说是一个非常重要的时刻,但大多数人可能忽略了这一点,因为我们谈论的大多是大型语言模型。
3、空间智能和大语言模型
主持人: 所以,在像素空间中,我们有‘重建’,它是用来重建真实场景的。如果你看不到场景,你就使用生成技术。这两者在这整个对话中看起来是非常相似的。你提到语言和像素,也许是时候谈谈空间智能和语言方法的对比了。这些语言方法现在非常流行,比如说多模态模型,它们处理像素和语言。您觉得这些方法和空间智能相比是互补的还是不同的?
Justin Johnson: 我认为它们是互补的。要理解它们的差异,我们需要稍微揭开这些系统的黑箱。语言模型和我们现在看到的多模态语言模型,它们的底层表示是一个1D表示。我们谈论上下文长度,谈论Transformer,谈论序列注意力机制,它们本质上是基于1D序列的表示。这对于语言来说是非常自然的,因为书写文本就是一维的字母序列。因此,这种底层表示方式是催生大型语言模型的核心,也促成了我们现在看到的多模态语言模型。
但是,当我们转向空间智能时,我们则走向另一个方向,我们认为世界的3D性质应该是表示的核心。在算法层面,这为我们处理数据的方式打开了大门,并使我们能够获得不同类型的输出,解决稍有不同的问题。所以即便从粗略的角度看,多模态语言模型也能处理图像,但我认为它们并没有在其方法核心中包含对3D世界的根本理解。
李飞飞教授: 我完全同意Justin的观点,关于1D和3D表示的对比是一个非常核心的差异。还有一点是稍微带有哲学性的,但对我个人来说非常重要。语言本质上是一种完全生成的信号,世界上并没有语言存在。你不会走到大自然中看到天上有字出现。无论你提供什么样的数据,只要有足够的泛化能力,你基本上可以以某种形式再现相同的数据,这就是语言到语言的过程。
但3D世界不是这样的。3D世界遵循物理定律,因材料等多种因素而形成自己的结构。要从根本上推导出这些信息,能够将它们表示并生成出来,这与语言是截然不同的问题。我们会借鉴一些来自语言模型的有用思想,但从本质上来说,这在哲学上是一个不同的挑战。
主持人: 所以,语言是1D的,在表示物理世界方面可能不是很理想,因为它是由人类生成的,可能存在信息的丢失。生成式AI还有另一种模态,那就是像素,它们存在于2D图像和2D视频中。有人可能会说,看视频时能看到3D的东西,因为可以移动摄像机等等。那么,空间智能和2D视频相比有什么不同呢?
Justin Johnson: 当我思考这个问题时,我认为区分两点非常有用。第一是底层表示,第二是面向用户的使用功能。这是一个容易混淆的地方,因为从根本上来说,我们确实看到的是2D。我们的视网膜是2D结构,我们有两只眼睛,所以从根本上来说,我们的视觉系统是感知2D图像的。然而,问题在于,取决于你所使用的表示方法,不同的表示可能会有更自然或更不自然的使用功能。即使最终我们看到的是2D图像或2D视频,我们的大脑实际上是将其视为3D世界的投影。
例如,你可能想要移动物体,或者移动摄像机,理论上你可以用纯2D表示和模型来完成这些任务,但这与模型所需执行的任务并不匹配。将3D表示置于模型的核心,会更好地适应任务的需求。因此,我们的想法是通过在底层引入更多3D表示,能够提供更好的使用功能。
李飞飞教授: 这也回到我说的那个北极星的问题。为什么是空间智能,而不是平面的像素智能?因为我认为智能的轨迹必须指向Justin所说的‘使用功能’。如果你看一下进化的轨迹,智能的发展最终使动物和人类(尤其是人类作为一种智能动物)能够在世界中移动、与世界互动、创造文明、创造生命,甚至是制作一份三明治。在这个3D世界中实现这一切,需要一种天生的3D能力,这是打开可能应用的关键所在。
4、空间智能应用
主持人: 这个观点非常微妙,但也是一个极其关键的点。我认为值得深入讨论,用例会是一个很好的切入点。我们正在谈论构建一种具备空间智能的技术,可以称之为‘模型’。那么,这种技术在实际应用中可能是什么样的?它会有哪些潜在的用例?
Justin Johnson: 我们设想这些具备空间智能的模型在未来可以执行许多不同类型的任务。其中一个让我非常兴奋的是世界生成(World Generation)。我们都熟悉文本到图像生成器,现在开始出现了文本到视频生成器,可以输入图像或视频,输出一幅令人惊叹的图像或一段精彩的2D片段。但我认为你可以想象将这个水平提升到3D世界的生成。未来,空间智能可以帮助我们将这些体验升级到3D,不再只是生成图像或片段,而是一个完整的、模拟的、充满活力且可互动的3D世界。可能用于游戏,也可能用于虚拟摄影等很多其他领域。如果这种能力可以实现,会有成千上万的应用场景。
还有教育领域也是一个很好的应用场景。我们现在已经可以创建虚拟互动世界,但这通常需要数亿美元的投入和大量的开发时间。正因为如此,只有像电子游戏这样的领域才能推动这项技术的发展,因为它需要巨额投资,且能以70美元一份的价格出售给数百万人,从而收回成本。如果我们能以较低的成本来创造这些虚拟互动的3D世界,你将会看到许多其他应用的可能性。想象一下,如果你能够拥有一个与那些数百万人愿意支付数亿美元来体验的AAA级游戏一样丰富的、个性化的3D体验,但这种体验可以针对只有少数几个人感兴趣的特定主题进行定制。这不是一个特定的产品或路线图,但我认为这是通过生成式空间智能所能实现的一种全新媒体形式的愿景。
主持人: 当我想到一个世界时,我不仅仅想到场景的生成,还会想到诸如运动和物理学等内容。那么,在极限情况下,这些是否也包括在内?第二个问题是,如果我与这个世界互动,是否会有语义存在?例如,如果我打开一本书,里面是否会有页面和文字,而且这些文字是否有意义?我们谈论的是一种完全深度的体验,还是一种静态场景?”
Justin Johnson: 我认为我们会看到这项技术随着时间的推移逐渐发展。这项技术的构建非常困难,因此我认为相对静态的场景问题会稍微容易一些。但是从长远来看,我们希望它能够完全动态、完全可互动,正如您刚才提到的那样。
李飞飞教授: 这就是空间智能的定义。因此,这将是一个渐进的过程,我们会先从比较静态的开始,但您所提到的一切都在空间智能的路线图中。
Justin Johnson: 这其实也反映在我们公司的名字中——World Labs。‘世界’就是在构建和理解世界。当我们把这个名字告诉别人时,有些人可能并没有立刻理解,因为在计算机视觉、重建和生成领域,我们经常对我们可以做的事情进行划分。第一层次是‘对象’——比如麦克风、杯子、椅子,这些都是世界中的离散物体。很多ImageNet的工作就是识别这些世界中的物体。而接下来的一层是‘场景’,场景是物体的组合,例如我们现在所在的录音室里有桌子、麦克风、椅子,这是一种物体的组合。但我们希望超越场景,进入‘世界’的层次。场景可能是个别的事物,但我们想要打破边界,走出门外,从桌子上走出去,走到街上,看到汽车飞驰而过,看到树上的叶子在风中摇曳,并能够与这些事物互动。
李飞飞教授: 还有一个让我非常兴奋的是,正如我们刚才提到的‘新媒体’,这种技术使现实世界与虚拟世界、增强现实世界和预测性世界之间的界限变得模糊。真实世界是三维的,因此在数字世界中,你需要一种3D表示来与真实世界进行融合。你无法用2D或1D的表示来有效地与真实的3D世界进行交互,而这种技术解锁了这种可能性。
主持人: 所以,Justin刚才提到的第一个用例是生成一个虚拟世界,可以用于各种用途。而你提到的另一个用例则是增强现实,对吗?”
李飞飞教授: 是的,就在World Labs成立之际,苹果公司发布了Vision,并使用了‘空间计算’这个词,感觉就像他们几乎‘偷走’了我们的想法(笑)。但我们是‘空间智能’(Spatial Intelligence),而空间计算需要空间智能,这是完全正确的。所以我们还不知道最终的硬件形式会是什么样的,是护目镜、眼镜、还是隐形眼镜,但在真实世界和你可以在其基础上完成的工作之间的界面,无论是帮助你提升能力来修理一台机器,甚至是修理汽车,即使你不是一个经过培训的机械师,还是用于像Pokémon Go这样的娱乐项目,这项技术都将成为AR/VR/MR的操作系统。”
Justin Johnson: 从长远来看,AR设备需要做什么?它是一种始终与你在一起的设备,能够观察外部世界并帮助你完成日常任务。我也非常期待虚拟与现实的融合。如果你能够实时理解周围环境的完美3D结构,实际上就可以替代我们现在对现实世界的许多需求。例如,现在我们拥有太多不同尺寸的屏幕,满足不同用途。我们有手机、iPad、电脑显示器、电视,甚至手表——它们都是以不同方式向我们呈现信息的设备。但是如果你能无缝地将虚拟内容与现实世界融合,你可能就不再需要所有这些设备。它将以一种最适合你的方式,在你需要的时候,向你呈现信息。
李飞飞教授: 另一个重要的用例是,将数字虚拟世界与3D物理世界融合,这对任何能够在物理世界中执行任务的代理体(agents)都是至关重要的。如果人类可以利用这些混合现实设备来完成任务,例如我不会修理汽车,但如果我戴上这种眼镜或护目镜,突然间我就能得到指导去完成修理任务。同样,还有其他类型的代理体,比如机器人。无论是人形机器人还是其他类型,它们的接口定义上是3D世界,但它们的计算能力和‘大脑’则是数字世界。那么,是什么将机器人从学习到行动、从数字大脑到现实世界连接起来?答案就是空间智能。
5、深度智能技术
主持人: 你们刚才谈到了虚拟世界、增强现实,还有纯粹的物理世界,比如用于机器人技术。对于任何一家公司来说,这都是一个非常大的目标,特别是如果你们要涉及这些不同的领域。那么,你们如何看待深度技术和这些特定应用领域的关系呢?”
李飞飞教授: 我们把自己视为一家深度技术公司,是一家为不同用例提供模型的平台公司。
主持人: 在这三个领域中,你们认为哪一个更早期、更自然,可能是公司最初会倾向于进入的领域呢?
Justin Johnson: 我想说,目前的设备还不完全准备好。实际上,我在研究生时期买了我的第一个VR头戴设备,当时感觉就像是一种改变世界的技术,你戴上它会感到‘天啊,这太疯狂了’。我认为很多人第一次使用VR时都会有这种体验。我对这个领域很感兴趣,也非常喜欢Vision Pro,我甚至熬夜购买了第一批上市的产品。然而现实是,这种技术还没有准备好成为大众市场的平台。因此,我们公司可能会进入一个更成熟、更准备好的市场。
李飞飞教授: 有时候在普遍性中也会存在简单性。作为一家深度技术公司,我们认为有一些基本的问题需要很好地解决,一旦解决得很好,就可以应用于许多不同的领域。我们真正把公司看作是沿着长远的轨迹去构建和实现空间智能的梦想。这需要很多技术的积累。
Justin Johnson: 是的,我认为这是一个非常困难的问题。有时候,对于那些不直接在AI领域工作的人来说,他们可能会将AI视为一种单一的、未分化的巨大能力。而对我们这些在这个领域工作了很长时间的人来说,我们意识到构建任何AI系统需要许多不同类型的才能,特别是在我们讨论的这个领域。我们谈到了数据问题,也谈到了一些我在博士期间研究的算法,但要实现这一目标,我们还需要做很多其他的事情。我们需要高质量的大规模工程能力,对3D世界有深刻的理解,还有许多与计算机图形学的联系,因为它们从相反的方向在解决很多相同的问题。
所以当我们考虑团队建设时,我们会思考如何找到每个子领域的世界顶尖专家,他们是实现这个极具挑战性的目标所必需的。
李飞飞教授: 当我思考如何为World Labs组建最好的创始团队时,我的第一步就是找到一群杰出的、多学科的创始人。Justin对我来说是很自然的选择,他是我最优秀的学生之一,也是最聪明的技术专家之一。除此之外,还有两位我久仰大名的人选,其中一位甚至与Justin合作过,我非常渴望他们的加入。一个是Ben Mildenhall,他的开创性工作是NeRF。另一位是Christoph Lassner,他在计算机图形学领域享有盛名,特别是他在5年前对高斯点状3D表示法的研究,为后来技术的起飞铺平了道路。当我们听到可能与Christoph Lassner合作的消息时,Justin差点从椅子上跳起来。
6、公司组建过程
主持人: Ben和Christoph真的是传奇人物。能不能谈谈你们是如何考虑组建其余团队的?因为你们不仅需要AI或图形学方面的专家,还需要系统等其他领域的专家。
李飞飞教授: 这是我目前最自豪的部分,我能与这些出色的人才共事让我感到非常荣幸。从我作为斯坦福教授的经历中,我有幸接触到来自顶尖大学的最聪明的年轻人。但在World Labs组建的这个团队,我从未见过如此高水平的集中度。最大的区别在于,我们都是空间智能的信仰者。无论是系统工程、机器学习基础设施、生成模型、数据、图形学等不同领域的多学科人才,我们都有一个共同点:无论是个人的研究经历、技术经历,甚至是个人爱好,我们都相信现在正是实现空间智能的时机,而这正是我们组建创始团队的原因。这种专注的能量和才华真的让我感到谦卑,我非常热爱这个团队。
主持人: 我知道你们一直被一个‘北极星’所引导。‘北极星’的特点在于,你实际上无法到达它,因为它在天上,但它是一个很好的指导方向。那么,你们如何知道自己已经实现了目标?还是说,这将是一个终生的、不断延续的旅程?
李飞飞教授: 首先,现实中有真正的北极星,也有虚拟的北极星。有时候你可以到达虚拟的北极星,这样就足够了。在虚拟世界模型中,正如我之前所说的,我曾认为我的一个北极星——‘图像的故事讲述’会需要一百年才能实现。然而,Justin和Andrej在我看来,已经替我完成了这一目标。所以,我们可以到达我们的北极星。对我来说,当有很多人和企业开始使用我们的模型来满足他们对空间智能的需求时,那就是我们达成一个重大里程碑的时刻。真正的部署和影响,才是我们成功的标志。
Justin Johnson: 我不认为我们会真正到达那个目标。我觉得这是一件非常根本的事情——宇宙本身就是一个不断演化的四维结构,广义上的空间智能就是理解它的全部深度,并找到应用这些知识的方式。所以,我认为我们现在有一套特定的想法,但这段旅程将会带领我们走向我们现在甚至无法想象的地方。
李飞飞教授: 好的技术的魔力在于,它能开启更多的可能性和未知。因此,我们会不断推动,而可能性也将不断扩展。
主持人: 太棒了,非常感谢你们,Justin和飞飞。这次对话非常精彩。
原视频链接:https://www.youtube.com/watch?v=0EmzuLylr7I&t=7s
对了,喜欢就别忘了点赞、收藏、转发支持一下!期待在评论区听到你的观点和看法!
往期回顾
1、[独家视频访谈《人类简史》尤瓦尔·赫拉利:阔别六年重磅力作《智人之上:AI简史》,帮你从大历史视角看待AI对我们的巨大影]
3、[演讲视频:2024年第65届国际奥数大会上,陶哲轩再次表示当前AI进展惊人,智能水平已与人类相当]
3、[专访OpenAI创始成员Andrej Karpathy:相比较与人类工作,他相信当前AI技术在某些方面能力已经远超人脑]
我们旨在将先进科技与创新想法完美融合!
想要掌握人工智能,但不知从何开始?告诉我们你的需求,学习AI让你抓住这波浪潮
告别昂贵服务和缺人烦恼,再见漫长交付周期
无限创意,分分钟生成专业级产品
感受 AI 带来的全新工作体验!
欢迎各大品牌方、媒体、企业和个人等
请联系负责人微信:Milo-1101
--END--
未经许可不得转载,务必保留公众号原文链接和公众号按钮