a16z对话创业者李飞飞:语言不是全部,AI 要进化出「可操作性」
a16z、英伟达、Geoffrey Hinton、Jeff Dean、谷歌前 CEO Eric Schmidt、LinkedIn 联创 Reid Hoffman,投资人名单上都是大佬。
World Labs 的方向,是空间智能,用团队自己的话来说,「AI 在三维空间和时间中以三维方式感知、推理和行动的能力,并与现实世界进行交互」。
在李飞飞看来,智能的进化必然转向现实世界里的「可操作性」。
在最近公司官宣后,李飞飞与另一位联合创始人 Justin Johnson 接受了 a16z 的专访,聊了很多当下大家关注的 AI 相关的问题。Founder Park 还整理了CHM Live上对李飞飞的部分专访内容。
一些观点:
过去十年的重点是理解已经存在的数据,接下来的十年将是去理解新的数据。
语言从根本上来说是一种纯粹生成的信号,无论你输入什么数据,都是在同样的数据上进行泛化,输出同样的数据。
获得了智慧的智能生物拥有了在世界中互动、创造文明、甚至随心所欲地完成各种任务的能力。将这些能力转化为原生的三维技术,是释放潜在 AI 应用能力的关键。
如果能够实时、完美地理解周围的三维环境,会淘汰我们现在很多对物理世界的依赖。比如说手机、iPad、电脑显示器、电视,甚至还有手表。
机器人的交互界面天然就是三维世界。它们的大脑是数字化的,要将它们学习到的数据转化到现实世界中的执行,必将依赖于空间智能。
拥抱AI新时代的最大风险是无知。这里的“无知”不仅仅指不知道如何拼写“AI”这个词,而是指即使是一些非常有知识的人,在忽视细节和复杂性的情况下,以夸张的方式传达AI,这也是一种风险。
掌控和管理AI技术是人类的责任。不仅时间充裕,我们还有足够的控制权,不应该轻易放弃这种责任。
文章编译自机器之心。
点击关注,每天更新深度 AI 行业洞察
01
AI 的进化必然走向「可操作性」
主持人:什么是空间智能?
Johnson:空间智能是机器在三维空间和时间中以三维方式感知、推理和行动的能力,这能帮助它理解事物在三维空间和时间(4D)中的位置,事物的交互方式。这是将 AI 从大型数据中心带出来,放入 3D/4D 世界中,使其理解这个世界的丰富性。
主持人:你们四位现在出来创立公司,为什么说现在是正确的时刻?
Johnson:过去十年的重点是理解已经存在的数据,但接下来的十年将是关于理解新的数据。我们已经有足够的硬件设备和传感器来帮助我们理解这个世界。
在 2014 年,我和 Andrej Karpathy 做过一些早期的语言建模工作,比如 LSTM(长短期记忆网络)、RNN(循环神经网络)和 GRU(门控循环单元),那是在 Transformer 之前的时代。但大约在 GPT-2 出现时,这类模型已经无法在学术界继续进行研究了,因为它们需要的算力太多了。
不过,Ben 提出的 Nerf 方法非常有趣,因为你可以在一两个小时内在单个 GPU 上训练这些模型。那时许多研究者开始关注这些问题,因为核心的算法问题还没有解决,并且你实际上可以在不需要大量计算资源的情况下取得成果。因为只需要一个 GPU 就能达到 SOTA,所以很多学术界的研究者开始转向思考如何在 Nerf 推动核心算法的进步。
实际上,我在博士期间与飞飞交流时,发现我们不约而同地达成了相似的结论。
主持人:她非常有说服力。
Johnson:是的(笑)。当时我们都在思考如何从导师那里找到自己的独立研究方向,结果我们最后找到的是相似的研究路径。
李飞飞:对我来说,能与最聪明的人讨论问题,我首先想到的就是 Justin。这毫无疑问(笑)。
主持人:语言模型的方法现在很流行。这两者是互补的吗?还是完全独立的?比如大家都知道 OpenAI、GPT 以及多模态模型,那么它们是不是已经达到了我们想要的空间推理能力呢?
Johnson:要回答这个问题,我们得稍微解开一下这些系统背后的「黑箱」。对于语言模型和如今的多模态语言模型,它们的底层表示形式是以一维的方式存在的。
我们谈论上下文长度、谈论 Transformer 和序列以及注意力机制。它们的基础是对世界的一维表示。这在处理语言时是非常自然的,因为书写的文本本质上是一维的、由离散字符组成的序列。这种底层表示形式是促成大型语言模型发展的原因。现在的多模态语言模型则把其他模态的数据硬塞进这个一维的序列表示中。
而当我们谈到空间智能时,方向就完全不同了。我们认为本质上,三维应该成为表达的核心。从算法的角度来看,这为我们提供了以不同方式处理数据的机会,并从中获得不同类型的输出,解决不同的问题。从一个粗略的层面上看,多模态的大型语言模型(LLMs)也能处理图像。没错,它们确实能做到。但我认为,这些方法并没有将三维表示作为其核心方法的基础。
李飞飞:我完全认同 Justin 的观点。1D(一维) 和 3D (三维)表征是最核心的区别之一。另一件事有点哲学意味,但至少对我来说,语言从根本上来说是一种纯粹生成的信号。世界上本没有语言 —— 天上没有文字。对于语言,无论你输入什么数据,都是在同样的数据上进行泛化,输出同样的数据。这就是语言到语言。
但在 3D 世界不一样,3D 世界遵循着物理定律。由于材料和许多其他原因,它自己的结构。并且从根本上支持这些信息并能够表示和生成它,这从根本上来说是一个完全不同的问题。
主持人:所以语言是一维的,可能不是物理世界的最佳表示形式,它可能损失了很多信息含量。
另一类生成式 AI 模型是基于像素的,它们处理的是 2D 图像和 2D 视频。你可以说,当你看一个视频时,它看起来像是三维的,因为你可以平移相机或进行其他操作。那么,空间智能与 2D 视频有什么不同呢?
Johnson:思考这个问题时,需要拆解两件事。第一是底层的表示形式,第二是面向用户的可操作性。
这里比较容易让人感到困惑,因为从根本上讲,我们看到的世界是二维的,就像我们有两只眼睛,我们的视网膜是二维结构。因此,我们的视觉系统实际上是在感知二维图像。但问题在于,根据你使用的表示形式,不同的模型会提供更自然或不那么自然的操作方式。即便最终你看到的可能是一个二维图像或视频,背后的表示方式决定了它的可操作性。
你的大脑将其感知为三维世界的投影。比如你想移动物体,移动相机,理论上,你可以使用纯 2D 表示和模型来实现,但它并不适合你要求模型解决的问题。可以对动态三维世界进行二维投影的建模,但如果将三维表示放在模型的核心位置,问题与表示方式之间会更加匹配。所以我们把赌注押在在底层结构中引入更多的三维表示,这将能够为用户提供更好的可操作性。
李飞飞:完全同意。这也回到了我所追寻的北极星 —— 为什么选择「空间智能」,而不是「平面像素智能」?我认为智能的进化路径必然像 Justin 所说的那样,转向「可操作性」。
回顾生物进化的历程,动物和人类,这些获得了智慧的智能生物拥有了在世界中互动、创造文明、甚至随心所欲地完成各种任务的能力。将这些能力转化为原生的三维技术,是释放潜在 AI 应用能力的关键。即便有些应用场景看似是二维的,其核心依然是三维的。
02
空间智能的三个落地方向
主持人:可以通过一些实际用例,具体谈谈你们正在创建这个具备空间智能的模型有什么应用场景吗?
Johnson:这要分几类讲。随着时间推移,模型将逐步具备更多的功能。其中最让我兴奋的一项是「世界生成」。我们已经习惯了使用文生图工具,最近也看到了不少文生视频的应用。但是,试想一下,如果将其提升到生成完整的三维世界,你得到的不再仅仅是一张图片或一个短片,而是一个充满活力且可交互的三维世界。无论是用于游戏,还是 VR 等应用场景。
李飞飞:也可以用于教育。
Johnson:是啊,这项技术一旦实现,其应用前景将无穷无尽。这将开启一种全新的媒体形式。我们现在已经能够创建虚拟的互动世界,但这需要数亿美元和大量的开发时间。这种技术在经济上唯一可行的模式就是(游戏)以每件 70 美元的价格卖给数百万玩家,以收回投资。
如果我们能降低创建这些成本,更多的应用场景将会不断涌现。试想,你可以拥有一个个性化的 3D 体验,其丰富性和细节程度丝毫不逊色于一款顶级的 3A 大作,但却是为一个非常小众的需求量身定制的。虽然这可能不是我们当前产品路线图上的内容,但这正是空间智能所能带来的一种全新媒体形式的愿景。
主持人:在生成一个世界时,不仅包括场景生成,还需要生成运动和物理现象。那么在技术发展到极致时,这些功能是否也包括在内?
其次,如果我与之互动,会包含语义吗?比如,我打开一本书,里面的文字是否有意义?这将是一个完整的、可以深度体验的世界,还是一个静态场景?
Johnson:这项技术将逐步发展,想要实现你所描述的这些功能非常困难。因此,我们会先从静态问题入手,因为它相对更容易解决。但最终,我们的目标是实现完全动态、完全可交互的体验,涵盖你提到的所有内容。
李飞飞:这就是空间智能的定义。虽然我们会从更静态的东西开始,但你提到的所有功能,都是我们空间智能发展路线图中的内容。
Johnson:这也是我们的公司名「World Labs」的来源。我们的目标是构建并理解世界。这有点像内部人才懂的梗,我发现给别人说这个名字时,他们总是没 get 到。
因为在计算机视觉和生成领域,我们通常会对事物进行划分。第一级通常是物体,比如一个麦克风、一杯水或者一把椅子。这些是世界中的离散物体。很多 ImageNet 项目都是识别这些物体。
接下来是场景,场景是多个物体的组合。比如,现在这个录音室里有桌子、麦克风、几个人、椅子,这些都是物体的组合。
但是我们的目标是超越场景的世界。场景可能是单个的,但我们想打破边界,走出房间,穿过门,走上街头,看到汽车驶过,树叶随风摇摆,能够与万事万物互动。
李飞飞:另一个令人兴奋的点是 Justin 提到的「新媒体」。这项技术将使得现实世界、虚拟世界、想象中的世界和增强现实之间的界限变得模糊。
由于现实世界是三维的,因此在数字世界中,必须使用三维表示才能与现实世界无缝融合。你无法通过二维或一维的方式有效地与三维现实世界互动,解锁这种能力将带来无限的应用场景。
主持人:刚才 Justin 提到的第一个例子可能更像 AR,对吧?
李飞飞:是的。就在 World Labs 成立的同时,苹果发布了 Vision Pro,并提出了「空间计算」的概念,好像是偷走了我们的想法(笑)。
但我们做的是「空间智能」。空间计算必然需要空间智能。我们还不确定最终的硬件形态会是什么,可能是护目镜、眼镜甚至隐形眼镜。但在真实世界和增强现实之间的那个界面,比如你不是专业技工,但它可以指引如何修车,或者它只是为了玩 Pokémon Go,这最终将成为 AR 和 VR 领域的操作系统。
Johnson:在技术发展到极致时,AR 设备将有什么用途?它需要一直运行,陪伴在你身边,观察你所看到的世界。因此,它需要理解你所看到的事物,可能还要帮助你完成日常任务。
但我也对虚拟和物理世界的融合感到非常兴奋。如果你能够实时、完美地理解周围的三维环境,那么这实际上也会淘汰我们现在很多对物理世界的依赖。比如说,现在我们有手机、iPad、电脑显示器、电视,甚至还有手表。这些屏幕是为了在不同的环境和位置下向你展示信息。
但如果你能无缝地将虚拟内容与物理世界融合,那么实际上这些不同尺寸的屏幕可能就不再必要了。理想情况下,「空间智能」技术将以最适合当下情境的方式,将你所需要的信息呈现给你。
李飞飞:还有一个巨大的应用场景,就是帮助 AI 智能体在现实世界中执行任务。比如你不是专业技工,但能通 AR 设备完成修理汽车这样的任务,那么 AI 智能体同样也能够做到。比如机器人,它们的交互界面天然就是三维世界。它们的大脑是数字化的,要将它们学习到的数据转化到现实世界中的执行,必将依赖于空间智能。
主持人:你在斯坦福的同事Chelsea Finn说过,我们距离让机器人去一个从未见过的房子里做早餐的能力还很遥远。你怎么看?
李飞飞: 是的,确实很遥远,我也很期待那一天,但它确实还很远。不过,如果你追溯人类语言的发展,大致来说,最早的原始语言时刻可以追溯到大约一到两百万年前,那是人类早期祖先的时期。很多人说我们今天使用的语言大约是在过去30万年内发展起来的。
但如果你追溯人类“看”空间的能力,理解三维世界、看到障碍物、食物、如何导航的能力,这可以追溯到大约5.4亿年前。那时水下的动物第一次发展出了光感器官,有了这种感知能力,感知就开始了。当感知开始后,动物们开始有目的地移动。在此之前,它们只是在漂浮,可能会偶尔碰到一些东西,因为早期已经有了触觉感知,但那时的移动还非常随意。一旦能够“看”见,进化中的智能就开始发展了。所以,空间智能总结了这种能力。
用今天的语言来说,就是理解、推理、生成和与三维世界互动的能力。现在我们同时生活在物理世界和数字世界中,因此这种空间智能适用于这两个领域。这也与如果你想让一个机器人来你家做早餐密切相关。机器人必须具备空间智能,知道冰箱在哪里,炉子在哪里,鸡蛋在哪里,如何打破鸡蛋并将其放入锅中,所有这些都属于空间智能的范畴。
主持人:在你们提到的这三类应用中,有没有哪一类是更适合早期发展的,你们的公司会优先倾向哪个领域?
李飞飞:现在硬件设备还没完全成熟。
Johnson:我在读研的时候就买了我的第一台 VR 头显,那是一次改变生活的技术体验。戴上它的那一刻,我的反应是「天啊,这太棒了」。我想。很多人在第一次使用 VR 时都会有类似的感受。
所以,我对这个领域已经期待了很久,我也非常喜欢 Vision Pro。Vision Pro 发布时,我熬夜订购了第一批。但是现实情况是,作为一个面向大众市场的平台,它还没有准备好。
李飞飞:因此,作为一家公司,我们很可能会先进入一个更为成熟的市场。
Johnson:不过有时候,简单也能体现出广泛的适用性。我们相信,有些根本性的问题如果能够很好地解决,便可以应用于许多不同的领域。我们将公司的长期愿景定位为构建并实现「空间智能」的梦想。
03
AI的关键时刻:
ImageNet、AlphaGo、ChatGPT
主持人:从2012年到2024年,AI领域有哪些你认为最重要的进展呢?李飞飞:2012年不仅是AlexNet的关键时刻,同年,美国国家科学院院士珍妮弗·道德纳(Jennifer Doudna)和她的同事们还发现了CRISPR技术。我记得2012年我们有过一次谈话,结果发现当时两大科学技术突破几乎同时发生了。自2012年以来,已经过去12年了,发生了很多事情。在研究领域,AlexNet和ImageNet是一个重要的时刻,它打开了大公司的大门,尤其是Google等科技巨头开始加倍投资深度学习。这是深度学习时代的开端。
然后,我认为另一个公众时刻出现在2016年1月,当时AlphaGo击败了围棋大师李世石,并赢得了比赛。这是公众第一次意识到,机器已经强大到可以在那些人类认为独特的任务上挑战人类了。这也引入了一类新的算法,叫做强化学习,这是在深度学习基础上的进一步发展。
在2016年至2022年之间,AI领域的投资逐渐增加,特别是在大科技公司和创业领域。同时,我们也开始看到“技术反感”的苗头,尤其是在2016年剑桥分析公司丑闻以及大选之后。大约在那个时候,机器学习的偏见问题开始被提出,自动驾驶的事故也发生了,最早大约是在2017年。于是,我们开始进行关于技术的社会对话,既有对技术的期待,也有对技术的担忧。所有这些最终在2022年10月底的ChatGPT事件中达到了顶峰。
对于我们这些研究人员来说,我们其实早就看到这个趋势正在发生。你可能觉得我是在吹嘘,但我告诉你为什么。作为斯坦福以人为中心的AI研究所的联合主任,早在2021年,我们就创办了全球首个关于基础模型研究的中心,因为我们看到了GPT-2的结果。当时公众还不了解,但像我们这样的研究人员已经意识到,我的同事Percy Liang和Chris Ré当时就说:“天啊,这将会改变一切。”所以我们立即投入资源成立了这个中心。因此,当ChatGPT事件发生时,我们感到庆幸我们提前做了准备,但同时也对它在媒体上的迅速崛起感到震惊。
我认为AlphaGo时刻与ChatGPT时刻在公众意识上的区别,不仅仅是接触AI的人数不同,更重要的是,这是第一次AI如此亲密地走进了普通用户的生活。AlphaGo只有围棋大师能够使用,而ChatGPT则在每个人的指尖上。这对每一个个人来说都是一次觉醒的时刻,同时对各国政府也是一次觉醒。在ChatGPT之前,我们研究所的使命之一是弥合科技界与政策界的差距。你在华盛顿工作,我本来不会经常飞往华盛顿(政府),但我当时一直在飞往华盛顿进行对话。而在ChatGPT之后,情况完全反转,华盛顿开始频繁联系我们,想知道发生了什么。我认为这十年来,公众看到的可能是一个个独立的事件,但从我们的角度来看,这是一条不断上升的曲线,科技投资和进展越来越多。
主持人:那么,在研究界,关于这些大型语言模型到底是“随机鹦鹉”还是具备实际推理能力的争论还在继续吗?你对此怎么看?
李飞飞: 我理解你用“随机鹦鹉”这个词的原因,这个词来源于一篇批评大型语言模型的论文。我认为我们确实需要从不同角度去批评这些模型,无论是它们的能力、能耗、局限性,还是偏见等问题。
但从科学的角度来看,我会用更中立的语气,而不是称它们为“神”或“鹦鹉”。实际上,它是一个具备很强能力的大模型,不仅能进行模式匹配和学习,还能进行预测,甚至在推理上也有一定的表现。它能够向你解释事物的原理。最近几天刚刚发布的版本似乎在推理能力上更进一步,尤其是在推理时间方面。所以,我认为说它具备某种推理能力是合理的,虽然它的模式识别能力可能被某些人称为“鹦鹉”效应,但它的确展示了某种程度的推理能力。不过,作为一名教育者,我始终非常谨慎,特别是在与公众沟通时,我的责任是诚实的传达信息。我非常小心不要过度夸大这些模型的推理能力,也不会做一些关于“感知”或“意识”的夸张推断。
主持人:你觉得在可解释性和可解释AI领域取得进展有多重要?
李飞飞: 这是个好问题。总体而言,这是重要的,但我认为我们需要更细致地看待它。
比如说,即使是可解释性也有不同的层次。大家都知道泰诺(Tylenol)对发烧和头痛有效,但你能解释它的分子作用路径吗?实际上,科学家到今天还没有完全搞清楚细节。但你不会说泰诺是无法解释的药物,因为围绕药物开发有一整套体系,包括监管措施和审批流程,这些让公众对其有足够的解释,从而产生信任感。这是一种可解释性的方式。另一种可解释性,比如你从Lafayette开车到这里时,使用了谷歌地图。它会给你几个选项,比如某条路线收费但能节省4分钟,另一条路线可能更拥堵。虽然谷歌地图不会向你解释从A点到B点的具体算法,但你作为用户会觉得有足够的解释来做出选择。
在医学中,我们大多数人都不是医生,无法理解治疗的详细过程,但医生会用某种人类语言向你解释治疗方案。我花时间举这些例子是为了说明,可解释性的重要性取决于使用场景,同时也取决于可解释性的定义。有时候我们不需要分子路径级别的解释,而是需要一种不同层次的解释。因此,回答你的问题:可解释性很重要,但它取决于使用场景,不同的场景需要不同的解释方式。
04
像人类一样的智能,
三年内不太可能出现
主持人:那么,你认为未来3到5年内会发生什么?这些系统目前有哪些最大的局限性?我们在哪些领域可以取得真正的进展?李飞飞: 我不确定你是在问关于语言模型的问题,还是AI整体的问题。
主持人: 嗯,比如说,有些人认为我们可以通过购买更多的GPU来取得巨大进展,比如购买200万个GPU而不是两个GPU,或者使用更多数据,甚至合成数据。
有人说,“Transformers和注意力机制是你所需要的一切”。他们认为只要继续 Scaling Law,就能取得很大进展。而另一些人则认为,现有的AI技术存在根本性的局限性,我们必须探索新的方法,比如神经符号学等。那么,你对这个争论有什么看法吗?
李飞飞: 首先,这些都是很好的观点。实际上,我认为我们正处于真正的AI数字革命中,所以接下来的3到5年将继续在技术上非常激动人心,但同时也会给我们的社会,尤其是政策领域,带来紧张局面。
首先,我深信人类历史上的每一个时刻,科技和科学都有其局限性,但我们总是能够推动前沿不断向前发展。就我个人而言,我对空间智能特别感兴趣,这远远超出了语言的范畴。如果你看人类和动物的智能,语言只是其中的一部分。即使我们在谈论高级智能,人类之所以能够建立文明,依赖的远远不止语言。比如从金字塔的建造,到第一次工业革命中的机器设计,再到DNA结构的发现,甚至电影摄影的发明,这些成就大多依赖于超越语言的空间智能。所以,语言之外的领域肯定会为我们打开新的大门。
从技术上讲,我们仍然可以看到Scaling Law 继续发挥作用,特别是在数据规模上。但我们也开始越来越多地听到,关于数据是否已经接近极限的讨论,特别是互联网上的文本数据。很可能我们确实已经接近了这个极限。但从我所在的高等教育领域来看,我也看到很多科学发现的数据还没有得到充分的收集和利用,从这些数据的数字化到建模,还有很多未被开发的潜力。
我认为未来3到5年内,我们将看到各个领域的科学发现因AI和机器学习而蓬勃发展,这不仅仅是大型基础模型的商业化。我们将看到更多关于空间智能的发展,我个人也参与其中,并对此感到非常兴奋。接下来的3到5年不仅是技术的年代,也是我们如何部署这些模型、如何管理它们的年代。现在在我们所在的加州,已经开始讨论与AI相关的法案了。我个人支持安全措施和政策措施,但也担心即使是出于良好意图的法案,也可能对科学界和开源社区产生意想不到的负面影响。这些问题肯定会在未来的3到5年内逐渐显现出来。
主持人:很多讨论都围绕着人工通用智能(AGI)这个概念。我想问你,你认为这是一个有用的概念吗?人们通常指的是一种可以完成所有经济上有用的任务的AI,不仅限于机器人。你认为这是一个有用的概念吗?还有,有些人说这会在三年内实现,你认为这是否过于乐观?
李飞飞: 有时我在脑海中与AI的先驱们进行对话,像约翰·麦卡锡(John McCarthy)、马文·明斯基(Marvin Minsky)、艾伦·图灵(Alan Turing)等人。他们可能不会称自己为AI的开创者,因为当图灵向人类提出“思维机器”的问题,并最终转化为图灵测试时,AI这个词还没有被发明出来。如果我和这些巨人们对话,我认为他们对AI的定义可能非常相似——那就是智能的通用能力。所以,如果他们把AI看作是这种通用智能能力,那么从学术角度来看,我很难将AI和AGI区分开来,因为它们深深交织在一起。AGI这个词大约十年前才开始流行,更多是来自行业的营销界。当然,这并没有什么不好,但从学术、科学和技术研究者的角度来看,作为一个教育者,我认为我们应该始终追求那些最困难的问题,即使我们一生都未必能够解决它们。
我认为AI这个领域的北极星目标始终是追求通用智能能力。那么,我怎么看待“人工通用智能”(AGI)这个词?没人问过我这个词是怎么来的(笑),不过没关系。
其实AI领域的很多定义,尤其是我们热爱的、仍然相信的定义,和AGI的定义在很大程度上是重叠的。至于三年内能否实现AGI,如果面对风险投资人,我会说“当然可以”(笑)。但面对你,我觉得我们需要负责任地看待这个问题。机器是否会在一些重要任务上超越人类?我们已经在某些领域做到了,比如2006年DARPA的无人驾驶汽车挑战赛,我的同事Sebastian Thrun带领团队在内华达沙漠中驾驶了138英里的无人驾驶汽车,这就是一个了不起的能力展示。我们还有机器翻译,能够翻译几十种语言,这是非常出色的能力。还有AlphaFold、AlphaGo,甚至ImageNet,它能识别上千种复杂的物体类别,比如星鼻鼹、各种犬种等等,这些都是超越人类的能力。
所以我们已经在某些方面取得了超人类的成就,并且未来会继续取得一些进展。但如果要定义全面的、像人类一样复杂的智能能力,我认为三年内不太可能实现。
05
AI时代最大的风险是「无知」
主持人:有很多人列出了AI潜在的风险,比如你已经提到的一些问题:人们会失去工作、使用深度伪造来干扰选举、AI会加剧已有的偏见。还有一些更具投机性的担忧,比如“工具收敛”理论:如果我们给AI一个目标,它可能会为了实现这个目标而生成子目标,比如复制自己并获取更多的计算资源。你认为这些风险中哪一个最值得认真对待?
李飞飞: 的确,每一项强大的技术都会造成伤害,或者被用于伤害他人,即使本意是好的,也可能带来意外的后果,我们必须面对这一点。但如果你让我选一个风险,作为一名教育者,我会说,拥抱AI新时代的最大风险是无知。这里的“无知”不仅仅指不知道如何拼写“AI”这个词,而是指即使是一些非常有知识的人,在忽视细节和复杂性的情况下,以夸张的方式传达AI,这也是一种风险。
如果我们对这项技术过于无知,就会错失利用它为我们带来好处的机会;如果我们对它无知,就无法识别出实际的风险;如果我们散布无知的信息,就会误导公众或政策制定者。因此,很多问题的根源实际上都源于对AI的缺乏了解,导致我们没有正确评估风险,或者以夸张的方式传达风险,或者完全忽视了问题。
主持人:现在你看到的一些例子中,有哪些是你认为人们完全误解了AI?
李飞飞: 我认为任何人如果说“AI是完全好的”,或者“技术是完全好的”,那显然是一种对历史的无知。
我们回顾人类历史,任何工具都会被用于有害的目的。所以我们必须承认,如果你的数据集有偏见,那么在公平性方面就会产生非常不好的影响。如果你不了解AI的制作过程,你可能在不知情的情况下与深度伪造共事。
所有这些都是不好的现象,但还有另一个极端的观点,认为AI是如此的恶魔,导致存在的危机论,它会自行复制、关闭电网等。我认为这种观点也是夸张的,它忽略了AI并不是一个抽象的概念,它实际上存在于物理系统中。即使是虚拟的软件或数字程序,它仍然依赖于物理系统,存在于数据中心、在电网中、在人类社会中。因此,很多东西是被绑定的、有上下文的。那些夸张的假设并没有考虑到这些现实。
主持人:不过,提出这些更具投机性的担忧的人,比如Geoffrey Hinton,他显然非常了解这项技术。你认为为什么这些深度参与技术开发的人,近年来变得更加担忧了呢?
李飞飞: 首先,我非常尊敬Geoffrey 。我自研究生时期就认识他了。实际上,去年我在多伦多与Geoffrey 进行了公开讨论,讨论的正是这个问题,这段对话现在还在YouTube上。这是Geoffrey 与我,或者说Geoffrey 里与其他人,极少数公开讨论这一话题的例子之一。
如果你仔细听他的发言,他确实在表达担忧,并指出了潜在的风险。但我们也需要认识到,他的担忧在某种程度上被放大了。我完全尊重与Geoffrey 的讨论,我同意他的观点:不负责任地使用这项技术将导致非常严重的后果。他有他认为的不负责任的使用方式,我也有我自己的看法。我尊重每个人以自己的方式提出风险,但作为一名负责的传播者和教育者,我希望向公众传达这样一个信息:掌控和管理这项技术仍然是我们人类的集体和个体责任。而且不仅时间充裕,我们还有足够的控制权,不应该轻易放弃这种责任。
更多阅读
万字探讨:国内AI应用创业陷入恶性循环,问题在哪里,出路是什么?Spotify、Nothing和Arc创始人聊AI产品及交互:Agent会取代所有app吗?
o1发布后,信息量最大的圆桌对话:杨植麟、姜大昕、朱军探讨大模型技术路径
Claude工程师聊prompt:不要把模型当小孩子、不需要角色扮演、实话实说
转载原创文章请添加微信:founderparker