查看原文
其他

专访OpenAI创始成员Andrej Karpathy:相比较与人类工作,他相信当前AI技术在某些方面能力已经远超人脑

AI工作坊 AI深度研究员
2024-11-09

(关注公众号并设为🌟标,获取最新人工智能资讯和产品)

全文约14,000 字,阅读约需 29分钟

在人工智能这场变革中,Andrej Karpathy(安德烈·卡帕蒂)无疑是一位举足轻重的人物。

作为OpenAI的联合创始团队成员和前特斯拉无人驾驶汽车领军人物,Karpathy近期接受了《No Priors》的专访,分享了他对AI发展、无人驾驶未来以及人工智能如何塑造我们生活的深刻见解。

在访谈中,Karpathy揭示了一个令人耳目一新的观点:特斯拉不仅仅是一家汽车公司,而是一家"大规模的AI机器人公司"。特斯拉的核心不在于简单地制造汽车,而是在创造制造汽车的机器,这体现了一种全新的思维方式。这种跨领域的技术应用不仅展示了AI系统的惊人灵活性,也预示了未来机器人技术与无人驾驶技术的深度融合。

在谈到AI领域的最新进展时,Karpathy特别强调了AI的Transformer技术的革命性影响。他将Transformer描述为一种"可微分计算机",能够通过数十亿参数的训练自动组织成执行复杂任务的系统。尤其在很多方面Transformers实际上比人脑更高效。它们之所以表现不如人脑,主要是数据问题。

如果你给Transformer一个序列,它只需要前向和反向传播一次,就能记住整个序列。如果你给它一些元素,它会自动补全余下的部分,而人类是不可能在一次展示后记住整个序列的。所以,我相信当前以Transformer为核心的AI技术在某些认知任务上可能会胜过人类。


专访要点:

  1. 无人驾驶与AI的现状
  • Andrej讨论了他在特斯拉领导自动驾驶团队的经历,并表示我们现在已经有真正的全自动驾驶汽车。他认为自动驾驶的技术进步类似于AGI的发展,有很大的潜力。
  • 他回顾了10年前体验自动驾驶技术的早期版本,指出从演示到实际产品化的转变需要很长时间,主要因为产品化过程涉及到更多的挑战,包括技术和监管方面的问题。
  • 他对特斯拉和Waymo的自动驾驶技术进行了比较,认为尽管Waymo看起来领先,但特斯拉在软件方面具有更大的优势,未来在规模化部署上可能会占据主导地位。

  1. 机器人与无人驾驶的联系
  • Andrej谈到他在特斯拉开发人形机器人(Optimus)的经历,认为汽车和机器人其实是非常相似的,它们都是复杂的自动化系统。
  • 特斯拉的机器人最初甚至使用了汽车的神经网络模型,虽然有所调整,但他认为机器人技术可以从自动驾驶技术中受益很多。

  1. AI在人形机器人领域的应用
  • Andrej认为机器人技术的初期应用将集中在B2B领域,例如工厂中的物料搬运工作。他对家用机器人(如做家务的机器人)的发展持谨慎态度,认为这种应用在早期存在法律责任问题。
  • 他对未来机器人能执行复杂任务充满期待,例如机器人可以完成类似吹树叶这样的小型任务。

  1. Transformer技术与AI的未来
  • Andrej对Transformer技术表示赞赏,认为这种架构在AI领域是革命性的,并且可能比人类大脑在某些方面更高效,特别是在记忆和计算能力方面。
  • 他指出,未来AI的发展重点不再是网络架构的创新,而是如何通过更好的数据集和训练方法来优化现有模型。

文稿整理

主持人: 大家好,欢迎收听《No Priors》。今天我们邀请到了不需要过多介绍的Andrej Karpathy。他是备受尊敬的研究员、AI教育家,同时也是魔方爱好者。他曾是OpenAI的早期团队成员,后来成为特斯拉Autopilot项目的负责人,目前正致力于AI在教育领域的应用。今天我们将与他讨论人工智能的现状、他的创业公司,以及未来的AI发展方向。感谢你今天的到来,很高兴能邀请到你。

嘉宾Andrej Karpathy: 谢谢,我很高兴能来到这里。


1、无人驾驶结合AI技术

主持人: 无人驾驶技术的发展,您曾领导特斯拉的Autopilot项目。如今,真正的自动驾驶乘用车已经上路。您如何看待当前技术能力的现状?我们应该多久才能看到更多的自动驾驶功能普及或乘用车广泛应用?

Andrej Karpathy: 嗯,我在无人驾驶领域工作了大概五年时间。我认为这是一个非常迷人的领域。目前这个领域的现状是, 我觉得我会将无人驾驶与通用人工智能(AGI)联系起来,也许是因为我对此比较熟悉。但我确实觉得我们在无人驾驶领域有点像是达到了AGI的阶段。现在的系统可以让你作为一个普通的消费者在城市中使用,比如在旧金山,Waymo很常见。你可以乘坐Waymo的无人驾驶车,我也坐过几次,体验非常棒,它可以带你到各种地方,而且你是付费使用这个产品。有趣的是,我第一次体验Waymo是在差不多十年前,大约是2014年。当时是我的一个朋友在那家公司工作,他给我展示了自动驾驶技术,车子带我绕了几圈,当时表现就几乎完美了。然而,从那个时候的演示,到今天我们可以付费在城市规模上使用这项技术,花了整整十年。这是一个很长的过程。

主持人: 你觉得这是因为监管问题还是技术本身的问题?技术是什么时候准备好的?

Andrej Karpathy: 我认为技术早在那时就已经接近了,只是你在短短的30分钟演示中看不到所有它们花十年时间去处理的问题。演示和产品之间有很大的差距,我觉得这其中有很大一部分也与监管有关。但我确实认为,我们在自动驾驶领域已经实现了某种程度的人工智能。然而,更有趣的是,全球化的普及还远没有发生。你有一个演示版,你可以在某个特定城市使用,但全球范围内的变化还没有发生,这将需要很长的时间。因此,从演示到全球普及之间存在一个巨大的差距,我认为这与AGI类似。我怀疑当我们达到AGI时,可能也会经历类似的情况。

主持人: 在无人驾驶领域,人们似乎普遍认为Waymo领先于特斯拉。你怎么看?

Andrej Karpathy: 我个人认为特斯拉其实是领先Waymo的,尽管表面上看不出来,但我对特斯拉及其无人驾驶项目非常有信心。我认为特斯拉面临的是软件问题,而Waymo则更多是硬件问题。我觉得软件问题相对更容易解决。特斯拉已经在全球范围内部署了大量的车辆,一旦特斯拉的技术成熟并成功部署,我认为它会非常令人惊叹。昨天我刚刚试驾了最新的系统,进展非常明显。我最近一直在使用它,效果相当好。昨天它为我进行了几次非常惊人的自动驾驶操作,我对团队的进展印象深刻。因此,我仍然认为特斯拉主要面对的是软件问题,而Waymo更多是硬件问题。虽然现在看起来Waymo似乎占上风,但如果我们展望十年后,看看谁在规模上领先、谁的收入占比更大,我还是觉得特斯拉会占据优势。

主持人: 你觉得我们离解决软件问题还有多远?什么时候能达到类似的水平?

Andrej Karpathy: 我希望是在接下来的几年内实现。实际上,有趣的是,可能很多人没有意识到,特斯拉确实也使用了许多昂贵的传感器,只不过是在训练阶段而非部署阶段。很多车在测试时装有激光雷达等高级传感器,用于收集数据,进行地图绘制等工作。然后,这些数据被精炼为一个仅依赖视觉的系统,部署到车上。这相当于是通过这种方式在传感器和成本之间进行套利。

主持人: 我觉得这是一个非常聪明的策略,但可能还没有被完全理解。我认为这会是一个成功的策略,因为像素中包含了所有信息。我觉得网络将能够处理这些信息。是的,在训练阶段这些传感器确实非常有用,但在实际使用时它们的作用并不那么大。你怎么看这一点?现在有一个很明显的转变,从设计大量边缘案例的规则方法转向了端到端的深度学习。你能稍微讲一下这个变化吗?

Andrej Karpathy: 我觉得这一直是从一开始在特斯拉的计划。当时我就说,神经网络会逐步取代整个技术栈。刚加入特斯拉时,系统中有大量的C++代码,而现在在车上运行的C++代码已经少了很多。不过在后台仍然有很多内容,神经网络逐渐替代了这些系统。最初它只是做图像级别的检测,然后通过多帧图像做预测,再经过多帧图像的时间预测,最终取代C++代码并发出转向命令。所以我认为特斯拉正在逐步吃掉这个技术栈。据我了解,Waymo目前还没有做到这一点,虽然他们尝试过,但没有成功。不过我确实相信这种方法,并且我觉得这是最后一个要突破的环节。最终,我怀疑特斯拉的系统在10年后会是一个端到端的神经网络,视频流进神经网络,输出命令。你必须一步步积累,逐步构建出这个系统。即使是中间预测和我们已经做出的其他事情,我觉得它们并没有误导开发,它们实际上是这个过程的一部分。

在驾驶过程中,当你模仿人类行为时,你的监督信号非常少,这意味着很难用这些少量的信号去训练一个拥有数十亿参数的庞大神经网络。所以这些中间表示帮助我们开发特征和检测器,使端到端的实现变得更加容易。我猜想特斯拉在进行大量的预训练,以便后续能够进行端到端的微调。所以,我认为逐步吃掉这个技术栈是必要的,这正是特斯拉所做的,我觉得这是正确的策略,而且看起来它正在奏效。

主持人: 如果一开始就做端到端的系统,你也没有足够的数据,那确实是合理的。你之前还参与了Optimus机器人和无人驾驶模型的训练。我的问题是,技术转移是如何实现的?

Andrej Karpathy:  基本上所有的东西都可以转移,我觉得人们还没有完全意识到这一点。

主持人: 这是一个很大的观点。

Andrej Karpathy: 从本质上讲,汽车也是机器人。当你仔细想想,特斯拉其实不是一家汽车公司,我认为这是个误解,它是一家大规模的机器人公司。我觉得规模也是一个重要的变量,特斯拉不仅仅是在制造汽车,它是在制造制造汽车的机器,这完全是另一种思维方式。在从汽车到人形机器人Optimus的技术转移中,工作量其实不大。早期版本的Optimus机器人甚至认为自己是辆汽车,因为它使用的是同样的计算机、同样的摄像头。我们在机器人上运行了汽车网络,看到它在办公室里行走的时候特别有趣。它试图识别可行驶的空间,但其实它走的都是人行的空间,不过它的表现还不错,只是需要一些微调。

主持人: 听起来这个技术转移过程相当顺利,尤其是Optimus项目启动的速度。

Andrej Karpathy: 对我来说,这确实很令人印象深刻。一旦马斯克宣布我们要做这个项目,相关的工具、CAD模型、供应链等所有东西就迅速到位了。我觉得特斯拉内部有非常丰富的机器人构建经验,而且工具都是现成的,只是从汽车转移到机器人上,就像电影《变形金刚》那样,系统被重新配置,但本质上还是相同的。无论是硬件还是软件部分,甚至在大脑(控制系统)方面,也有大量的技术转移。不仅仅是具体的神经网络,包括整个团队的标签方法、协调方式等,都是转移过来的。

2、人形机器人应用场景

主持人: 你觉得人形机器人未来的首个应用场景会是什么?很多人设想它们会帮助洗衣服等家务,但你认为这会是最先实现的应用吗?

Andrej Karpathy: 我觉得家庭应用可能会来得比较晚,我不认为B2C(面向消费者)市场会是一个好的起点。我不认为我们现在能有一个机器人去“照顾”祖母,因为这可能会带来巨大的法律责任。这种情况下,机器人可能会摔倒或者出现别的问题,这些技术还不够完美,还需要一定的改进。所以,我认为最好的客户首先是自己。我觉得特斯拉可能会率先这样做,我对特斯拉的未来非常看好,大家应该能看出来。首先自己是客户,你可以在工厂内孵化这些技术,比如处理大量的物料搬运工作等等。这样你就不需要与第三方签订合同,也不会涉及复杂的法律问题,可以完全内部操作。然后你可以走向B2B(企业对企业),为拥有大量仓库的公司提供物料搬运服务等。这种情况下,合同会逐步签订,围栏会设立好,所有这些问题都会得到解决。一旦你在企业中孵化好了,我认为这时你才可以进入B2C(企业对消费者)的应用领域。

主持人: 你觉得B2C的机器人会不会很快出现?

Andrej Karpathy: 我认为我们确实会看到B2C的机器人,比如Unitree等公司已经开始推出我很想要的机器人了。我买了一个。

主持人: 你买了一个?是G1吗?

Andrej Karpathy: 是的,G1。我可能还会买一个。我觉得围绕这些平台的生态系统也会逐步发展起来,但如果从规模化胜出的角度来看,我认为我们会看到的是一个渐进的过程。首先可能是大量的物料搬运工作,然后逐步走向更加高级、更加具体的任务。我特别兴奋的一个任务是N. Freedman提出的“吹叶机挑战”。我特别希望能看到一个Optimus机器人在街上行走,轻轻走过街道,一片一片地捡起落叶,这样我们就不需要吹叶机了。我觉得这个任务是可行的,而且非常棒。我希望这是早期的应用之一,甚至是用机器人去耙树叶,这也应该是可行的,只是安静地耙树叶。

主持人: 嗯,这确实很有趣。其实已经有一些机器在做这些工作了,只不过它们不是人形机器人。我们能聊聊人形机器人的设计理念吗?最简单的版本是世界是为人类设计的,因此你应该设计一套能够在这个硬件环境中执行越来越多任务的模型。另一派观点是,为什么不设计出能够比人类更强大、更灵活的机器?你怎么看这个问题?

Andrej Karpathy: 我认为人们可能低估了为任何单一平台投入固定成本的复杂性。我觉得为任何一个平台投入的成本都非常大,所以我认为集中力量开发一个能够执行所有任务的单一平台是非常有道理的。我认为人形机器人特别吸引人的一个方面是,人类可以很容易地远程操作它,这在数据采集上非常有帮助。因为人类可以非常简单地远程操控它,我觉得这一点经常被忽视。当然,你提到的另一个关键点是,世界是为人类设计的,所以这一点也很重要。我认为未来我们可能会有一些人形机器人平台的变种,但无论如何,任何平台的固定成本都是非常高的。再有一点就是,任务之间的迁移学习带来的好处非常大。在人工智能领域,你希望有一个单一的神经网络能够处理多任务,这就是我们从中获得智能和能力的来源。这也是为什么语言模型如此有趣,因为你有一个单一的文本领域,解决了很多不同的问题,并且这些问题之间相互共享知识,所有这些都集中在一个神经网络中。我认为你需要这样的平台,所有你为捡落叶收集的数据都能为其他任务提供帮助。如果你为每一个任务都单独开发一个专用系统,那就无法从其他任务的迁移中受益。

主持人: 有人会争论说,目前的G1售价是三万美元,要构建一个非常强大的机器人,可能很难做到在硬件成本上控制到一定程度。你觉得如果用轮子取代脚,或者采用其他简化的设计,能不能在起步阶段降低成本?

Andrej Karpathy: 我觉得这有道理,用轮子代替脚确实是一个降低成本的方法。但我担心这样可能会让你陷入一个局部最优的状态。我觉得选择一个平台并把它做到极致,可能是一个长期的良好策略。还有一点,我认为人形机器人会让人感到熟悉,人们可能会更容易与它进行互动,也许你会想和它对话。我觉得从心理层面来说,人形平台可能会更有优势,除非人们感到害怕,反而更喜欢一个更加抽象的形态。不过我不确定,如果只是一个怪物在做事情,那会不会显得更友好。就像Unitree的另一种形态是“机器狗”,它看起来更加亲切、熟悉。但是一旦人们看了《黑镜》这种剧,机器狗瞬间就变得可怕起来了。所以,确实很难预测人们会怎么想。不过我觉得从心理学的角度来看,人们能够更容易理解眼前发生的事情。

主持人: 你觉得在实现机器人未来的过程中,还有哪些技术上的障碍?无论是人形机器人还是其他形式的机器人。

Andrej Karpathy: 我不确定我是否有一个非常清晰的答案。不过我觉得在人形机器人的下半身上,可能不太适合使用模仿学习,因为下半身涉及很多像倒立摆控制等技术。上半身则需要更多的远程操作、数据收集以及端到端的训练。因此,我认为这个系统是非常混合型的。我与从事机器人技术的人交谈时,发现他们关注的很多都是执行机构、操控以及数字操控等问题。我预计,在一开始,机器人很多工作都要依赖远程操作,先从地面上模仿人类行为,然后逐步达到95%的成功率,再讨论机器人与人类的比例。随着时间的推移,机器人可能会由人类监控,而不是由人类直接执行任务。我不认为目前有哪个特定的技术障碍让我特别担忧,我觉得更多的是大量的基础工作。现在工具已经可用,Transformers是非常强大的“神经组织”,你可以用它来解决各种任务。你只需要数据,将其放入正确的形式,进行训练、实验、部署、迭代。整个过程就是大量的基础工作。我不认为有任何一个单一的技术点在阻碍我们。


3、Transformers的特性

主持人: 在大规模神经网络研究的现状上,我们处于什么阶段?

Andrej Karpathy: 我们处于一个非常好的阶段。我不确定大家是否充分认识到Transformers技术的强大之处。它不仅仅是另一种神经网络,它是一种非常惊人的神经网络,极其通用。举个例子,当人们谈论神经网络的扩展定律时,这在很大程度上是Transformers的特性。之前人们在尝试用LSTM进行堆叠训练时,并没有得到很好的扩展定律,而且这些网络往往难以训练。而Transformers是第一个真正具有扩展性并能被训练的系统。我把它看作是一种通用的“可微分计算机”,你可以给它输入和输出,然后通过反向传播训练数十亿个参数,它就会自动组织成能够执行任务的系统。我认为这是我们在算法空间中的一次重大突破。这个突破背后有几个关键创新:残差连接、层归一化、注意力机制以及移除会杀死梯度信号的非线性函数(如tanh),这些都是重要的组成部分。Google的论文成功将这些元素整合在一起,形成了一个可以成功训练的大规模模型。

主持人: 你觉得我们离这种技术的极限还远吗?现在有一种讨论是,数据壁垒和另一个扩展阶段的高昂成本会成为瓶颈,你怎么看待这个问题?

Andrej Karpathy: 我认为目前神经网络架构已经不是阻碍我们进步的关键瓶颈了,而在Transformers出现之前,它确实是一个瓶颈。现在我们更多在讨论的是损失函数和数据集,它们才是新的瓶颈所在。Transformers已经成为一种通用的“神经组织”,能够根据任务需求进行自我配置。现在很多公司的焦点也不在Transformers的架构本身上了,他们不再讨论它的结构。比如Llama的发布中,Transformers本身的改变很小,最大的变化是引入了Rope相对位置编码。其他的改进并没有太大影响,可能只是小幅度的3%的性能提升而已。事实上,唯一的创新就是加入了Rope编码。这是Transformers在过去五年里唯一的变化,几乎没有其他重大创新。大家现在都理所当然地使用它进行训练,所有的创新基本上都集中在数据集和损失函数的细节上。现在,所有的活动都是围绕这些展开的。

主持人: 但是关于数据的一个问题是,当我们以前使用互联网数据时,训练会容易得多。而现在我们已经几乎用完了互联网数据,所以问题集中在合成数据或更昂贵的数据收集上。你怎么看这个问题?

Andrej Karpathy: 我认为你提到的这一点很重要。这也是为什么现在大模型的研究大多集中在这些领域。互联网数据其实并不是你真正想要用于Transformer的数据。它能让你走得很远,这确实令人惊讶,因为互联网数据有足够的推理痕迹和大量的知识,Transformer能让这些数据发挥作用。不过,互联网数据本质上是网页,而你真正想要的是你大脑中进行问题解决时的内在思维轨迹。如果我们能拥有数十亿这样的数据,AGI就差不多实现了。目前的研究重点是如何将数据集转化为这种内在思维轨迹的形式。我认为在这方面合成数据的生成非常有帮助。更有意思的是,现有模型在帮助我们创造下一代模型方面的作用越来越大,像是逐步攀升的阶梯。

主持人: 你认为合成数据能带来多大帮助?因为正如你所说,每一代模型帮助我们更好地训练下一代模型,尤其是在数据标注等方面。那么你觉得合成数据的作用有多重要?

Andrej Karpathy:  我认为这是我们唯一能够取得进展的途径。我们必须让它起作用,但在使用合成数据时必须非常谨慎。因为这些模型有一个问题,就是“沉默崩溃”。举个例子,如果你让ChatGPT讲个笑话,它可能只知道三种笑话。通常它只会给你讲一个笑话,有时候会给你两个或三个。这是因为模型的输出分布实际上已经“崩溃”了,而这是“沉默”的,你看单个输出时是看不出来的,但从整体分布来看,它的多样性已经大大减少。在生成合成数据时,这个问题尤为严重,因为你需要的是数据集中的熵和多样性,否则你得到的是一个“崩溃”的数据集。从单个例子中你看不出来,但分布中的多样性和丰富性已经丧失。因此,你必须非常小心,确保保持数据集中的熵。比如,有人发布了一个名为Persona的数据集,其中包含了10亿个人物性格信息,比如“我是老师”或者“我是艺术家,我住在哪里”等等。这种数据集不仅要求模型完成任务,还要求它模拟向特定对象描述信息的过程,从而强制模型探索更多的空间,增加数据集的多样性。

主持人:  所以你认为合成数据绝对是未来的方向?你认为我们不会缺乏数据,对吗?

Andrej Karpathy: 是的,我认为我们不会缺乏数据,只是必须小心使用合成数据。

主持人:  在这项研究中,你觉得我们在理解人类认知方面学到了什么?

Andrej Karpathy: 我不确定我们是否真正学到了很多。有些人可能会认为,推理轨迹的研究能帮助我们理解大脑的工作方式,但我对此持谨慎态度。不过,我确实认为两者之间有一些类比。比如,我认为在很多方面Transformers实际上比人脑更高效。它们之所以表现不如人脑,主要是数据问题。如果你给Transformer一个序列,它只需要前向和反向传播一次,就能记住整个序列。如果你给它一些元素,它会自动补全余下的部分,而人类是不可能在一次展示后记住整个序列的。所以,我认为Transformer在某些认知任务上可能会胜过人类。以当前的输入为基础,我相信它们未来在某些方面会比人脑表现得更好。这其实和计算机在很多应用场景中胜过人类是一样的道理,比如在记忆力上。我觉得人类大脑有很多限制。比如工作记忆非常小,而Transformers的工作记忆要大得多,而且这种差距还会继续存在。Transformers是更高效的学习者,而人类大脑则面临各种限制。很显然,人类大脑的工作机制并不是反向传播,它的运作方式是非常随机的动态系统,还要应对很多环境条件的限制。所以,我确实认为我们现在拥有的技术可能已经比大脑更好,只是还没完全发挥出来。

主持人: 你怎么看待人类认知与人工智能能力的结合呢?你觉得这是一个可能的发展方向吗?或者说这不太可能?

Andrej Karpathy: 当然,我觉得是非常可能的,但你具体是指哪种结合呢?

主持人: 我是指人类与人工智能模型的结合。

Andrej Karpathy: 哦,绝对可能。我觉得在某种抽象意义上,这已经在发生了。你可以把它看作是工具的外部使用形式,这就是一种结合。还有一种结合是人们经常提到的“合并场景”,比如Neuralink的构想。

主持人:对,我们实际上已经开始“合并”了。问题是,现在的瓶颈在于输入输出的速度。虽然现在这些模型都在我们指尖下,但人们已经讨论了几十年,技术工具不过是人类能力的延伸。

Andrej Karpathy: 没错,计算机就是人类大脑的自行车。

主持人: 不过,AI界的一部分人认为,未来我们与AI的潜在冲突可能会通过某种形式的合并来解决,比如Neuralink的理念。

Andrej Karpathy: 是的,我不确定这种“合并”最终会是什么样子,但我确实可以看到,人们会希望减少与工具的交互瓶颈。我把这种结合视为我们新皮层上的一个“外皮层”,它是大脑的下一个层级,只不过它存在于云端而已。它实际上就是大脑的下一个扩展层。

主持人: 《Accelerando》这本书里提到了一种类似的设想,书中描述了人们戴着一副与大脑计算能力相连的眼镜,一旦失去了眼镜,人们会感觉失去了自己的一部分记忆或个性。

Andrej Karpathy: 我觉得这非常有可能。今天手机已经差不多是这个角色了,而且情况可能会更糟。如果你把这些技术设备放在一边,你就像回到了原始状态,变成了一个没有智慧的人类。这种感觉很让人焦虑。

主持人: 一个简单的例子就是地图。现在很多人已经不会在城市里自我导航了,因为他们总是依赖转向导航。如果有了通用翻译器,人们可能会失去与不会讲英语的人沟通的能力。如果没有设备的帮助,你就无法与他人交流。

Andrej Karpathy: 我对这种能力的“转移”感到很自在。你可能看过一个视频,小孩子试图在纸质杂志上滑动,因为他觉得杂志像是一个屏幕。这个现象很有趣,因为这些孩子分不清哪些是自然的,哪些是技术附加的东西。技术已经变得如此透明,我觉得未来的世界可能也是这样。人们可能会逐渐默认工具的存在,一旦工具被拿走,他们才意识到自己失去了什么。

主持人: 对,如果你总是戴着一副翻译器,它为你做了很多事情,那么人们可能会逐渐失去一些基本的认知能力。

Andrej Karpathy: 是的,我认为人类会逐渐专注于某些特定的能力。如果你不能理解说西班牙语的人,那就会变得很奇怪。或者像在迪士尼乐园里,所有的物体都活了过来。我觉得我们可能会进入那样的世界——为什么我不能与物体交流呢?今天你已经可以和Alexa对话了,还能让它为你做一些事情。

主持人: 我看到一些玩具公司也在做类似的事情,他们试图把大语言模型嵌入玩具中,让它们可以与孩子互动。

Andrej Karpathy: 对啊,这真奇怪。为什么当你走到一扇门前,不能对它说“开门”呢?这真让人费解。

4、AI生态系统

主持人: 这让我想起了电影《毁灭者》和《我,机器人》。人们总是取笑这些设想,觉得你不可能对物体说话,但实际上我们可能会进入这样的世界。关于“外皮层”,你觉得民主化获取这种技术是不是很重要?

Andrej Karpathy: 是的,我觉得这很重要。当我们开始把这种技术视为大脑的“外皮层”时,市场结构就变得至关重要了。现在的AI研究生态系统有点像寡头垄断,只有少数大公司有能力推进下一代训练技术。开放平台,如Meta的Llama,相比之下进展较慢。这种现象与开源生态系统非常相似。

主持人: 在加密领域有一句话叫“没有你的私钥,就没有你的代币”。那么,是否可以这样类比——“没有你的模型权重,就不是你的大脑”?这很有趣,因为一家公司实际上控制了你的“外皮层”,如果这是我的外皮层,我想人们会更加关心对它的所有权问题。

Andrej Karpathy: 是的,就像你突然意识到自己在“租用”自己的大脑,这确实有些奇怪。你愿意为了一个更好的大脑而放弃所有权和控制权吗?我愿意。

主持人: 我觉得这是一个权衡问题。我们将看到这种方式是否奏效。也许默认情况下,人们会使用那些封闭的版本,因为它们非常出色,但在某些情况下你可以回退到开放生态系统,比如完全由你自己控制的开源模型,人们会因此感到有掌控感。

Andrej Karpathy: 这可能就是未来大脑的样子——如果出现问题,你可以回退到开源生态系统,但大多数时候你还是会使用封闭的系统。因此,确保开源技术的持续进步非常重要。

主持人: 我完全同意,这一点现在可能还没有被广泛认同,但我认为开源系统的持续发展至关重要。我最近一直在思考一个问题:我们能构建的最小的高性能模型有多小?不论是参数量还是其他方面,你怎么看这个问题?

Andrej Karpathy: 我认为模型可以非常小,而且我相信当前的大模型浪费了大量容量去记住一些无关紧要的东西,比如它们记住了SHA哈希值,记住了一些古老的内容,因为数据集没有得到很好地整理。我觉得这些问题都会逐渐消失。我们只需要找到“认知核心”,而这个认知核心可以非常小。它只负责思考,遇到需要查找的信息时,它知道如何使用各种工具。大概一个十亿参数的模型就足够了,甚至可能更小。

主持人: 你觉得一个十亿参数的模型就能实现这种认知核心?

Andrej Karpathy:,我认为可能连十亿都太多了。我们可能会看到模型变得非常小。原因在于蒸馏技术的有效性。蒸馏过程可以把一个非常大的模型的能力压缩到一个小模型里,而这个小模型依然可以表现得非常好。

主持人: 这是否有某种数学上的表示方式,或者信息理论上的公式?似乎我们应该能够计算出最小的认知核心所需的模型大小。

Andrej Karpathy: 也许我们可以从互联网数据集入手。互联网数据大概只有0.001%的数据是用于认知的,而剩下的99.99%都是无关的信息。我认为大多数数据对“思考”部分并没有太大帮助。也许我们可以这样思考问题:如何用数学方式表示认知能力与模型大小的关系?

主持人: 对,我觉得这个问题很有意思。你觉得是不是可以通过某种方式表示认知能力与模型大小的关系?

Andrej Karpathy: 我认为也许一个十亿参数的模型就能提供足够好的认知核心,甚至连一亿参数可能都太多了。不过我们还需要进一步观察,确实令人兴奋。尤其是当你考虑到在边缘设备上运行这样的模型,或者是在云端运行,这个话题真的很让人期待。

主持人: 如果在本地设备上运行一个小于十亿参数的模型,那就非常令人激动了。

Andrej Karpathy: 而且这可能不只是一个模型。我觉得我们最终可能会看到模型的并行化,因为我们不希望有一个串行的过程,而是需要并行的处理。公司本质上也是一种并行化的工作方式,但公司内部存在层级结构,这是为了处理信息传递和减少冗余。

主持人:  你觉得未来的模型会不会像公司一样,有不同能力的模型专门负责不同的领域?

Andrej Karpathy:  是的,我觉得这非常可能。未来你会有专门的程序员模型、项目经理模型等等,它们像公司一样并行工作,最终协调完成任务。


5、从事AI教育方面工作

主持人:  也许不应该把它看作是单一的模型,而更像是一个生态系统,就像一个生物生态系统,有不同的角色和生态位。我觉得未来的人工智能可能会像这样,自动将问题分配给团队中的其他部分,取决于问题的难度。比如,CEO可能是一个非常出色的云端模型,而一些基础工作则可以由成本更低的开源模型来完成。每个人的成本函数都不同,这很有意思。你离开了OpenAI,现在在从事教育方面的工作。你一直以来都是一名教育者,为什么会选择做这件事呢?

Andrej Karpathy: 我一直都是一名教育者,我热爱学习,也热爱教学。所以这一直是我非常有激情的领域。另外,我觉得有一个大的趋势驱动着我:现在AI领域有很多活动,其中大部分都是在替代或取代人类的工作,但我一直更感兴趣的是如何利用AI来赋能人类。我觉得自己是“人类团队”的一员,我关心的是AI如何帮助人类,而不是让人类被边缘化。我希望人类在未来能够更加出色,甚至比今天更加优秀。另一个让我感兴趣的方面是:如果一个人拥有完美的导师来学习所有科目,他能够走多远?我认为如果人们有一个完美的课程体系,他们可以走得非常远。我们已经看到一些富人雇佣私人导师,他们确实能走得很远。我认为我们可以通过AI来实现这一点,甚至超过它。其实从20世纪80年代开始就有明确的文献表明,一对一的辅导可以让学生的表现提高一个标准差,甚至是两个标准差。

主持人: 是的,这是布鲁姆的研究,特别有意思。那么你如何通过AI实现这一点呢?你觉得最先能帮助实现这一目标的产品会是什么?

Andrej Karpathy:  我确实受到一些类似《钻石时代》那种书的启发。目前我正在做的是试图创建一门单独的课程,我希望它能成为你想学习AI时去的课程。我之前在斯坦福大学教过231N课程,那是第一门深度学习课程,效果还不错。但是问题在于,如何让这些课程能够真正规模化,覆盖全球80亿人,他们说不同的语言,拥有不同的能力水平。

一个老师无法应对如此庞大的受众,所以问题是如何利用AI让优秀的老师可以大规模地提供教学服务。我现在的思路是,老师主要负责课程的设计和开发,而AI则负责与学生互动。我认为当前的AI还不足以创建出一门好课程,但它已经能够成为学生的前端,解释课程内容。

主持人: 我能不能把这个类比为AI助教的体验?

Andrej Karpathy: 是的,AI助教的类比是可以的。我主要把它看作是与学生交互的前端,它引导学生完成课程。我认为这在今天是可行的,只是目前还没有这样做。我觉得这可以做得很好,随着AI能力的提升,未来可能会进一步重构这个系统。

主持人: 你之前提到的一个观点特别有启发性,尤其是从你对研究的了解来看。你认为我们目前还不知道人类在更好的工具支持下能达到什么样的学习极限。我觉得这和体育比赛有些类似,比如刚刚过去的奥运会。现在的运动员无论是在跑步还是其他项目上,他们的表现都远远超过了十年前,尽管我们暂且不讨论兴奋剂的影响。这是因为他们更早开始训练,拥有不同的训练计划,我们对科学的理解也更深入了。你相信通过更好的工具和课程,我们作为人类能够走得更远,这非常鼓舞人心。

Andrej Karpathy: 是的,我觉得我们还远未触及可能性的边界。我认为有两个方面非常值得关注:第一是全球化维度,我希望每个人都能获得高质量的教育。第二是个人维度,我想知道一个人能够走多远。这两个方面都非常令人兴奋。

主持人: 通常当人们谈论一对一学习时,他们更多地提到个性化的适应性教学,能够根据每个人的水平提供挑战。你认为现在的AI可以做到这一点吗?还是说目前的重点更多是在于扩展教育的覆盖面,比如多语言支持?

Andrej Karpathy: 多语言是一个非常明显的低垂果实。我认为当前的模型在翻译方面已经非常出色了,基本上能够实时将学习材料翻译成不同的语言。当然有很多东西也都是低垂果实,像是个性化学习的适应性可能不是最低垂的果实,但也不算太遥远。这是你肯定想要的功能,因为并不是每个人都带着相同的背景进入学习。而且如果你之前对其他学科有所了解,能够做出类比,那在教育中是非常有用的。所以这是你一定要利用的维度,但它需要一些工作。最简单的版本可能并不遥远,你可以想象通过提示模型说“我懂物理”或者“我知道这方面的知识”,模型能做出反应。但我说的是一个真正有效的系统,而不仅仅是一个可以偶尔展示效果的模型。我要的是一个真正像人类一样工作的系统。

主持人: 这就是我问适应性问题的原因。因为每个人学习的速度不同,有些人觉得某些东西难学,而别人不觉得,反之亦然。所以问题是如何在这个背景下进行调整。我觉得你可以通过不断引入个人擅长或不擅长的内容,逐步优化模型的表现。

Andrej Karpathy: 是的,我觉得AI的很多能力都只是通过提示实现的。所以你经常能看到展示效果,但很少见到真正的产品。我会说展示效果很近,但要成为真正的产品还很遥远。

主持人: 我们之前讨论过的一个有趣话题是,在研究界的普遍现象。你来自某个实验室,大家都在谈论彼此的实验室背景。很多诺贝尔奖获得者其实曾在同一实验室工作过。这种现象是文化的传播、知识的传播还是品牌的传承?在一个以AI教育为中心的世界里,如何保持这种传承?它还重要吗?

Andrej Karpathy: 我其实不想生活在一个传承过于重要的世界里。我希望AI能够帮助打破这种结构。传承有点像是一种有限资源的门槛,好像只有少数人拥有这种背景。因此,我希望AI能打破这种局限性。当然,实际的学习是一部分,背景传承是另一部分。

主持人: 确实,传承也有聚集效应。为什么很多AI界的人都集中在湾区?为什么大多数金融科技公司都在纽约?这些都是因为你把有共同兴趣和信仰的聪明人聚集在一起,他们会从共同的核心中传播知识。

Andrej Karpathy: 是的,我觉得有很大一部分是教育因素。如果你今天是某个社区的一员,你会获得大量的教育和学徒训练,这能帮助你在某个领域取得成就。另一个因素是文化方面,是什么激励了你,什么是你想要追求的。在学术界,大家看重的是H指数,关心你发表了多少论文。这是我曾经所在的社区,但我后来进入了不同的地方,每个社区都有不同的偶像和价值观。这对人们的动机、社会地位有很大的影响,也决定了什么对他们来说是重要的。

6、个人生活

主持人: 你提到过你来自斯洛伐克,还在加拿大生活过,这些环境和文化有什么不同呢?

Andrej Karpathy: 在加拿大,一个很明显的例子就是冰球。在多伦多大学,我觉得创业并不是一个很普遍的概念。你身边没有朋友在创业,也没人告诉你应该向创业者学习。大家讨论的都是“你在哪里实习,毕业后去哪里工作”,人们觉得有一套固定的公司名单,你要从中选择一个与自己对齐。这就是文化的影响,可能它实际上是主导因素。今天教育资源已经非常丰富,更多的挑战在于你所处的文化。

主持人: 这让我想到我们几周前谈过的一个话题,我记得你还在网上发过相关的内容学习和娱乐之间是有区别的,学习本身应该是有挑战性的。我觉得这和“地位”问题有关,地位是一个很强的动机,比如谁是你的偶像。你觉得通过这样的系统在动机方面能改变多少?如果这是一个障碍因素,你更专注于给人们提供资源,让他们在自己的能力范围内尽可能走得更远,甚至超越历史上任何一个点?还是你希望改变有多少人愿意学习,或者至少让更多人愿意走上学习的道路?

Andrej Karpathy: “愿意”这个词有点复杂,我会说我想让学习变得更容易一些。也许有些人本身就不想学习。今天,人们想学习通常是出于实际原因,比如找工作,这完全合理。在AGI到来之前的社会,教育是有用的,我认为人们会因为这些经济上的原因而有动力去学习。在AGI到来的社会,教育会在很大程度上变成一种娱乐形式。

主持人: 你是指那种有成功结果的教育,而不仅仅是让内容从脑中过滤过去,对吗?

Andrej Karpathy: 是的,我认为结果就是理解和学习,能够贡献新的知识。我觉得这并不是巧合,如果你回到两三百年前,做科学的人都是贵族或富人。未来我们都会像贵族一样学习。我觉得学习就像是大脑的健身房,就像去健身房一样。去健身房是有趣的,很多人喜欢举重等等,虽然有些人不喜欢,但去健身房是需要付出努力的。

主持人: 是的,它确实需要努力,但也有一定的乐趣,而且你也能从中获得回报,让你对自己感觉更好。

Andrej Karpathy: 是的,教育本质上是一样的。所以当我说教育不应该太有趣时,我的意思是,它有它的乐趣,但这种乐趣是特定的。我希望在AGI到来的世界里,人们不仅会经常去健身房锻炼身体,也会经常锻炼大脑。我们应该崇尚那些受过高等教育的人。

主持人: 我可以问你最后一个关于Eureka的问题吗?我觉得观众会对此感兴趣。这个课程的目标受众是谁?

Andrej Karpathy: 我是将它定位为一个本科水平的课程。如果你是一个理工科的本科生,这应该是非常合适的。我认为我们现在的教育概念有些过时了,比如你上完学后毕业,接着就去工作。在一个技术变革非常快的社会中,这种模式肯定会崩溃,人们会更频繁地回到学校学习。所以虽然它是本科水平的,但实际上适合任何年龄、任何技术背景的人。

主持人: 那什么时候可以上这个课程呢?

Andrej Karpathy: 我本希望今年晚些时候能推出,但现在有很多其他事情在分散我的注意力。我想大概会在明年初上线。我正在努力把它做得非常好,这需要时间。

主持人: 最后一个问题,如果你有小孩子,你觉得他们应该学习什么才能在未来有用?

Andrej Karpathy: 在我看来,正确的答案是数学、物理、计算机科学这些学科。原因是我认为这些学科能够锻炼人的思维能力,它们是最好的思维训练核心。当然,我有自己的背景,所以这是我的观点。我觉得我学习物理和其他学科的经历塑造了我的思维方式,非常有助于解决问题。所以无论是在AGI到来之前还是之后,我都认为这些学科能让人们变得更加有能力,能够应对任何情况。

主持人: 我自己学的是数学,我觉得在学习的过程中,感觉大脑里有一条新的思维路径在被开辟,后来再开辟这样的路径就变得困难了。

Andrej Karpathy: 是的,我同意。我当然也支持其他学科,拥有多样化的知识体系是非常美好的事情。但我认为80%的学习应该集中在这些动手操作较多而记忆需求较少的任务上。

主持人: 非常感谢你来参加节目,真的很有趣!

Andrej Karpathy: 很高兴能来到这里!


对了,喜欢就别忘了点赞、收藏、转发支持一下!期待在评论区听到你的观点和看法!

往期回顾

1、[面向所有人:斯坦福大学2024秋季AI课程第一讲 《AI觉醒:如何在人工智能浪潮中找准自己的位置》]

3、[演讲视频:2024年第65届国际奥数大会上,陶哲轩再次表示当前AI进展惊人,智能水平已与人类相当]

3、[对话斯坦福大学吴恩达教授:我们如何将个人专业知识与AI工具无缝结合,塑造职场中的超级个体]


我们旨在将先进科技与创新想法完美融合!

想要掌握人工智能,但不知从何开始?告诉我们你的需求,学习AI让你抓住这波浪潮

告别昂贵服务和缺人烦恼,再见漫长交付周期

无限创意,分分钟生成专业级产品

感受 AI 带来的全新工作体验!

欢迎各大品牌方、媒体、企业和个人等

请联系负责人微信:Milo-1101

--END--

未经许可不得转载,务必保留公众号原文链接和公众号按钮
修改于
继续滑动看下一个
AI深度研究员
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存