特斯拉 Dojo:马斯克「AI 帝国」的基石
特斯拉 Dojo,终于量产了。
按照特斯拉 AI 官方账号在 6 月份发布的消息,2023 年 7 月,Dojo 的量产已经正式开始——从 Dojo 首次公开亮相到正式量产,已经过去了将近两年时间。
但是,对于马斯克来说,如今的 Dojo 已经不仅仅是特斯拉用来在云端训练自动驾驶模型的超级计算机;实际上,它已经成为整个特斯拉 AI 业务体系发展的算力基础设施。
从更大的角度来说,Dojo 其实也是马斯克 AI 野心的关键承载者。
技术硬核程度,是世界级的
从一开始,Dojo 就承载了马斯克在技术维度上的勃勃野心。
2019 年 4 月,在特斯拉自动驾驶日上,马斯克首次谈到了 Dojo,当时他是这么说的:
特斯拉确实有一个重大的项目,我们称之为 Dojo。它是一个超级强大的训练计算机,其目标是能够输入海量的数据并能够在视频层面进行训练……通过 Dojo 计算机,可以对大量视频进行无监督的大规模训练。
所以,Dojo 诞生之初,主要是为了解决海量视频视频带来的模型训练问题。
其实,这里有一个大前提是:伴随着特斯拉车辆的销量增加,以及它要在自动驾驶层面实现的功能复杂度提升,使得特斯拉所要处理的视频数据体量出现了指数级增长,这对特斯拉在云端进行模型训练的能力提出了更高的要求,其中的关键就是算力基础设施。
基于这个前提,马斯克给 Dojo 设定的技术特征是:
拥有大算力,能够处理大量的视频训练数据,能够高效运行带有大量参数、大内存和超高带宽的超稀疏(hypersparce)阵列。
为此,马斯克甚至称之为「野兽」(It’s a beast!)。
从特斯拉在 2021 年和 2022 年两届 AI Day 上公布的相关信息来看,Dojo 确实很好地贯彻了上述技术特征。
比如说,在产品形态上,Dojo 的最终落地单位是一个名为 ExaPOD 的超级计算集群。它集成了 3,000 颗基于 7 nm 制程工艺的 D1 芯片,包含 120 个训练瓦片(training tile),最终能够实现:
高达 1.1 EFlops(百亿亿次浮点运算)的 BF16/CFP8 峰值算力; 1.3 TB 高速 SRAM; 13 TB 高带宽 DRAM。
需要注意的是,作为超级计算集群的 ExaPOD,并不是这台超级计算机的最终形态——理论上,它完全可以根据特斯拉的更大计算需求进行数量上的扩展,从而「堆」出更高的 AI 算力性能。
实际上,根据特斯拉在今年 6 月份发布的算力发展规划,Dojo 将在明年第一季度成为全球排名前五的算力设施,并将在明年 10 月份达到 100 EFlops 的超级算力。
当然,除了硬件之外,为了 Dojo 的运行,特斯拉在软件方面也进行了大量投入。
实际上,秉承着软硬件一体化和全栈自研的原则,特斯拉通过自研软件和开源软件的结合,为 Dojo 项目打造了一个专属的全栈软件系统,其中包括底层驱动软件、编译器引擎、PYTORCH 插件和上层的神经网络模型等。
另外,Dojo 超级计算机在构建过程中,除了要解决算力运行层面的芯片、内存、带宽、软件等技术难题,也要解决与之运行密切相关的功耗、冷却等问题——而且马斯克专门强调,后者的难度也非常大。
这也是马斯克为何要花数年时间去构建 Dojo 的原因。
不仅如此,按照特斯拉在去年 AI Day 上的说法,Dojo 的量产原本预计在今年第一季度进行;但很明显,Dojo 一直到今年 7 月份才开始量产,出现了明显的延迟,原因是其降本不及预期。
所以,从技术维度上整体来看,Dojo 无疑是特斯拉在 AI 和自动驾驶领域发起的一项重大自我挑战,它非常集中地展现了特斯拉在超级计算机集群构建方案上的多重技术探索。
值得一提的是,在 Dojo 之前,特斯拉在在 AI 和自动驾驶领域的布局已经非常深入,无论是自研算法还是车端的 FSD 芯片,都显现出了让业界惊叹的实力。
而伴随着 Dojo 的发布,特斯拉更进一步,已经成为一家真正拥有从云侧到端侧、从芯片到算法、从硬件到软件的全栈自研和垂直整合技术能力的人工智能企业——这样的企业,在世界范围内也并不多见。
也因此,特斯拉在 Dojo 项目中呈现出的技术硬核程度,可以说是世界级的。
特斯拉自研 Dojo 的多重考量
特斯拉自研 Dojo,不仅仅是技术考量。
其实,在 Dojo 之前,特斯拉已经部署了一个用于云端训练的超级计算机,但它是基于英伟达 GPU 的。
在 2019 年 8 月,这个超级计算机只需要不到 1,500 个 GPU——然而,在接下来的两年时间里,伴随着特斯拉数据体量的指数级增加,它所需要的 GPU 数量也呈现出倍数级增长的状态。
有意思的是,那段时间里,特斯拉疯狂购买英伟达的 GPU,包括英伟达在 2020 年最新发布的基于台积电 7 nm 制程工艺的 A100 GPU。到了 2021 年 8 月,特斯拉用于云端部署的超级计算机已经拥有 11544 个 GPU,是两年前的七到八倍。
根据特斯拉当时的说法,这已经是当时全球排名第五的超级计算机。
在这个超级计算机中,共有三个计算集群。
其中,在 2021 年计算机顶级会议 CVPR 上,时任特斯拉 AI 负责人 Andrej Karpathy 专门介绍了其中最大的一个,它拥有 5,760 个英伟达 A100 GPU(80GB 显存容量),并由此堆出来了 1.8 EFlops 的 AI 算力。
另外两个计算集群,一个是用于训练,使用了 4,032 个GPU;另一个则用于自动标注(auto-labeling),使用了 1,752 个 GPU。
其实,对于行业里任何一家有大量 AI 计算需求的企业来说,从英伟达采购 GPU 来构建自己的计算系统,是非常正常的一件事。
当时,行业里几乎所有的云计算玩家都在购买英伟达的 GPU,包括微软、亚马逊、Google、阿里巴巴、腾讯、百度这样的科技巨头;而来自中美的众多科技互联网公司,同样也需要 GPU 来打造自身的 AI 算力。所以,当时特斯拉从英伟达那里购买 GPU,可以说是非常自然而然的事情。
那么,为什么特斯拉还要自研 Dojo?
首先是为了提高效率。
很简单,虽然英伟达 GPU 具备强大的 AI 计算能力,但它也同时具备在 AI 能力上的通用性,因此它在处理单一类型任务时的效率,并不如专用芯片。
而在特斯拉的 FSD 业务场景下,用于云端训练任务的超级计算机,实际上需要处理的大部分任务实际上都是视频训练这样的单一任务——因此,通过自研专用芯片以及专门适配的软件来构建一个新的计算系统,确实会大幅度提升效率。
根据特斯拉在 AI Day 2022 上公布的数据,与英伟达的 A100 GPU 相比,每一颗 D1 芯片(配合特斯拉自研的编译器)在自动标注(auto-labeling)任务中最高能够实现 3.2 倍的计算性能,而在占用网络(occupancy network)任务中最高能够实现 4.4 倍的计算性能。
如果从总体目标来看,根据特斯拉官方的数据显示,在同样的成本之下,它所构建的 Dojo 超级计算机能够实现 4 倍的性能,能耗比提升 1.3 倍,计算系统的占地面积也会缩小为以往的 5 倍。
其次,自然是降低成本。
根据行业人士的计算,截至 2021 年 8 月,为了构建当时的一套用于云端的超级计算机,特斯拉仅在硬件层面投入的成本就超过了 3 亿美元,这其中一大部分都进入到了英伟达的口袋——马斯克本人也在推特上公开表示,英伟达的 GPU 太贵了。
此外,特斯拉之所以自研 Dojo,其目的与它自研 FSD 芯片一样,也是为了垂直整合,减少对英伟达 GPU 的依赖。
实际上,英伟达 A100 GPU 在发布之后,很快成为 AI 行业的香饽饽,众多云计算公司和互联网科技公司也纷纷向英伟达下单,特斯拉也是其中的一个。但是英伟达 A100 的产能有限,因此在供货方面也是有先后之分,所以特斯拉拿到的量并不大,不能满足它因为数据指数级增长而带来的计算需求。
其实更有意思的是,在座舱芯片和智能驾驶芯片上,特斯拉都已经与英伟达合作,但后来又先后分道扬镳,尤其是在智能驾驶芯片方面,特斯拉坚持自研并与英伟达分道扬镳——虽然后来两家还在继续做 GPU 的生意,但很明显特斯拉很难再从英伟达那里得到什么特殊的优待。
从这个角度来看,特斯拉决定自研 Dojo,也是它保持自身战略自主能力的一次重磅举动。
支撑起马斯克的「AI 帝国」
无论从何种角度去看,Dojo 本身作为由一家商业公司(尤其是特斯拉这样如此注重成本控制的商业公司)推出的硬核科技产品,它必然有着非常慎重的商业考量。
毕竟,Dojo 作为一个从底层芯片设计、到软件适配开发再到计算集群系统的软硬件一体化产品,已经在开发过程中进行了大量的商业投入。
值得一提的是,在最新一次的财报电话会议中,有人向马斯克提问在 Dojo 项目的开发上花了多少钱,马斯克表示并不会对 Dojo 项目的支出进行公开,但表示明年会投入 10 亿美元在 Dojo 项目上,因为特斯拉的确有令人难以置信的视频数据体量要去训练。
不仅如此,马斯克还强调称,如果有人想要在 Dojo 项目上复制特斯拉,那么他要在用于训练的算力上花费数十亿美元——由此可以合理推断,数十亿美元,应该是特斯拉投入在 Dojo 项目上的财务数字。
那么,既然 Dojo 项目的成本如此高,为什么还要大力投入?
马斯克的答案是:为了比人类驾驶更加安全的 FSD。
在财报电话会议中,马斯克是这样说的:
特斯拉为 FSD 设置的目标,不是像人类一样好,而是比人类好十倍,甚至一百倍。我们希望尽可能获取完美的安全。而这意味着真正让人难以置信的视频量和计算需求……所以我们在视频训练方面极度需要它。在 FSD 的进展过程中,最基础的限制就是训练;如果我们有更多的训练算力,那么我们将会更快完成。
他还表示,既然有如此难以置信的数据体量要处理,那么自研芯片便是最好的方案了。
可见,Dojo 项目存在的意义就是为了 FSD 能够实现更好的安全性和自动驾驶能力。此前,马斯克曾经表示,如果 FSD 足够给力,特斯拉可以零利润卖车;这样的底气,很明显就来自于 Dojo 项目对于 FSD 的加成。
值得一提的是,伴随着特斯拉的车型销量增加,它在 Dojo 项目和 FSD 项目的前期投入成本势必会被车队的规模所摊薄——考虑到特斯拉已经设定了要在 2030 年实现 2,000 万的年销量目标,则它很明显是非常有信心通过扩大销量规模来回血的。
所以,从一开始,Dojo 就是一项面向未来的、长期主义的投入项目。
当然,作为一名非常有商业天赋和商业直觉的企业家,马斯克也考虑用其他方式来摊薄 Dojo 项目的成本——他在 2020 年就曾经表示,有可能会将 Dojo 的算力像亚马逊的 AWS 那样开放出来作为一种订阅服务。
如果这个订阅模式真的能够实行,它不失为一种为特斯拉创造收入来覆盖 Dojo 项目前期成本的一种有效方式。
另外,如果我们把 Dojo 项目的关注范围转移到特斯拉汽车之外,会发现,特斯拉的人形机器人业务 Optimus 实际上也是在运行 FSD 软件。在马斯克的长期商业愿景中,Opitmus 也是特斯拉价值体系的重要承载者,它未来的产量甚至会远远超过特斯拉的汽车数量。
马斯克甚至还宣称,特斯拉的长期价值,或者说长期价值的一部分,将会是 Optimus。
从这个角度来看,Dojo 项目不仅仅是在特斯拉汽车业务的 FSD 提供支撑,也是在为数量可能会更为庞大的特斯拉人形机器人业务的 FSD 提供支撑——而 FSD 在汽车和机器人业务上的落地数量越大,Dojo 项目的潜在价值就会越大。
这也是极其重视成本控制的马斯克在 Dojo 项目上如此用力地投入金钱、人力、时间的原因。他之所以敢这么做,也许是因为他笃定地投资于他所相信的未来。
值得一提的是,对于马斯克来说,Dojo 的价值,其实也完全可以溢出到特斯拉之外。
比如说,今年 6 月份,马斯克在 Twitter 上表示:
Dojo V1 版本是面向大体量的视频训练而高度优化的,并非是面向通用目的 AI(general purpose AI);但 Dojo V2 将解决这样的限制。
这意味着,Dojo 在未来演进到某个阶段之后,除了对 FSD 进行支持之外,还非常有可能被用于解决通用人工智能(AGI)的问题——而 AGI 正是马斯克新成立的 xAI 公司所专注的核心领域,他已经公开宣称 xAI 是「OpenAI 的竞争对手」。
所以,从马斯克的视角来看,实际上,Dojo 项目已经在扮演着马斯克 AI 野心的承载者的角色,它也是马斯克所构建的「AI 帝国」的「基础设施」。
非常有意思的是,在 Q2 的财报电话会议中,马斯克特意表示,特斯拉会继续使用来自英伟达的硬件,也会同时推进 Dojo 项目,他还强调对黄仁勋和英伟达有巨大的「尊重」,因为他们做了让人难以置信的工作。
眼下,特斯拉无疑依旧是离不开英伟达,它还有很多 AI 任务要运行 GPU 之上。
但是,对于马斯克来说,在他下定决心做 Dojo 项目的那一刻,特斯拉与英伟达在云端计算机和 AI 层面的分道扬镳就已经注定了。
因为,无论是特斯拉,还是 xAI,都已经足以说明:马斯克永远都是要把自己的未来、命运和理想牢牢地掌握在自己手中的那一种人——他在 AI 领域的庞大野心,也绝不会有一丝一毫的例外。
撰文:308
编辑:308