“华为自动驾驶有6千个工程师,主要用来写各种规则,因为 rule-based (基于规则)环境太复杂,总有新的 task (任务)出现。”一位特斯拉FSD工程师形容华为智驾团队,为什么规模必须很大时说道。 这也是余承东压力大的原因,华为自动驾驶团规每年花费10亿美元,累计支出早已经超百亿,而主要成本就是工程师的薪资等人力成本支出。不只是华为,对于所有智能驾驶企业来说,一直困在系统中的问题就是:自动驾驶需要穷尽所有的Corner case(特殊情况),这就导致每家智能驾驶团队的人数基本都不低。类似比亚迪、百度这些都在3-5千人,独立智能驾驶公司如Momenta在1300 多人,车企理想年初也是1300人,每类型智驾公司都有五六家,这些人加起来至少有5万核心的自动驾驶工程师。他们薪资都很高,有自动驾驶领域猎头说到:“在自动驾驶赛道,地平线和禾赛这样的公司,研发团队的人均薪资基本到百万了。”他去年就帮一位年薪200万的猎到了新机会。但很多家也潜行研发了10年的时间,却没有一家敢说能让L4级别的智能驾驶落地。而在2024年,特斯拉的FSD v12突然带火了一个词『端到端』,一时间仿佛L4级别智能驾驶突然要实现。端到端就像是智能驾驶的ChatGPT时刻,瞬间让智能驾驶车企都开始布局。端到端对于大众来说,还是个不甚了解的词汇,行业内具体解决方案也并不一致。大家只知道,不再需要穷尽算法解决Corner Case (特殊情况),每家智驾团队就不要一直扩张算法团队人数。烧钱却无解的情况终于有了改变,资本和企业欢呼自动驾驶有望实现,智能算法人才却在犹豫,大模型上车,会让自己丢掉饭碗吗?自动驾驶,此前对于各大厂来说,说起来都是个苦命的探索。
自动驾驶国外的领军企业是Google 的Waymo,国内是大厂百度、以及元戎、小马(两家正在上市)等诸多自动驾驶创业企业,还有蔚小理等新势力。行业稍早时,发展路线是依赖高精地图。所以Waymo 以及国内的玩家成本都很贵,每开一个新城都要用自己的车队去铺,100 辆车*100 万人民币,再加上 operation cost(运营成本),就是一个城市一个亿人民币,从商业模式来看不划算。于是在2023年,元戎启行率先发布了不依赖高精度地图的智能驾驶解决方案,此后有包括华为、蔚来、小鹏、理想、地平线等超过10家企业明确开始弃用高精地图的方案。后来很多车企入局,他们倚重的路线是激光雷达,华为和小米算是这种路线的代表,前者自研,后者投了投资了激光雷达企业禾赛等。这两种模式,底层技术都是BEV+transformer,两年时间不到,转眼就老套了。现在以特斯拉和小鹏为代表,都用纯视觉占用网络+大模型,从感知到规划,端到端成为市场的共识。但端到端具体怎么定义,什么系统才是端到端,市场并没有明确的定义。如果形象地说,端到端更像是模仿人类的思考方式。诺贝尔获得者丹尼尔卡尼曼曾说,人类有两个系统,分别是系统A和系统B,前者利用直觉和本能,高效处理95%的问题,而系统B则是复杂场景的理解,能处理5%很难的问题。未来的自动驾驶技术也是如此,用一个传感器直接到模型的方案,解决日常碰到的绝大部分问题,端到端直接处理。和大模型类似,这种可泛化的 Scaling Law(尺度定律) 大幅度降低了自动驾驶解决各种问题的成本。而在模型2中构建多模态模型,处理难以特殊场景的复杂问题,解决自动驾驶落地的最后1%难题。但不是两个系统就叫端到端,核心得实现输入图片、输出信号,一个大模型解决问题,而不是感知、处理、决策这种多步骤的模块化系统。因此,有玩家认为真正的One Model端到端属于生成式大模型,才真正具有颠覆性。端到端到底有何神奇之处,在美国驾驶过FSD v12版本特斯拉的国内创业者张强告诉AI鲸选社,他启动autopilot后,无保护左转的情况下,先礼让直行来车,对方也让行的话,直接加速转向通过。 “不是很死板,像有经验的老司机。” 颠覆性技术来临之际,也让各家公司都集体来了个大刹车。2024年本来华为、理想、小鹏都在推进全国无图驾驶。现在无图 NOA 的生命周期即将结束,端到端已经在摩拳擦掌。小鹏汽车就宣称,2024年将投入35亿元用于智能研发。在特斯拉内部变化也很大,端到端和之前 rule - base 差异很大,上了端到端之后,团队变动也很大,Tesla 之前负责 planning control (规划控制)的负责人就离职了。特斯拉美国FSD工程师也表示,之前 Tesla 一直不愿意向中国团队开放代码阅读权限,上了端到端之后,已经不需要国内工程师了,国内只需要标注即可。一块重石悄然在自动驾驶工程师圈砸下,现在很多智驾团队的招聘,都是僵尸岗位,市场在衡量未来到底需要多少智驾工程师。
CEO集体放话,各大车企争抢大牛
全国无图 NOA 热度才几个月,马上端到端的智驾就要来了,大家又回到同一起跑线。
另一方面看,则是自动驾驶终于找到了指数级进化的路线。一直以来,算法覆盖corner case,根本拉不开各家的实力差距。所以大家都认为,自己和特斯拉处于同一水平。但端到端技术开启新的进化大门后,新的竞争又开始了,一两年内应该就会拉开巨大差距。华为余承东曾表示,华为团队去美国旧金山、加拿大多伦多等地进行了测试,从结果来看,等特斯拉FSD入华后,华为有信心干赢对手。今年年初,小鹏汽车创始人何小鹏也去了美国,亲自体验特斯拉FSD的驾驶感受和落地情况。测试完,何小鹏说到:『我们跟特斯拉,是唯二端到端的(车企),所以小鹏汽车作为中国最好的智驾厂商,我们也是非常期待特斯拉FSD能够进入中国,一起互相学习。』
如果你感觉何小鹏说的比较谦虚,实际上他还说了,并自信提出了『国内路况比美国复杂10倍,小鹏有信心。』且看5月20日的AI Day,小鹏高调展出了多项第一:国内首个量产上车的端到端大模型:神经网络XNet+规控大模型XPlanner+大语言模型XBrain。还有全球首个“AI代驾”。AI代驾很有意思,意味着AI驾驶能学习司机的驾驶习惯,更有个性化。类人类智驾,实际上就是端到端能实现的重要特征。这块单独拿出来说,更多宣传层面考虑。而华为是在更早的2024年4月24日,发布的ADS3.0,宣布去除了BEV,在决策和控制使用了端到端的人工智能。虽然发布的早,但实际上GOD大网也就是感知模块,控制模块也是独立的,整个还偏模块化架构,并不能算真正意义上的端到端。不过,华为和小鹏确实是行动较快的玩家,在今年7月初,华为与小鹏的两段式端到端智驾方案将推送给车主。蔚来也开始在7月下旬推送端到端的解决方案。理想汽车CEO李想也表示,三季度将向测试用户推送端到端+VLM(视觉语言模型)的智驾方案。但对于理想来说,其实时间非常紧迫。最早行动的蔚来,在年初将感知和规控团队合并为大模型团队,集成团队重组为交付团队。理想汽车是到了7月份,才组建了“端到端自动驾驶”的实体组织,整体200人出头。李想调动了理想智能驾驶技术研发负责人贾鹏亲自负责“端到端”的研发。同时,理想公开了其端到端自动驾驶技术方案,其方案分为端到端模型、VLM(即Vision-Language Model,视觉语言模型)视觉语言模型、世界模型三部分。虽然发布时间较晚,但理想大声宣布自己才是真正的OneModel 端到端,难度也不是一般的大。“从传感器输入到行驶轨迹输出只经过一个模型。”理想智能驾驶技术研发负责人贾鹏在发布会上曾说。有行业人士指出,跟华为、小鹏的分段式端到端方案相比,理想的方案确实更激进,可视为分段式端到端的下一站。趋势并不是只有华为和蔚小理等新势力会跟进,一项认为自动驾驶有点扯的比亚迪创始人王传福,此前曾公开说:我是实实在在搞战略的,我看的比谁都清,我们有几万名工程师在探索这个东西(自动驾驶)到底行不行,这条路到底通不通,我不清楚吗?7月份,引入百度舱驾融合智驾技术负责人周鹏,负责比亚迪的端到端大模型规控算法开发,而且是独立于比亚迪规划院智能驾驶研发中心,新设立的300人部门。一个现象值得关注,如理想、蔚来、比亚迪等主流车企智驾部门都成立了独立的端到端团队,并派遣大将坐镇,都是200-300人团队即可。相比原来几千人甚至上万人的智驾团队,不可谓不精简。
传统做Rule-Basd算法的人员,尽管目前还没有发生大规模裁员事件。很大程度上是因为端到端还处于ChatGPT-2时刻,距离ChatGPT-4时刻还有距离。
一位自动驾驶企业HR告诉AI鲸选社:“新成立的端到端部门都还刚起步,目前还需要传统智驾部门做算法场景覆盖,保证自动驾驶安全的下限,未来会不会形成冲击不好说。”
端到端容易出现下限问题,是大模型初级阶段的核心问题。张强就提到,他在美国开车时,十字路口的直行道排队较长,特斯拉的autopilot直接拐到左转道,然后红绿灯一亮,直接又加速斜插回直行道。“差点和直行车撞上,还好一脚刹车踩住了。”
类似场景是大模型还没学明白的地方,这就需要算法覆盖,保证下限问题。但端到端进化速度很快,未来会学习到人类甚至超过人类的水平。
现在,小鹏在国内自动泊车、潮汐车道等场景中,表现也是超越特斯拉的存在。华为和小鹏实际都有本地化的优势,利用高精地图或者雷达等加持下,确实即便FSD v12现在版本真正进入国内,也很难短期打败国内对手。但未来发展看,技术底层逻辑会导致变化。“绝大部分车企,其实都是在「模型化」,「模块化端到端」,真正的 OneModel 端到端,可能只有特斯拉。”一位行业认识评价道。”因此可以说,特斯拉改变了自动驾驶团队的工作模式。此前,“在模块化的架构下,一位工程师一天只能处理10多个case,效率不高。”国内最早落地端到端方案的自动驾驶企业元戎启行CEO周光曾公开说道。现在,通过用海量数据去训练大模型,让机器拥有自主学习、思考和分析的能力,能更好地处理复杂的驾驶任务。所以,对于真正的端到端系统真正的三要素,第一是团队带头人(决定端到端模型高度),第二是数据,第三是算力。在各家争抢完牛人后,大规模、高质量的训练数据重要性开始显现。根据特斯拉的计算,完成一个端到端自动驾驶的训练至少需要100万个、分布多样、高质量的 clips (视频片段)才能正常工作。“毫不夸张地说,数据会占据端到端自动驾驶开发中80%以上的研发成本。”毫末智行数据智能科学家贺翔曾如此表示数据的重要性。近期,蔚来开始推送的最新 OTA 。包含了业内首个应用端到端技术的 AEB,蔚来用了 20 亿公里的数据集,来训练这个端到端模型。何小鹏最近在公开节目上透露,基于折算10亿+里程的视频训练、超646万累计公里数的实车测试、超2.16亿累计公里数的仿真测试,小鹏汽车端到端大模型能够做到“两天迭代一次”,在未来18个月内智驾能力提升30倍。数字之所以如此重要,正是因为现在端到端大模型的 Scaling Law效应。此前也需要数据,但rule - base更需要的人才是用算法去覆盖场景,所以对数据需求没那么渴求。第三是算力训练卡,理想有五千张A100、A800这样等同的训练卡数量,是小鹏的两倍。“如果租卡的话,一年需要10亿,需要有健康的利润来提供支持。”拼人力的时代已经过去,各家团队也在发生改变,6月8日,理想汽车CEO李想在中国汽车重庆论坛上发表演讲。他认为所有自动驾驶团队,每天干的活都是靠人工去调试各种各样的corner case,而且放的人越多,corner case越多,和真正的自动驾驶就越遥远。“当人工智能技术在不断的发展的时候,我们会发现,其实人类开车的方式,不是过去那么多年里我们用的自动驾驶研发的一个方式。这是一个根本的不同。因为人开车没那么辛苦,没那么累,不需要养几千人的团队去搞corner case。”这也是端到端到来的改变,很多人说理想是因为Mega失利,所以开启了大裁员。但起码在智能驾驶团队情况并不一样。正如李想所说,不需要养几千人的团队去搞corner case,才是最重要的一点。同时,不需要人为定义这些 task。这也是为什么现在 FSD v12 可以做到每周更新,每次都是三五倍能力的提升。而对于特斯拉来说,端到端带来的另一大机遇是 Robotaxi。据行业研究员木头姐的研报估算,支持 Robotaxi(自动驾驶机器人出租车)之后的特斯拉车队规模可能超过 1 亿,而且每量车具备 1000 瓦的高效推理算力,总共就是 100 千兆瓦的 Edge AI 算力,让特斯拉有机会新增类似 AWS 的边缘 AI 云业务,让特斯拉车辆除了在车主不使用时可以自动加入 Robotaxi 赚钱,还能在静止停放时自动加入边缘 AI 云服务来赚钱,全时段饱和运转。
自动驾驶和 Robotaxi 能在 5 年后(2029)让特斯拉市值翻 10 倍达到 5-7 万亿刀,Elon Musk 认为这是市面上最准确的预测。
所以,大家都十分关注,特斯拉在国内的落地的时间点。马斯克永远是那条鲶鱼,FSD年底进入国内时间,不知道那时候已经凭借端到端,进化成什么样子。就像特斯拉的上海超级工厂落成之际,让国内新能源市场直接洗牌,这次FSD进入国内,会不会杀死部分自动驾驶企业,让更多的普通工程师失业?参考内容:
自动驾驶领域的GPT时刻来了-硅谷101