最 Sexy 的事,终于发生在了自动驾驶
作者|白雪
阔别 4 年,再次站在北京车展巨大的人潮中,往往不知所措——时不时传出「雷总在那里」、「教主去了蔚来」,人群便像蚂蚁炸开了锅。人还没过来,冒出来的手机就啪一下伸到了脸旁。
这场被流量裹挟的车展,是「糖衣炮弹」。外层的流量只是浅尝辄止,炮弹攻击力本源是技术。
有媒体调侃,如果雷军是「流量扶贫」,那么出现在北京车展上,以华为为代表的 Tier1 就算是技术扶贫了。
前段时间,「华元魔」的「无图」智驾格局在业界广为流传。需要强调,这里的无图指去高精地图,而非去掉所有地图。
随着华为高阶智驾破圈,元戎启行拿下三家主机厂项目、Momenta 闷声赶路,华元魔坐稳「无图」智驾前三把交椅。
对应的,华元魔在北京车展上,围绕着智驾「如何更像人」,也有大动作。
华为车 BU 发布智驾新品牌「乾崑」,ADS2.0 升级为乾崑 3.0,技术转向 GOD/PDP 网络全新架构。相当于,让系统的规划和决策更像人。
元戎更直接,推出了首个使用端到端模型的量产智驾方案 DeepRoute IO,真「无图」,能够使得高快、城区全覆盖,同时端到端模型使得整体驾驶风格人性化。据可靠消息,元戎的这套方案已经在长城某高端车型量产上车。
Momenta 则在车展前夕推出了基于 OrinX 的「无图」高阶智驾解决方案,官宣方案搭载了融合感知和规划的端到端智驾大模型。
以北京车展分界线,华元魔正式打响了端到端自动驾驶第一枪。
01
「无图」智驾,华元魔格局已定?
「无图」,是智驾公认的技术趋势。
2023 年,多家智驾公司都陆续表达过一个观点:感谢华为和小鹏。
尤其是华为不仅让消费者认识到了智驾价值,也让「无图」城区智驾彻底出圈。
当智驾走向城区,车企以新势力为代表,方案商以华元魔为代表,清一色选择了去高精地图。
去年 3 月,元戎启行也推出了不依赖高精度地图的智能驾驶解决方案 DeepRoute-Driver 3.0,当时元戎拿着这套方案与深圳某「大厂」曾交流过技术细节。
去年 10 月,华为发布了「不依赖于高精地图的高阶城区智驾」,并喊出全国都能开。凭借惊人的号召力与领先的技术水平,华为彻底让「无图」城区智驾破圈。
类似的,Momenta 在 CVPR 2023 年自动驾驶研讨会上也提出了量产的「无图」智驾解决方案,在激烈的定点竞争中脱颖而出。
「无图」,是智驾共识,但真·「无图」,不一定是。
想要去高精地图,就得另起炉灶,重新搭建一套新技术框架,这往往意味着丢弃过往的沉没成本。
因此,有一种玩小聪明的营销方式——只要不全用高精地图,就被称为「无图」,但这并不是真「无图」。
常见的有两种方法,一种是在复杂路口打补丁。
比如在城区内遇到一个复杂路口,可以提前在系统中预埋小范围高精地图,到路口通过关键点匹配,可以让系统跟着路口拓补结构行驶,但明显行驶起来会有顿挫感、机械感。
另外一种是定制化地图,采用动态图层。
也就是说先通过多次采集车流数据,把轨迹、车流数据背下来输送进系统,从而在大脑里生成一张隐形的地图。这也是一种「去图」的方法,但如果要采集出车流概率,意味着要采多遍才能统计准确,采集成本不亚于高精地图。
真「无图」,准确的概念是仅依靠标准的导航地图(SD Map)的输入来实现高阶智驾。
一个认定的方法是,高精地图接口。元戎的 IO 方案在上量产时,没有为高精地图预留接口。
「无图」对自动驾驶解决方案商要求极高,现在跑出来的华元魔三家其实都有着各自特点:
(1)华为车 BU:强声量与强研发节奏。
此前,华为车 BU 也在用高精地图,而后依靠着强研发投入去高精地图,在 ADS2.0 时初有成效。目前,华为车 BU 累计投入超过 300 亿元,研发规模 7000 人。还有一个问题是,华为的「无图」智驾并不便宜,据可靠消息,华为智驾系统成本近 2 万元。
余承东在问界新 M5 发布会上说过,售价低于 30 万的车型,华为高阶智驾都是亏本销售。
无疑,凭借着过往积累的 TO C 经验与品牌声量,华为带领智驾破圈。也是从问界开始,车企们有了对外公布智驾版本销量占比数据的习惯。
(2)Momenta:强量产节奏。
在被传出与华为、丰田合作之前,Momenta 沉默了很久,一直在闷声干量产,看起来其服务的量产项目主要是上汽智己,但其实其不同程度参与或交流的车企数量众多,比如比亚迪、广汽、长城、丰田、奔驰、通用等。
因此 Momenta 的「无图」智驾优势,在于其丰富的量产经验以及车企对其的信任。
(3)元戎:强技术驱动。
相比其他两家,元戎少了一些量产经验。
据可靠消息,今年元戎在极短时间内就拿到了三家车企的定点项目。业内有一种说法是,如果车企想要快速晋升自动驾驶第一梯队,就找元戎。
元戎可能是国内最早把端到端模型测试车跑在城市公开道路一家公司。
2023 年年初元戎开始着手端到端,到现在,元戎推出的 IO 方案实际上将在长城的车型上应用。
一个有意思的细节是,前不久长城 CEO 魏建军亲自上阵直播智驾,或许就是从端到端架构上车获得了技术自信。
02
向端到端开炮
不去高精地图,谈何到端到端?
华元魔进军「无图」智驾的底层逻辑,不止是为了降本增效,而是为了全面进军端到端模型。
高精地图与端到端是两套完全不同的逻辑。
前者就是一堆精确的三维表征,密密麻麻堆起的结构化数据。
后者则是神经网络。两者最大的区别是,高精地图是给计算机输入的信息,而端到端则是一套类人脑的神经网络系统。
想象一下,靠图像理解道路与提前输入一堆三维坐标,神经网络显然更擅长记住非结构化数据。这就更像一个小朋友更容易记住音乐、图片,而不是无规律的数字。
因此,真「无图」是端到端模型的前提。
尤其是在看到特斯拉 FSD V12 端到端大规模应用效果后,在国内引发了多米诺骨牌式的热潮,相比于以前受人工规则驱动的传统自动驾驶系统,端到端用数据驱动逻辑证明了智驾可以真·类人。
本质上,行业对端到端的投入并不是单纯对特斯拉的技术崇拜,而是自动驾解决方案商和车企纷纷意识到了进入复杂城区,再依靠传统自动驾驶系统,是行不通的。
传统自动驾驶是感知、预测、规划三个模块独立开发训练。
在这种分裂的模块化架构下,信息传递会出现减损,而且人为定义规则,仅能通过有限的规则处理有限场景。
端到端自动驾驶,是将感知、规划、决策、控制等多个环节融合成神经网络模型, 从而实现一端输入感知数据、一端输出决策的效果,由于采用了人脑决策方式,使得驾驶更具有整体化思维,更类人。
目前,端到端模型主要指感知规划一体化,像自动泊车这种涉及到控制模块的功能,就没有必要使用端到端来处理。
有行业人士解释,泊车是一件纯控制行为,这件事机器做会比「人」做得更好。
这是因为神经网络不擅长做精细化处理,在确定性的环境中就越不需要端到端,尤其是车辆控制的精准程度利用规则算法可以控制到厘米级,所以相比于费时费力用端到端做控制环节、做泊车,直接用记忆泊车背路线、SLAM 建图的效果会更好。
总结来看,越是复杂的地方就越需要端到端,尤其是城区。
除了真的「无图」,还要达到真正好开的无人驾驶。端到端自动驾驶,已经正式进入城区大考。
特斯拉无疑是进展最快的,这个月特斯拉正在大规模向北美用户推动 FSD V12.3.3 版本,且去掉了「Beta」标识。
这意味着特斯拉先一步来到全民大考时刻,实践下来效果不错。
一位北美车主测试视频显示,即便在驾驶的乡村道路上遇到 4 只鹅「横穿马路」,系统也能在大约 5m 外的位置刹停。
在国内,华元魔端到端节奏也非常快,三家都采用了不同程度端到端架构:
华为 ADS3.0 将预决策、规划模块融合至 PDP 网络。
Momenta 官宣自己为端到端智驾大模型,融合了感知和规划,但进一步技术细节没有再公开透露。
元戎启行 IO 方案应该是其中上车最快的,据汽车之心了解,前段时间长城汽车魏建军直播全场景 NOA 用的应该就是 IO 方案,一个小时在保定市区内跑了 17 公里,在保定这种极为复杂的三线城市中,IO 的端到端智驾能力确实有惊喜。
看完整场智驾直播,场景可归为三个难度层级,从考验系统基础的脑补能力再到泛化能力,再到理解能力,难度层层叠加。
第一层级挑战,车辆遇到车道线,系统脑补车道线稳稳开过路口。
第二层级挑战,面对静态环卫车这种异形障碍物,系统更加具备泛化识别能力,提前避让;
第三层级挑战,地狱难度的六岔路口,路口到对面路口距离超过 200 米,要理解道路结构并且与复杂车流博弈是非常大的挑战,但 IO 端到端智驾系统顺利通过路口。据悉,IO 智驾路口通行成功率近 98%,特殊路口转向成功率近 90%。
甚至,端到端还会展现出一些让人惊喜的推理能力。
在一个分岔路口,车辆为了跟前车保持距离,留出了安全空间,但系统察觉到后车有过闸道的动作后,系统为后车让出了闸道口。区别于过去传统驾驶的「利己」动作,这完全是一个「利他」的行为。
这种「惊喜」展现的是端到端神经网络中的黑盒能力,但黑盒的不可解释性也会存在危险。
安全必须有保障,因此,端到端自动驾驶都要有对应的兜底系统。
像特斯拉的 FSD V12 和 FSD V11,两套不同规则驱动的系统同时存在,即便端到端遇到不可控情况,也能够激活人工规则来兜底。
据业内人士介绍,一个用 CPU、一个用 GPU,并不冲突,类似的元戎也是将基于规则的兜底安全策略和 IO 整合在同一个系统中,为系统「约法三章」。
另外还有感知兜底。目前,华元魔三家的量产上车方案都用了激光雷达,有行业人士解释道:
「纯视觉和激光雷达做端到端都可以,但激光雷达现阶段仍然是安全底线。」
03
端到端,通往 AGI 的唯一路径
马斯克说过:「与其说特斯拉是一家车企,倒不如说是一家人工智能/机器人公司。」
目前国内也有人提过类似说法,元戎启行 CEO 周光认为,端到端自动驾驶大规模上车,是通向 AGI 的唯一路径。
周光认为,AI 迈向 AGI 可以分为三个阶段:
AI 1.0 时代:以人工规则为内核的简单智能驾驶系统。
AI 2.0 时代:大语言模型、视觉语言模型爆发,同时在端到端模型的撬动下,将会打开 2.0 新世界大门。
AI 3.0 时代:诞生 AGI 通用人工智能,AI 不仅仅应用在汽车上,还可以用到更多智能机器上,让机器成为人类的伙伴与助手。也可能有马斯克所描述的「类人甚至超人智能」的存在。
汽车之所以会成为通往 AGI 的唯一路径,是因为端到端对数据需求是海量的。今天除了车之外,没有任何机器人可以提供如此海量的数据。
比如,特斯拉 FSD V12 每天获取 1600 亿帧视频训练,去年年初就完成了 1000 万个视频分析。
汽车所带来的数据量,是机器人应用场景无法比拟的。
大语言模型、生成式 AI、端到端模型分别代表着 AI 的语言能力、与物理世界交互能力、创造性能力,三者融为一体就是打开 AI 3.0 的开始。
这也意味着端到端不是一蹴而就,而是通过还原世界、理解世界、操作动作来完成的。自动驾驶解决方案商想要踩中节点就需要按这种技术节奏来。
华为和 Momenta 目前没有提出 AGI 路径,但大致经历了高精地图智驾、去图、再到端到端的转向。
元戎明确提出了依靠技术嗅觉踩准发展节奏的 AGI 发展路径。
2016 年元戎提出前融合,将感知模块中的点云与图像融合,元戎启行 CEO 周光原话是「当时做只是觉得后融合安全兜底并不完全成立。」
2022 年元戎开始投入去图,投入「无图」后,可以加强了系统全场景理解能力,让系统看到道路元素、懂得识别道路拓扑结构,人车博弈等。
所以,类似于马斯克第一原理,元戎自然而然地把预测和决策放到了一起。「如果不把预测决策放一起,拆东墙补西墙的操作是搞不完的」。
因此 2023 年时,元戎干脆把感知和规划这两个模块打通,2023 年 8 月,搭载端到端自动驾驶系统的测试车就跑在深圳。
从端到端开始,另外一个以数据驱动的技术时代诞生了。
犹如楚门的世界中,楚门终于意识到此前的世界一直是按着剧本与预演好的轨道行驶,大门后才是按照自我意志生活的世界。
对于用户来说也是如此。
端到端是一场真正的智驾科技变革。过去,在车展听到智驾词汇最多的是「安全」,但就是「不像人」,也没有人开得好,智驾机器味道太浓。
这会让消费者对智驾的信任度逐渐透支,就像「妆后」与「素颜」一样,有着体验鸿沟。
随着华元魔端到端大规模量产上车,「安全能用」大概率将变成「安全过瘾」,这种对智驾体验质变的提升,无疑是自动驾驶界最「Sexy」的事。
所以今年,智驾付费订阅率是否能大规模提升,就看华元魔上车量产的情况如何了。