元戎启行端到端模型智驾系统主动避开违停要建立敏锐的技术嗅觉和技术远见,需要企业对 AI 技术有深刻的认知才能做到。 元戎之所以能在国内率先建立起端到端方法论,在于掌舵人对技术风向的洞察。周光本科毕业于清华大学基础科学班,博士毕业于德克萨斯大学达拉斯分校人工智能和机器人方向,扎实的数学与物理学基础理论与人工智能实践学习,使其更敏感地察觉到了端到端技术趋势。早在两年前,他就表示机器学习很多逻辑与数学密不可分,本质上就是通过数据的方式去寻找规律。这也使得元戎更早看清,智驾驶向深水区,更需要借助端到端这股东风。
03
逃不开误解的端到端,
却是高阶智驾的最终解目前,高阶智驾正在以超乎想象的速度推进。极氪智能科技副总裁陈奇曾提到:2023 年 12 月,国内头部厂商高阶智驾选装率达到了 48.73%,这相当于头部车企每卖出两台智能车,其中一台都具备城市 NOA。再过一个季度,头部车企们将会城市 NOA 进行全量推送,这将会是一场史上规模最大、难度最高的智驾检验:多数消费者与机器共驾的默契还有待提升,同时也要求车企能够用高阶智驾在复杂的城市道路中为用户安全兜底。现阶段,从国内目前多家车企的城市 NOA 体验来看,多数遇到施工或道路有所更新的路段,几乎都需要接管。这也意味着,目前用户尚未享受到高阶智能驾驶尚未达到用户眼中的「可用」「好用」。一个完善的端到端模型,将会在消费端为用户智驾体验带来质的改变。这里存在两个有些「反常识」的知识点。一方面,过去以深度学习为基本盘的端到端模型,被外界诟病「就像一个黑箱系统,性能很好,但缺乏解释性。」但这种「不可解释性」,并不代表不安全。这就像人类面对复杂场景时产生的大多数驾驶行为也存在不可解释性。元戎启行在最开始端到端模型上车时,会采用基于规则的安全兜底策略保证驾驶安全。比如系统如果检测将要发生碰撞,将会尽早进入保守策略,启动安全模式,避免端到端模型出现安全事故。另一方面,端到端模型即使是底层技术架构,其实在消费端也是可以被察觉的。这种「可察觉」,是把「数码味」变成真正人类司机驾驶。今天,已经量产的传统方案,在直行、加塞、变道时会有明显的顿挫感,感觉还有不同的系统切换。但端到端模型上车的体验,会更拟人化。底层原因是,如果单纯基于人工规则,包括道路施工、压实线、应对违停车辆等等在内的每种场景都需要单独的规则,这样的系统并不好用。现在,端到端大模型的魔盒已经打开:马斯克直播路测特斯拉 V12 版本 45 分钟内仅接管一次、蔚小理陆续宣布投入端到端研发......甚至还有一个小细节,最初特斯拉采用纯视觉端到端被外界认为不可靠、不安全,但当今年 1 月特斯拉举办 2023 年财报会时,马斯克被问到特斯拉是否会在今年举办 AI Day 活动。马斯克对此表示,今后谨慎透露技术,因为竞争对手已经开始模仿创新。一个行业走向爆发前夕,往往会信息封锁,迎来最为紧张的时刻。进入 2024 年,周光认为,「端到端是打开物理世界通用人工智能大门的一把钥匙。」本质上,Chat GPT、Sora、Midjourney,仍然属于互联网世界的生成式人工智能,所收集、生成的数据都是网络虚拟数据。这就意味着,仍没有针对物理世界的通用人工智能。要让人工智能具备物理常识,就需要大量物理世界的真实数据。在这种情况下,智能驾驶就是最佳解。正如地平线 CEO 余凯所言,「手机是击穿物联网的关键,智能驾驶是击穿物理世界通用人工智能的关键。」这也让自动驾驶趋势愈发清晰:以模块化为主导的原始人工智能时代终结了,物理世界通用人工智能时代正拉开帷幕。
「活动预告」 英伟达 GTC Watch Party 将于 3 月 26 日晚上 20:30 开播,直播主题:借助高性能 AI 计算加速自动驾驶汽车的发展。欢迎扫描下方二维码注册预约直播或者加入 GTC 交流群。