查看原文
其他

大模型怎么驱动智能汽车?百度大神们在极越AI Day上讲明白了

有车有据 智能车参考 2024-04-06
贾浩楠 发自 副驾寺
智能车参考 | 公众号 AI4Auto

百度为了极越汽车拼了,一次性把各个方向的AI大神全请了出来。

百度APollo的智驾技术一号位王亮、地图、智慧交通引擎大主管尚国斌,以及首次亮相的首席语言架构师贾磊

全部出现在了极越首个AI Day现场。智驾、智舱、地图的顶尖技术大牛同台,应该是业内头一次。

并且以往智能汽车看似不相关的几个方向,极越把它们首次统一在一个框架下讲明白了:

大模型如何影响智能汽车下一步

大模型怎么用在纯视觉智能驾驶

极越是目前市面上唯二坚持纯视觉智驾方案的电动车企业,另一家是特斯拉。

国内的小鹏,也在跟进尝试这条技术路线。

为什么要用纯视觉?智能车参考已经多次科普过车企的思路逻辑,这次尝试最简单的方法总结:

1)激光雷达成本在降,但还是贵。用了,智驾系统就要万元起步,要么上贵车,不利于智驾普及;要么上走量车,但必须压缩其他成本。总之对消费者而言不经济或者体验不好。

2)纯视觉图像数据其实已经包含驾驶所需的一切信息,本质上是和人类驾驶方式相同的技术路线,是“第一性原理”的体现。

不过在深度学习技术兴起的早期阶段,模型规模不够大,算法单一,支撑算力也较小,所以AI对图像目标漏检错检时有发生。激光雷达作为冗余和“兜底”的感知手段,成为自动驾驶研发、落地的重要设备。

但百度智能驾驶事业群组(IDG)首席研发架构师,IDG技术委员会主席王亮说,对比市面上最主流的 NOA 激光雷达,纯视觉的采样频率仍然是它的160倍,这还是只是可度量的部分。

但千姿百态,色彩斑斓,如何让模型掌握通用泛化的能力,才是关键。目标信息就摆在那里,能不能看到,能不能看懂,各凭本事。百度Apollo的提出了新的思路——大模型 AI 原生理念

具体来说,构建一个大模型,叫VTA,代表着 vision takes all。其中基础模型或者叫foundation model。目的是让模型提前对这个世界有更充分的理解,从道路数据里面提取不同分辨率下的多尺度的特征进行融合,得到一个非常丰富的特征池。

foundation model是一个自训练监督过程。首先是无标注的自监督训练,调取海量的自动驾驶数据,并随机遮挡掉一些像素,再让模型去尝试恢复这些被掩盖掉的像素,这属于基础能力的训练。其次是进行语义分割、景深、光流的估计等等。

这样基础模型就具备了四大核心能力:目标检测、实时建图、时序跟踪、阅读理解。在基础模型之上,可以添加不同任务,任务里面有 Transformer 的、 attention 机制等等。

在VTA模型框架下,极越智能驾驶有了新的进步。首先是OCC占用网络能力,新增了超过1亿帧自动化精标的数据,在视距、识别的稳定性、识别的范围和分辨率上都得到了显著的提升。

接下来极越会发布OCC网络检测能力大升级,三个应用,针对不同场景设计训练的模型。首先是“狙击步枪”,前向视距达到 200 米分辨率,这个整个网格的分辨率达到 0.4 米,主要针对行车场景。那第二个“手枪”模型,主打在复杂城市道路中远距离博弈能力,前向视距能达到 120 米,分辨率格子是 10 厘米乘 10 厘米个立方体。最后一款“匕首”,主打近距离的肉搏,比如说在停车场景。前向视距达到 30 米,分辨率是5厘米。

每个模型都具有自己的一个特殊的导师——激光雷达。训练时,用激光雷达的能力把三维的信息转化到二维,输入纯视觉的OCC模型,提升视觉跟踪能力。百度极越是业内首发。

这里要说明一下,极越不是号称纯视觉吗?怎么还要用激光雷达?实际上,王亮所讲的这些过程,是研发端的预训练模型,真正上车部署的版本,是已经“调校”好的模型,仍然是纯视觉的。

除了OCC网络升级,VTA还新增了视觉的实时建图的能力,支持总共 101 类建图场景需要识别元素,基本100%覆盖各种交通场景。另外VTA还具备了几何测距建图的能力,不同点事模型直接去学习这个道路的结构,曲线不用再去做后处理的拟合,直接从VTA 网络输出,天然就是一条完整的车道线,建图的精度达到厘米级。

更高级的纯视觉能力,是阅读理解。对算法来说,是一个比较难的问题,可能需要若干的小模型和一堆的 if else 去做这样的判断。但在VTA 框架下,通过带时序特征的视觉数据,可以完全学习、预测道路参与者的意图。

所以VTA能给极越的智驾带来什么样的能力提升?

目前极越点到点领航辅助驾驶功能已经覆盖了全国将近 50 万公里的路网,上半年,马上就要将开放全国 300 个城市的领航辅助驾驶。

而且极越官方还给出了自己的判断,今年高阶智驾内卷,谁做不到全国都能开,谁就会出局。

大模型语音助手,和其他人有啥不同?

SIMO从极越01交付第一天起,背后就是大模型能力在支持——百度的文心一言,提供了车外语音控制、多模态融合交互、无网弱网全程在线、主驾驶免唤醒、车内四人同时说等其他智能座舱产品不具备的功能。

新版升级中,SIMO增加了音乐推荐、音乐信息查询、视频信息问答、景点推荐和查询等功能。在融合了大模型理解和推荐能力后, SIMO拥有了理解用户潜台词的能力。

比如,用户在车上和朋友聊到电视剧《狂飙》中高启强想吃鱼的名场面,一时记不起第几集,这时候直接问SIMO“高启强想吃鱼是在第几集”,它就可以快速精准地回答,还可以播放相应剧情。

再比如,当用户想要快速了解一个陌生城市,SIMO可以迅速生成详细的攻略;而且,在文心一言的加持下,SIMO还可以帮助用户生成各类高质量的文章或图片创作。最关键的是,生成的内容,都可以一键发送至手机,带来更多乐趣。

百度语音首席架构师贾磊,介绍了这些体验背后的大模型思路。

他说,极越汽车立项之初,就提出了智能座舱全域全端侧的理念,也就是在整在整个行业都依靠云端来做语音交互的时候,极越创新性的来做离线的全域全端侧。

创新点在哪里?第一个是系统创新,整个语音交互系统全面的 NPU 化,把整个交互系统的识别合成语义,包括置信所有的环节全部置于NPO,而不是像通常用的只是把深度学习模型置于NPU,整个逻辑运算还是置于CPU。

行业惯用的云端交互,在8295上速度是根本快不起来的,原因是计算机有大量的逻辑运算,没有办法在端侧高速执行。只有NPU才是计算机打破摩尔定律的核心。

这里的难点在于,NPU只能做矩阵运算,那意味着大量的逻辑运算,大量的if else的判断,NPU没有办法做。

极越智能座舱交互环节全部NPU计算,将整个系统重构为一个模型带一个模型的连续的计算,应用了完全独立研发的 SMALT2 技术,将多语种、多方言和多场景的数据统一建模,一次处理,进而提升端侧的语音识别率。最终,端侧的交互速度可以在 700 毫秒以内,语音识别的速度在 500 毫秒以内,反应非常快,而且永远稳定。

第二是算法创新,让把业内最流行的自相关建模置于整个语音识别的流式识别中,置于端侧。世界首创,也是百度独有的专利技术。

在这个基础之上,百度还研发了等长统一表示这个概念,这是未来做端侧声学大模型的核心技术。

贾磊认为,尽管现有的大模型置于云端非常好,能给出非常准确的答案和智舱体验,但是速度太慢,云端模型最快也需要 3 秒钟,而人能够接受的交互中的延迟是 0.5 秒,超过 0.5 秒人会觉卡顿,那怎么办?

所以只有端侧大模型是唯一出路。

百度和极越在做两个方面的尝试,首先是声学大模型,模型大小是2-20 Billion(参数)。基本上能够把所有的信息融合在一拍,延迟限制在几十毫秒以内,基本上解决了端侧模型高效语音识别的问题。

第二是对话文本端侧大模型,来解决车控相关的、车辆相关的,以及高频的车书百科等问题。比如当用户错误使用车辆功能时,系统可以提醒、引导。当用户意图表达模糊的时候,可以引导用户去澄清用户的信息,从而让端侧的语音交互更加聪明、更加自由。

极越AI DAY,智能车最前沿?

可以这样认为。因为极越汽车本身就是中国最强AI玩家百度,在各个方向积累的先进技术落地实验平台。

这些在AI Day上分享技术和前瞻观点的,也都是真AI大神。

先说说王亮。

2000级北航计算机系校友,2012年从肯塔基大学博士毕业,在Adobe实过习,毕业后先去了微软雷德蒙德总部……2013年加入百度。

先后经历了AR平台打造、无人驾驶环境感知、无人驾驶载人小巴阿波龙产品技术,以及Robotaxi L4技术,同时是智能驾驶(L2+)产品Apollo Navigation Pilot的研发负责人。

还参与了多个重要的学术研究项目,并在计算机视觉国际会议和期刊上发表了30余篇论文,累计引用量超过6000次。

王亮是从0到1全程深度参与并在技术、商业化一线成长起来的百度自动驾驶大牛。

至今,官方title是百度智能驾驶事业群组(IDG)首席研发架构师,IDG技术委员会主席,职级T11。

贾磊,同样是百度在语音识别方向上的大牛,也是国内稀缺的语音大模型带头人。

2011年加盟百度,组建技术团队。当时,百度没有任何语音搜索系统的核心技术、代码。6个月后,技术上线时明显超越谷歌中文语音搜索产品,成为了语音技术产业化的最成功案例。

短短几年间,贾磊带领的百度语音技术团队让中国的语音搜索技术在最短的时间内快速跻身世界前列。

这些AI技术大牛,给出的不但是智能汽车当下最先进的技术和体验,更重要的是对未来智能车发展方向的预判和思考。

比如,智驾层面尽管百度在极越上实践的是纯视觉路线,但王亮团队提出的VTA基础大模型“派生”各个分支任务模型的架构方式,是对“端到端”大模型实现的一种全新尝试。

以及 ,贾磊的语音团队通过系统和算法创新,把交互能力从云端“移到”车端。

智舱领域“车云协同”和“端侧智能”路线,其实逻辑和形式,与当年车路协同与单车智能之争相同。而现在,单车智能的低延时、高可靠性让它成了几乎所有玩家达成共识的路径。

“端侧”智舱的技术,也具有相同的优势。

多年以前陆奇在百度时曾说过,人类发展历史能源线和信息线一直是分隔的,直到智能汽车这个新物种出现,史无前例的站上两条线的交汇处。

极越汽车第一个AI Day,当年的预言第一次真正应验。

One more thing

极越上半年PPA开通300城,不同于其他玩家强调“无图”或“不依赖地图”。

背后是百度另一大支柱业务的支持——百度地图。

不是“无图”,但也不是“高精”,而是采用了普通导航地图和高精地图之间的一种形式——LD地图。

不像高精地图那样需要采集车全程采集,而是借助 ViT 技术由自动驾驶的视觉感知大模型生成而来。

满足智驾需求,又不需要高精地图那样的重资产投入。

达到了“百度地图能用车道级导航,极越就能使用 PPA”效果。

极越智驾“开天眼”,其实也是当下算法无法完全摆脱地图信息的体现。

实际上,几乎所有宣称“无图”的智驾,后台多多少少采用了高精地图的信息。

所以“真无图”也许真的是个伪命题?

— 联系作者 —

智能车2023年度评选结果

在经过广泛征集、专业推荐,以及智能车参考垂直社群的万人票选后,智能车2023年度评选结果正式发布。涵盖三类奖项:

· 十大智能车领军人物

· 十大智能车产品

· 十大智能车技术方案

在汽车工业迎来百年未有之大变局时,我们希望能以此提供智能维度的参考和注脚。

其中,十大智能车领军人物是:

<< 左右滑动查看更多 >>



—  —

智能车参考】原创内容,未经账号授权,禁止随意转载。

点这里👇关注我,记得标星,么么哒~


继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存