查看原文
其他

毫末硬刚特斯拉

圆周智行 圆周智行 2023-11-23

近日,毫末智行在AI DAY上发布了智算中心“雪湖·绿洲” MANA OASIS。



发布智算中心,是基于毫末对自动驾驶发展大趋势的判断。毫末将自动驾驶分为3个阶段,分别是硬件驱动,软件驱动以及数据驱动。毫末认为,整个行业正在迈入数据驱动阶段。



如果单从数据量来看,行业还在2.0阶段,但是头部企业已经开始往3.0阶段布局。毫末预计,到2025年中国高阶智能驾驶搭载率将会达到70%,中国汽车市场增换购消费比例将超过60%。


在此之前,要解决的一个关键问题就是,把智能驾驶系统的综合成本打下来。毫末认为这个时间拐点在2023年。


这背后的技术支撑在于,视觉传感器在成本上优势非常明显,但是仅依靠纯视觉实现精确感知的难度又很高,如果通过视觉做到非常好的4D时空感知,实现类似激光雷达的效果,这样更容易将高阶智能驾驶功能落地到中低算力的中端车型上。


嗅到视觉路线前景的企业并非毫末一家:地平线基于自有芯片研发了视觉感知算法,提供软硬一体的解决方案;大疆通过双目视觉的方式将其辅助驾驶系统在10万级的五菱宏光KiWi EV上落地;Mobileye更是凭借视觉方案一路登顶全球自动驾驶公司出货量第一的宝座。


视觉路线与大数据的正向关系在于:1、相机成本更低,性价比更高,更容易大规模商业化落地;2、相机是智车上数量最多的传感器,数据积累更快。


对于视觉路线,毫末有坚持的先决条件:


1、视觉路线对数据的依赖度更高,毫末背靠长城汽车,后者拥有巨大的市场体量,更有利于数据积累。


根据毫末官方公布的数据,截止2022年底,毫末智能驾驶用户行驶里程已经突破2500万公里,都来自于Hpilot1.0和2.0的数据。毫末在其中提取出了28万小时高价值智驾数据。


这个数据相较于自动驾驶庞大的数据需求量不值一哂,但在整个行业确实是处于绝对拔尖的位置。


2、毫末的技术团队大部分出身百度,百度最早研发的纯视觉技术Apollo Lite已经商业化落地,在这方面有很深的积累。


智算中心可以看成是毫末对特斯拉的一次正式亮剑。在所有特斯拉的追随者中,毫末是步子迈得最大的一个。


视觉数据向4D Clip演化


传统的自动驾驶训练数据,以单帧单要素来组织。不利于系统进行相关的感知动作。


比如如果要做车道线识别,就用相机拍摄很多张车道线,在训练前把车道线标注出来;如果要做自行车识别,就用相机拍摄很多有自行车的照片,在训练前把自行车标注出来,等等。这样的结果是效率很低,并且没有时间的维度信息。


毫末的做法是把这种数据组织转变为一段连续的视频,官方称之为Clip,在这个视频中,所有需要的要素都全部标注出来,然后再进行训练,就是所谓的4D Clip。

 

每段Clip可以理解成连续帧拼接成的视频信号,再加上有毫米波、激光雷达等信号,它们按照时空顺序组织在一起。一个Clip的数据量是原来帧的几十倍。


要实现数据的Clip形态并不轻松,它的整体形式以4D方式呈现(3D空间+时间维度),并且要求在数据标注时能够一遍通过,更要求时序的连续性。


这是一次数据形态底层的技术变革。Clip将会是后面自动驾驶感知的主要数据形态。


毫末以后的车端感知都会以Clip的形态去做标注,并且会把之前积累的图片离散帧的大量数据转化成Clip形态。


为此,毫末建立了大量以Clip为单位的文件,让无数个小文件在系统里面流动。而毫末要做的事情就是对这些数据进行高效管理。


在数据管理上,为了充分发挥智算中心的价值,让GPU持续饱和运行,毫末经过2年多研发,建立了全套面向大规模AI训练的毫末文件系统。


在采集端,毫末把数据按照训练的要求,以4D Clip为单位组织文件形态;


在传输端,毫末对数据进行场景化分析,打上各类标签,方便模型基于标签从不同维度对数据进行采样、分布统计、语料提取;


这个可以理解成购物不同的选项,比如价格、性别、品牌,等等。对应到响应场景里就好像雪天、雾天、雨天,等等,这样更有利于模型训练。


在训练端,毫末基于分级存储理念,把对象存储、高性能、显存充分整合,实现高容量与高性能并存。


毫末与特斯拉的路线相近,采取Clip数据处理形式的并非毫末一家,特斯拉也在Clip领域有了深度探索。


MANA OASIS建立五大模型处理问题


依托Clip数据和智算中心,毫末设计了五个大模型来解决自动驾驶中的一些关键问题,它们的作用分别如下:


视觉自监督大模型:4D Clip的自动标注,降低训练数据成本。


这其实是一种数据自动标注手段。尽管业内一直在强调数据的自动标注能力,甚至前一段时间还传出了特斯拉裁员自动驾驶标注团队的新闻,但目前数据标注的自动化率依然很低,大量的工作仍然需要人工参与。


很多标榜自动化率很高的公司虽然内部没有太对数据标注人员,但大部分工作都交由外包公司来完成,其实还是逃不开人工标注。


在4Dcilp的前提下,毫末的想法是10%的数据由人工标注,90%的数据有模型自动标注。


其原理是将输入视频Clip的某些部分遮住,然后预测这些被遮挡的部分,从而学到了更好的视频表征。


这个事情可以这么理解,比如画画,在一张画了大象的画布上只露出大象的头和脚,其他部分遮挡起来,然后作画者根据已知的部分画出一只完整的大象。


具体做法是,先用海量视频通过这个方式预训练一个大模型,然后用少量已经人工标注好的视频数据进行验证,训练出一个检测跟踪模型,使得模型具备自动标注的能力;在将原先已经标注好的单帧数据对应的原始视频提取出来,其中少部分帧是带标注的,更多帧是不带标注的;将这些Clip输入到模型,完成对90%未标注帧的自动标注,以此实现所有单帧标注向Clip标注的自动转化。



这个方法有点“自动补缺”的意思,一张桌子分成6块,抽走其中的3块,通过剩下的三块,将被抽的三块补上,拼成一张完整的桌子。如果被遮挡物不是足够复杂其实还好,但是如果太复杂可能会影响准确率。根据毫末的说法,它的效果非常好,并且通过这种方式降低了98%的Clip标注成本。


3D重建大模型:通过数据生成,主要针对数据分布问题的降本增效。


自动驾驶模型训练中有一个让人非常头疼的问题是corner case场景数据的获取,但这又是系统安全的大前提,那么有没有一种办法自己“造”一些数据出来呢?


于是,毫末提出了3D重建大模型的思路。它的灵感来源于电商领域,厂家希望全方位的给用户展示商品信息,可以通过多角度的照片直接“合成”该物体的3D画面。


这个过程是可逆的,同样,通过3D画面的任何一个角度也可以得到该画面的照片。


毫末将这个技术用在自动驾驶领域。通过该方法,毫末对二维视频里的画面进行场景信息丰富,并且可以在三维空间通过改变视角、光照、纹理材质,来生成各种高真实感数据,相当于感知升维,让其变成3D场景。



毫末介绍,通过该方法,感知的错误率在原来的基础上降低30%以上,并且整个数据生成过程基本不需要人工参与,可以做到全自动化。接下来,毫末会将过去积累的数据全部场景3D重建化。


这个方法可以理解成仿真,跟真实的情况肯定会有差异。


多模态互监督大模型:完成通用障碍物识别动作。


自动驾驶视觉方案中,还有一个非常有难度的事情是,城市异形障碍物的稳定检测问题。


此前蔚来汽车就曾在辅助驾驶状态下因为高速路上的一辆侧翻车没有识别而出现重大交通事故,对视觉系统来说,侧翻车就是异形物体,包括路面突然掉落的轮胎,被撞倒的石墩子,多种多样。这样的长尾场景无穷无尽,真实的驾驶数据收集不可能穷尽。


那么,有没有一种办法通过验证的方式,让车辆在视觉感知下第一次看到该异形物时就能准确识别?


这时候激光雷达就派上了用场。毫末的思路是引入了激光雷达作为视觉的监督信号,可以直接使用视频数据来推理场景的通用结构表达,从而对该场景进行准确识别。


激光雷达的作用主要是对当下场景的补充和“纠正”,比如路线的护栏,公交站牌等,通过激光雷达的“纠正”会更加清晰,更有助于系统做出正确判断。


动态环境大模型:预测道路的拓扑关系。


由于高精地图的各种限制,业内的主流思路是“重感知,轻地图”,毫末堪称其中代表,很早就提出了这个思路。


此前毫末解决地图更新慢问题的办法是,利用道路拓扑(地图元素之间的关联性,比如车道分流等),后来发现拓扑依然无法跟上真实环境变化的速度。


于是毫末就提出了动态环境大模型方案,在BEV的feature map(特征图)基础之上,以标清地图作为引导信息,使用自回归编解码网络将BEV特征解码为结构化的拓扑点序列,实现车道拓扑预测。简单点说就是,在标清地图上通过自动标注的方式实现各个元素之间的相互关联性。



环境道路之间的拓扑最大的问题就是城市路口,解决了路口问题就解决了大部分城市NOH问题。毫末的算法在保定和北京85%的路口拓扑预测上,准确率达到95%。


人驾自监督认知大模型:让自动驾驶更像人类“老司机”。


体验也是自动驾驶一直在突破的问题,这与其系统的认知水平有关。传统的做法是基于规则的认知算法,比如看到前车100米就刹车,看到A就B的逻辑运算。但真实场景中这些都没有必要采取行动,很影响用户体验。现在看来,这种方法已经进入瓶颈,很难取得突破。


那么,如何提升系统的自认知能力?


毫末此前走过的两条路分别是,个别场景的端到端模仿学习,直接拟合人驾行为;通过大模型,引入海量正常人驾数据,通过提醒的方式实现认知决策的可控可解释。


但这两个办法还是不够精准,海量数据无法优化具体场景,比如在同一个路口,100个司机有100个开法,那么系统学习出来的结果就是100个人的平均水平。


毫末现在想做的是,让机器去学习这100个人中开得最好的那个人的开法。毫末从真实接管数据找到了突破口。人类司机的每次接管,都是对自动驾驶策略的一次HumanFeedback(反馈),毫末基于此构建了一个<旧策略、接管策略、人工标签策略>的成对排序模型,基于这个模型,毫末构建了自动驾驶决策的奖励模型,自动选出最优解。



简单点说就是建立大模型,并且通过人类反馈来强化系统的学习能力,


以上五种大模型包含了毫末针对自动驾驶系统在感知和认知上的解决方案,而并意味着毫末的大模型只有5种。


建设MANA OASIS的底层逻辑


行文至此,我们再来回看,毫末为什么要建立MANA OASIS智算中心,目的显而易见。


1、要处理如此大的数据量,需要多种大模型,以及高算子。毫末现在有超过500多个高性能算子,对应200多种网络结构,用以处理数据。


这就必须要有一个强大的计算中台,MANA OASIS就是这个中台,其算力达到67亿亿次,保证它处理的大模型数量和种类。


2. 自动驾驶的数据是片段式,有百亿个小文件,其随机存储的效率代表智驾系统的训练效率。


根据毫末的说法,得益于对文件系统的整理,毫末最终实现了百P数据筛选速度提升10倍、百亿小文件随机读写延迟小于500us。在毫末文件系统的加持下,消除数据瓶颈,GPU利用率从60%提升到接近80%。


3. 自动驾驶大模型训练需要交换的数据多,这就要求有高性能的存储带宽,这样大量的数据才能在大模型中顺畅流动。


毫末智算中心拥有2000张GPU卡。

 

这里有一点需要纠正的是,目前数据处理的关键,不是GPU显卡本身的快慢,

而是通信的流畅度,以及对于文件系统的管理。


当有大量文件需要吞吐时,通信必须要达到500微秒的文件读取速度,才能把几十万、几百万的Clip放在一起训练。否则系统的训练速度就会由于文件读取的原因而卡在那里。相当于大量的GPU在闲置,等待文件系统把数据读上来,它才能开始算。


这个可以类比一下水管出水的原理,尽管上游的水源供给很充足,但是水管口很小,放水速度就会很慢,是一个道理。


4. 所有的计算能力,目前还不能在单台服务器中完成,需要多台服务器协同工作,这也就要求集群通讯带宽的存在。


5. 当自动驾驶所需要的模型变得很大的时候就会稀疏,transformer就是如此,这就要求更好的并行计算框架,在训练的时候把硬件资源都利用起来。提升整体的运算效率。毫末智算中心的作用就是对所有的硬件资源进行整体调度。


6. 人工智能发展很快,新的算法层出不穷,这就要求能够尽快引入新的技术和新的模型。而这样变化莫测的技术支撑就需要一个大的智算中心来承担。


作为大数据时代的技术基座,智算中心可以说是大势所趋。国内自动驾驶头部企业小鹏汽车也建立了自己的自动驾驶计算中心。


毫末亮剑特斯拉


《圆周智行》认为,智算中心的建立是毫末对特斯拉的一次正式亮剑,是二者共同对视觉感知大趋势的判断与认可。


诚然,作为后来者,现阶段毫末比之特斯拉在某些方面还存在进步的空间。


特斯拉拥有超大体量的自车产品落地来积累数据,而毫末则更多依靠主机厂的装机量来完成。


相关数据显示,特斯拉FSD Beta行驶里程已经超1亿公里,而毫末目前的2500万km 只是他的四分之一。


毫末有一个初步判断,至少要不断逼近1000万Clips的规模,自动驾驶才有可能真正走向成熟,城市辅助驾驶才能没有任何约束条件的完全落地。而目前的2500万km的数据估算下来大概数百万Clip,还差几倍的数据量。


特斯拉具有更强的成本控制能力。智能驾驶套件作为车辆的一环,特斯拉可以从整体上去控制其成本,上车率更高。但毫末作为供应商,只能通过自动驾驶套件去适配主机厂,成本控制难度更高。


此外,特斯拉“计算平台+芯片+算法”软硬件一体的能力也非毫末所能及;


但这并不意味着毫末没有胜算。聚焦到中国市场,毫末在国内本土作战,具备明显的地域优势,政府对外资企业的数据管理工作更严。


中国市场的体量足够大,毫末拥有足够的发挥空间。有消息称,目前毫末也在考虑在长城之外,进一步拓宽其他品牌的想法,这会让毫末的数据积累更快。


此外,在信息感知度上,毫末的感知也更丰富。


特斯拉走的是纯视觉路线,从ADAS功能到FSD均采取该思路。而毫末有纯视觉、视觉+毫米波、视觉+毫米波+激光雷达多种感知模式。毫末正在探索依靠视觉来实现完全感知的方案,激光雷达会作为一个监督信号,在视觉路线下让感知信息更加丰富。


视觉感知的优势和趋势不言而喻,但实现的方式却八仙过海。单纯从数据积累角度看,其实就是在打明牌,不同点在于,谁能更快的实现数据积累和利用,谁才能在未来的决战中赢得制高点。


推荐阅读:

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存