云智一体,构建汽车智能驾驶解决方案
本文整理自 2023 年 9 月 5 日百度云智大会 - 智能汽车分论坛,百度智能云云计算产品解决方案和运营部总经理宋飞的主题演讲《云智一体,构建汽车智能驾驶解决方案》。
今天很荣幸有这样一个机会跟大家做个分享交流,主要谈一谈百度智能云在汽车智能驾驶领域的一些思考和实践。
在过去几年,在国家政策引导、头部企业引领以及智能驾驶关键技术的突破等多重背景下,汽车行业发生了很多重要的变化。其中最重要的两个关键词,就是电动化和智能化。
在电动化方面,根据中国汽车工业协会的数据,2022 年中国新能源汽车的销量占比已经达到 25%,提前三年完成 2025 年规划目标。汽车电动化的快速发展,也为汽车智能化奠定了充分的基础。根据最新国标,汽车智能驾驶技术分为 L0 到 L5 共六个等级。从 2022 年的数据看,L2 级别的自动驾驶技术的渗透率已经达到了 38%。而根据各大厂商量产车型的相关发布计划看,从 2022 年年底开始,具备 L3 级别智能驾驶能力的汽车将逐渐进入市场。预计到 2025 年,L3 级别智能驾驶的渗透率能达到 8%,L2 以上智能驾驶达到 70% 以上。
通过这样一些宏观的数据,可以说汽车行业的发展,已经从上半场的电动化进入到了下半场的智能化。
但车企在进行智能化技术研发的时候,我们也观察到了车企面临的很多挑战,这里简单的谈几点。
第一点是研发模式变化带来的挑战。从最开始的规则驱动到现在的模型和数据驱动。智能驾驶在落地开放场景时,仍然会面临很多新的 case 需要处理。如果想提升智能驾驶在量产车型上的体验,就必须要及时发现并处理业务中发现的一些新情况。通过这些 case 的处理优化算法,就可以让车可以在各种场景下都能有很好的体验。在这样的背景下,车企需要构建相关的工具链去提升自己模型迭代的效率。
第二点是数据合规带来的挑战。刚刚提到智能驾驶的技术的迭代高度依赖数据,但同时汽车采集到的很多数据确实又包括很多敏感数据。从国家的政策也能看出,数据安全已经上升到国家战略的高度,各个部委陆续出台很多政策,对于数据的合规使用提出了明确要求。但是对于车企来说,合规是要付出成本的。如何构建一个兼顾合规和业务的高速迭代的方案,对于车企来说也非常关键。
第三点是大模型技术应用与落地的挑战。大模型是人工智能技术发展过程中的新的热点,加速了人工智能技术的落地,并带来了人工智能研发范式的改变,显著提升了算法的效果和落地效率。在过去,人工智能往往是针对很多碎片化的场景去逐个迭代算法。而大模型改变了这个模式——训练好的大模型加上一些行业场景数据精调,就能够很快让大模型有非常好的应用效果。智能驾驶过去几年也一直在尝试大模型技术的应用和落地。但实际上,对于大模型技术来说,它的落地并不是一个简单的事情,既需要算法层面的突破,也需要强大的算力基础设施。如何管理好可能的 EFLOPS 级别的算力,对于车企来说也是一个巨大的挑战。
围绕着这些挑战,百度智能云在「云智一体,深入产业」战略的引领下,对百度智能驾驶解决方案进行了全面升级,共分成四个维度。
最底层是广泛分布的各种领先的分布式云基础设施,涵盖了中心云、边缘云和专有云,以满足不同场景不同企业的各种部署需求。
再往上是面向 AI 研发领域的基础设施。我们提供了全栈自研的 AI 基础设施——百度 AI 大底座,满足客户在 AI 研发阶段对高效能算力、全生命周期管理等多层次的需求。
接下来是面向数据的合规管理需求的合规方案。结合云基础设施,我们构建了合规专区,以此来满足客户在数据处理全生命周期中的合规问题和政策的各种要求。
最上层是针对智驾研发领域的数据闭环需求,我们提供了面向智能驾驶研发数据闭环的完整解决方案,并提供了端到端的工具链平台。
通过以上「云智一体」的解决方案,百度智能云为车企客户提供了业界领先的数据闭环解决方案,系统性打通从数据采集、数据策略管理、数据回传、数据处理、数据分发、数据标注、模型训练、仿真,再到新的模型 OTA 下发的端到端流程,以此高效地支持车企智能驾驶研发的迭代过程。
百度智能云在全面升级云智一体的智能驾驶解决方案的背后,也是百度自 2013 年起就在自动驾驶领域的坚定投入,并且坚持技术开放共享的结果。
首先是在技术的积累和实践的层面,百度保持了十年的压强式投入,进行了 100+ 城市道路里程的覆盖。同时在这个过程中,构建了上千个仿真度量指标和来自于真实道路场景中千万级的场景库能力。
其次是在系统的工程效能层面,我们结合百度自身多年在 AI 基础设施领域的投入,可以支持千卡级的并发训练,在存储层面能够支持百万级 IOPS 和 PB 级吞吐存储服务,以及 EFLOPS 级别 AI 算力集群的管理能力。
基于百度提供的如上方案,在百度自身实践和智能驾驶研发落地过程中也有较好的落地效果,可以做到天级别的算法迭代、周级别的 OTA 更新,以及超过 10 个以上的合规场景处理和日行千万公里的仿真的能力。
下面分别针对解决方案的每个环节进行更细致的介绍。
首先是我们的 AI 基础设施——百度 AI 大底座,重点聚焦在异构计算平台层面。它提供了包含 AI 计算、AI 存储、AI 加速、AI 容器多项新的领先能力。通过这些能力,可以系统性满足车企在 AI 训练和 AI 推理等多个领域的资源需求,并在性能、性价比、资源利用率等多个层面达到业界领先的水平。
在最核心的计算和存储层面,我们也针对智能驾驶研发过程中的每个细分环节提供了全场景的产品能力。
首先,在计算算力层面,车企客户关心包括性能、稳定性、效率等在内的一系列功能问题。
在性能上,百度智能云提供了高性能的算力集群,基于业界最领先的 H800 芯片,单节点就可以有 8P 的算力,能够很好地满足大模型的训练需求。
另外在大模型的训练过程中,需要大规模的训练集群。当集群规模到了千卡、万卡级别后,保证集群的稳定性就成了一个非常有挑战的问题。因为当规模大了以后,硬件的故障理论上是不可避免的,但我们不能说因为硬件的故障就让训练任务中断,这对于我们研发影响是非常大的。针对该挑战,百度智能云提供了涵盖了集群环境诊断调优、故障及时检测、自动的硬件容错和任务快速恢复在内的多种机制,可以做到在千卡任务的月级别训练过程中不中断的水平。
此外,有了算力集群,如何让算法在集群上高效地运行也是模型训练过程中另一个问题。百度智能云针对主流的自动驾驶算法,通过 AI 加速进行了专项优化,可以让模型训练的效率提升 4 倍以上。同时通过软硬一体的协同优化,能更好地发挥出集群的能力,提高模型迭代的速度。
除此之外,很多车企研发模型的时候存在一些芯片在环的仿真需求和相关场景,百度智能云在云上支持了多款车载芯片的仿真方案。
第二点是数据存储层面。在智能驾驶汽车上,通常搭载多个摄像头/激光雷达等传感器设备,每天产生大量点云或者视频数据。这些数据如何高速上传、高性价比存储,以及高效支撑训练,都是在系统搭建过程中必须解决的难题和挑战。百度智能云提供了「百度沧海 · 存储」的最佳解决方案。
首先,在数据上传环节,分为采集车场景和量产车场景。采集车场景下的数据量比较大,每天大概有 TB 甚至更多量级的数据需要传到数据中心。为此我们专门打造了多并发的上传工具,可以在 24 小时或者更短时间内把采集到的数据上传到数据中心,并让其进入到模型的迭代过程中。而在量产车场景下,我们提供的核心对象存储产品可以支持单桶百万级 QPS 的传感能力,以满足海量量产车的数据的实时传输需求。
其次在合规层面。我们针对车企的合规诉求提出了智能驾驶合规专区的解决方案,帮助车企减少合规落地时候付出的成本的同时,又满足了不同的数据应用需求。我们针对采集车和量产车均有相应的合规数据管理方案。
最后在工具链层面,结合百度 AI 大底座,我们提供了涵盖从合规、数据、仿真、运营、开发这些多要素的全流程工具链,可以支撑车企在安全合规处理、数据闭环、研发迭代、测试监管、OTA 升级多个阶段提升需求。
基于百度智能云持续的努力,我们也致力于服务好众多的客户,帮助客户提升他们在智能驾驶研发领域的竞争力。感谢客户的信任和支持,我们在市场上取得了一定的认可,在 IDC 发布的报告显示,百度智能云在 2022H2 的自动驾驶研发解决方案领域取得了 35.9% 的市场份额,排名第一 。
后续我们也会继续努力,持续地升级迭代产品和方案,更好地服务好客户,和合作伙伴一起提高中国整个汽车产业在智能化时代的竞争力,我的分享就到这里,谢谢大家!