查看原文
其他

博世“踩点”,下一代汽车摄像头“革命”临近

技术前瞻 高工智能汽车 2023-02-03

加入高工智能汽车专业行业群(自动驾驶,车联座舱,商用车),加微信:17157613659出示名片,仅限智能网联软硬件供应商及OEM。

智能驾驶领域采用的传统基于帧检测的感知技术路线,是否存在缺陷?答案是肯定的,不管是摄像头还是激光雷达。事实上,已经有不少企业正在开发新的技术路线来弥补现有感知的能力。


众所周知,目前市场采用的基于帧检测的视觉感知,与卷积神经网络配合可以部署识别和分类物体,包括人、动物、车辆、道路标志和各种其他障碍物。


但弊端也比较明显,比如,系统通常成本高昂,并且需要高能耗的CPU或者GPU。其次,以预定的帧率捕获视觉信息,增加了图像处理的数据吞吐量要求。



而基于事件的成像原理,传感器仅跟踪场景中的变化,不会传输在摄像头视场中保持不变的任何事物。它与传统摄像头不同,没有帧,每当单个像素中光强发生变化时,它就会累积。


“基于事件成像的主要优势是,在检测和跟踪应用中,能够以比基于帧的图像传感器快1000倍的速度捕获运动图像。”一家研发相关技术的公司负责人表示。


如今,基于事件成像的技术商业化进程已经开始。


一、降低延迟和数据处理量


去年初,全球图像传感器巨头索尼公司宣布,与一家初创技术公司联合开发出一种基于事件的堆叠式图像传感器,拥有业界最低的4.86μm像素尺寸以及业界最高的124dB(或更高)的高动态范围图像(HDR)性能。



新型视觉传感器体积小、功耗低,具有高分辨率、高速度、高时间分辨率等特点,可异步检测每个像素的亮度变化,并输出像素发生变化的数据,包括坐标和时间。


更关键的是,这种类型的视觉传感器,可以实现高效率、高速、低延迟的数据输出,此外,可以实现出色的弱光性能,快速的像素响应、高时间分辨率和高吞吐量的数据读取。


此外,通过有效压缩事件数据,即每个事件的亮度变化极性、时间和x/y坐标信息,已经实现了1.066Geps的高输出事件发生率。


在事件相机的感知中,对于每一个像素,当灰度值的变化超过一定的阈值之后,该像素位置就会产生一个输出,然后根据灰度是增加还是减少输出对应的极性。


目前,一些汽车制造商也已经盯上了这项技术可能带来的巨大潜在机会。去年初,戴姆勒与驾驶辅助系统开发商Terranet AB签署了一份开发采购协议,看中的就是后者推出的突破性3D动作感知技术VoxelFlow。


在Terranet AB公司看来,VoxelFlow技术能够比激光雷达更准确、更快地检测和分类物体。原因是,使用基于帧的方法感知时受到基本速度限制,尤其是无法检测到近距离、需要低延迟检测的运动物体。


统计数据显示,80%的撞车事故和65%的近距离撞车事故都与驾驶员在撞车前3秒内的注意力不集中有关,因此低延迟的检测能力尤为重要。


VoxelFlow采用的就是基于事件的感知技术,使用非常低的计算能力以极低的延迟对动态移动对象进行分类,每秒产生1000万个3D点,从而在没有运动模糊的情况下快速检测到移动物体。


从技术原理来看,基于事件感知,可以更有效地理解运动物体的轨迹,通过连续逐像素跟踪,而不再是逐帧序列分析。




相比之下,iPhone等智能手机的摄像头就逊色多了,每帧只有3.3万个像素点。不过,和目前智能驾驶系统使用的普通摄像头相比,手机摄像头反而更强大。


事实上,去年博世量产的第三代多功能摄像头采用的密集光流法,和上述提到的基于事件感知有一定的相似性。密集光流法,主要是替代目前的稀疏光流法,提高暗光环境下对物体的感知能力以及对小型物体的感知能力。


而基于事件感知的摄像头可用于多种应用,其中之一就是实现单目感知环境下的深度估计。不过,此前,核心的感知芯片体积较大,还不能完全满足汽车行业的要求。


二、2024年开启应用窗口?


与激光雷达相比,这种基于事件的感知技术的优势在哪里?


激光雷达,就是典型的基于帧的感知技术。它使用不可见的激光束来扫描物体。与人眼相比,激光雷达扫描和探测物体的能力非常快。



不过,瓶颈也恰恰在近距离感知。原因是,目前市场上推出的激光雷达,在30-40米以内距离对障碍物的反应速度还是不够快。


此外,考虑到激光雷达与摄像头的融合,后者的运行速度大部分是每秒30帧(fps),每帧的处理延迟是33毫秒。为了准确地检测行人并预测运动轨迹,需要多帧检测。


这意味着,最终的感知决策可能需要数百毫秒才能发挥作用,而一辆时速60公里的汽车只需要200毫秒就能行驶3.4米。尤其是人口密集城市十字路口,延迟效应会更明显。


而基于事件的传感器系统可自动持续校准,同时也可以提供自动驾驶系统所需的角度和距离分辨率。与激光雷达系统相比,在大雨、雪和雾等恶劣天气也表现良好。


一些行业人士表示,潜伏多年的神经形态(又被称为基于事件感知)视觉传感器行业最近几年又开始卷土重来。两年前,三星为其动态视觉传感器技术提交了商标申请,不过,目标是移动和平板电脑应用。


此外,索尼也几乎在同一时间收购了总部位于苏黎世的Insightness公司,后者的视觉传感器可以在毫秒内检测到运动,即使传感器本身在运动。


捕捉特定场景,减少数据冗余和延迟是基于事件感知的特点之一,这项技术起源于Misha Mahowald于1991年在神经信息学研究所和苏黎世联邦理工学院开发的“硅视网膜”,通过模仿人类视网膜,只检测空间和时间的变化。


这一灵感推动了动态视觉传感器(DVS)概念的研发思路,当外部环境发生变化时,只有局部像素级的变化被采集,从而产生微秒分辨率的事件流,相应的功率、数据存储和计算要求都得到了显著降低,传感器动态范围(超过120 dB)也得到了提高。


由于基于事件的摄像头只传输环境强度的变化。因此,它们不会出现运动模糊,并且可以实现微秒级的延迟,加上非常高的动态范围和非常低的功耗。


有机构表示,移动设备(比如智能手机)的应用时间窗口将在2021年或2022年打开。此外,基于事件的摄像头还可以更容易实现非触摸互动,比如手势识别。


众所周知,传感器是自动驾驶汽车能否实现安全运行的关键。不过,它们还会产生大量数据,而系统受到处理能力的严重限制(增加芯片,除了带来功耗的增加,即使算力足够,也会产生延迟的问题)。


一个解决方案就是提高数据质量以及数据处理的效率。“如果使用激光雷达、可见光及热成像摄像头,再加上毫米波雷达,也应该考虑基于事件感知的摄像头。”上述行业人士表示。


有机构此前发布报告称,面对数据带宽的限制和不断上升的计算需求,传感和计算必须通过模仿神经生物学架构来重塑自身。


目前,这个领域,全球仍只有少数几家公司掌握相关的量产技术,包括Prophesee、三星、Insightness(索尼收购)、Inivation、Celepixel等几家公司。


https://mp.weixin.qq.com/mp/readtemplate?t=pages/video_player_tmpl&action=mpvideo&auto=0&vid=wxv_1715221977537314826


其中, Prophesee公司是典型代表,累计融资6800万美元,投资者包括英特尔、博世等行业巨头,其上一轮融资就准备用于开发一款面向汽车ADAS及自动驾驶应用的图像传感器。


按照目前的商业化量产应用路线图,该技术最初的市场是工业和移动领域,主要是机器人和智能移动设备的实时感知,预计汽车自动驾驶领域的应用将从2024年开始,这项技术可以让计算机理解非结构化环境方面发挥强大作用。



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存