自动驾驶之心

其他

历史地图发大力!HRMapNet:日日新的在线地图新方案(港中文)

专注于如何利用历史栅格化地图来增强在线矢量化地图的感知,作者并未设计过于复杂的地图维护机制,而是采用了一种源自机器人领域的占用网格建图技术的简化版本,用以将局部预测结果整合入全局地图。参考[1]
2024年9月11日
其他

地图先验的花式玩法?元戎启行提出PriorMapNet:暴涨3个点!

Priors投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!重磅,自动驾驶之心科研论文辅导来啦,申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向,欢迎联系我们!①
2024年8月27日
其他

无图最强Trick | MapDistill:速度精度双起飞,让End2End更丝滑 !

MapDistill的细节跨模态关系蒸馏:跨模态关系蒸馏的核心思想是让学生模型在训练过程中模仿教师模型的跨模态注意力。更具体地说,对于教师模型,我们调整相机BEV特征和激光雷达BEV特征转换为2D
2024年7月25日
其他

国内最大的自动驾驶社区!死磕技术分享与求职交流

最近有个粉丝私聊博主,身边有同学拿到了45k*16的薪资,再回看自己还没找到工作,实在有压力,也非常羡慕。不得不说啊,这待遇也已经超越了很多2~3年的社招人群,真是长江后浪推前浪!这也能验证一个事情,自动驾驶依然是有很充裕的资金支持研发,各大企业也愿意投入高薪招聘人才。回到正题上,后面电话和这位同学聊了下,之所以没拿到合适的offer。一方面是因为导师放养没有能打的项目,另外一方面缺乏实习经历,以及秋招刷题面试的详细攻略。其实我一直相信,咱们的同学都是比较聪明的,但如果没有正确的方法论面对求职,依然有很大风险,相比于那些准备充足的,企业更想降低试错风险。如何准备呢?我的答案是找对圈子,让你每天能够主动和被动接受很多新的知识,包括领域知识体系的梳理、刷题、面试经验、各家企业现状、各个岗位的具体职责以及后续的职业前景等。一个人入门学习,无异于大海捞针,浪费了大把时间踩坑,还得不到想要的答案。哪里有专业回答的规划呢?这里我推荐一个我们一直在维护的社区:自动驾驶之心知识星球,目前是国内最大、最专业的自动驾驶社区。国内最大最专业的技术交流社区近30+自动驾驶技术学习路线最实时的技术分享平台,精确到24小时国内最全的自动驾驶视频学习平台自研自动驾驶面试一百问近100+自动驾驶公司,200+高校成员当天完成所有问题的回答50+自动驾驶算法开发专家解答最新职位内推,简历直达工作/求职互助,相互吐槽自动驾驶行业的“黄埔军校”自动驾驶之心知识星球,创办于2022年7月份,致力于打造为自动驾驶行业中的
2024年4月11日
其他

自动驾驶全栈学习路线正式推出了!

为了方便大家入门学习,自动驾驶之心为大家推出了近13个感知定位融合与标定学习路线,里面的论文和学习资料特别适合刚入门和转行的同学,内容较多,建议大家收藏后反复观看。添加小助理微信AIDriver004,领取所有学习资料,备注:自动驾驶之心资料领取哦~扫码添加领取(一)3D目标检测系列3D
2024年3月5日
其他

自动驾驶之心交流群成立了!

自动驾驶之心是国内领先的技术交流平台,关注自动驾驶前沿技术与行业、职场成长等。如果您的方向是语义分割、车道线检测、2D/3D目标跟踪、2D/3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、点云处理、端到端自动驾驶、在线地图、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、Gaussian
2024年2月21日
其他

最新导航综述!SLAM方法/数据集/传感器融合/路径规划与仿真多个主题

点击下方卡片,关注“自动驾驶之心”公众号ADAS巨卷干货,即可获取点击进入→自动驾驶之心【SLAM】技术交流群后台回复【SLAM综述】获取视觉SLAM、激光SLAM、RGBD-SLAM等多篇综述!摘要在过去几十年中,自主移动机器人领域取得了巨大的进步。尽管取得了重要里程碑,但仍有一些挑战有待解决。将机器人社区的成就汇总为综述,对于跟踪当前最先进的技术和未来必须应对的挑战至关重要。本文试图对自主移动机器人进行全面综述,涵盖传感器类型、移动机器人平台、仿真工具、路径规划和跟踪、传感器融合方法、障碍回避和SLAM等主题。论文的出发点主要有两方面。首先,自主导航领域发展很快,因此定期撰写综述对于让研究界充分了解该领域的现状至关重要。第二,深度学习方法已经彻底改变了包括自主导航在内的许多领域。因此,有必要对深度学习在自主导航中的作用进行适当的处理,这也是本文所涉及的。还将讨论未来的工作和研究差距。机器人在很多方面影响了我们的生活。在技术进步的支持下,机器人已经在医学领域、军事领域、工业领域、空间领域、农业领域等多个应用领域找到了自己的路。将自主导航功能添加到机器人平台可以显著提高其性能,因为它们可以自行到达任何需要的地方。这种动机驱使研究人员将自主导航技术推向极限。鉴于自主导航主题的文献丰富且发展迅速,有必要定期准备文献调查。通过这种方式,经验丰富的研究人员和新来者可以深入了解自主导航的最新技术,这也是该综述的灵感来源。显然,已经发表了多篇关于自主移动机器人的综述。为了突出论文的调查与现有调查之间的差异,编制了表1,其中现有调查根据其出版年份进行了排序。如表1所示,一些主题在以前的调查中缺失,但在本文中有所涉及。例如,Niloy等人[224]只关注室内自主导航。Pol和Murugan[236]的调查也仅限于室内导航,除了考虑了环境中的人类存在。基于上述先前调查的缺点,本次调查旨在涵盖表1中列出的所有主题。论文努力做到:对传统和现代避障方法(基于RL和DL)进行综合处理;回顾最著名的SLAM方法;介绍众所周知的机器人模拟器,以及它们是否可以与机器人操作系统(ROS)连接[1];移动机器人平台的类型及其基于操作环境的特点;对著名的传感器融合方法(如卡尔曼滤波器[144]及其扩展以及粒子滤波器[114])进行了简单简明的回顾调查开源SLAM数据集。传感器如果没有感知周围环境的能力,自主行动是不可能的[249]。任何自主机器人都必须配备由硬件(传感器)和软件组件组成的感知模块。本节专门介绍自动移动机器人中常用的各种类型的传感器。绝对定位传感器移动机器人需要在其操作环境中移动,以便在环境中的不同位置实现其目标。例如,为了执行救援操作,救援机器人需要导航到受伤的受害者。自主导航的一个重要前提是机器人的自主定位能力。通常,相对于环境中的某个参考系进行定位。全球定位系统(GPS)接收器是一种常见的传感器,它根据从低地球轨道卫星接收的信息提供经度和纬度方面的绝对定位以及地球上或附近任何地方的时间数据。接收机使用卫星信号的接收时间与其广播时间之间的差来计算其与卫星的距离。如图1a所示,通过访问来自至少四颗卫星的信息,接收机可以为户外导航提供精确到几米的定位信息。GPS的缺点是,如果无法获得至少四颗卫星的无障碍视线,定位数据就会变得不可靠。在城市地区,信号中断可能是由高楼或高山造成的[2]。此外,GPS信号在室内环境中不可用。使用差分GPS(DGPS)可以减小GPS的定位误差。基本上,DGPS依靠地球上已知位置的多个固定信标。这些信标将其已知位置与基于接收的卫星信号和广播校正信息计算的位置进行比较,如图1b所示。GPS接收机可以使用这些信标广播的校正信号来减少它们的定位误差。DGPS的缺点是,当远离基站/参考站时,校正质量会降低[46]。障碍物检测传感器在本节中,将介绍常用于障碍物检测和回避的不同类型的传感器。视觉传感器:声称机器人系统具有自主导航能力几乎是不可能的,除非为机器人配备障碍物检测和回避手段。当涉及到障碍物检测时,可以想到各种传感器类型。单目(图2a)和立体/RGBD相机(图2b)以合理的价格提供了丰富的视觉数据。基于DL的强大视觉算法和具有合理处理能力的相对经济的边缘设备(如Jetson板[3])的出现,使视觉传感器成为执行包括障碍物检测在内的各种视觉任务的理想选择。在机器人移动期间,车载摄像头可能会受到振动,从而使拍摄的图像模糊。稳定视觉系统[26]解决了这个问题,其示例如图2c所示。稳定的视觉系统也提高了跟踪能力。距离传感器:障碍物检测最方便的解决方案之一是使用距离传感器测量飞行时间。雷达(无线电探测和测距)依靠无线电波来探测物体的距离、角度和/或速度。典型的雷达如图3所示。LiDAR(光探测和测距)的工作与雷达相似,但它使用的不是无线电波,而是脉冲激光。与雷达相比,激光雷达传感器能够以更高的精度测量距离数据。这些传感器的缺点是价格昂贵。此外,由于水的激光干扰,激光扫描仪无法感知玻璃障碍物,也无法在水下使用[245]。典型的激光雷达如图3所示。超声波传感器也提供距离数据,但与激光雷达和雷达相比精度要低得多。超声波传感器的总射程比激光雷达和雷达低(约七米)。超声波传感器的精度较低是因为它的辐射模式类似蝙蝠。因此,在接收到撞击障碍物的发射信号的反射之后,只能在发射波覆盖的区域内模糊地估计感测到的障碍物的位置。这与激光雷达(LiDAR)和雷达(RADAR)形成对比,后者提供了更准确的障碍物位置数据。典型的超声波传感器如图3所示。相对定位传感器前文对绝对定位传感器进行了调查。然而,在某些情况下,绝对定位是不可能的,这是使用相对定位传感器(如惯性测量单元(IMU)和编码器)的动机。IMU由沿{x,y,z}轴的三个加速计和三个陀螺仪组成。当IMU安装在机器人上时,加速计和陀螺仪分别测量机器人沿三个轴的加速度和旋转速率。使用惯性导航系统(INS)[283]的成熟数学,可以将IMU读数转换为机器人的有用3D位置和3D方向。由于IMU数据的连续集成,估计的机器人位姿受到累积误差的影响,通过将INS数据与其他传感器(如GPS和摄像机)融合,可以减少累积误差。另一种可用于地面机器人相对定位的传感器是旋转编码器。将编码器安装在机器人车轮上,可以计算车轮已完成的轮数。知道轮子的周长,就可以估计机器人的位移量。使用编码器的缺点是车轮打滑会导致错误的位移估计。移动机器人平台多年来,设计和开发了不同类型的移动机器人平台。移动机器人可以是地面[41、55、253、288]、空中[24、129、200]或水下[68]车辆。地面车辆地面车辆的尺寸和形状各不相同,这取决于其设计目标。除了结构差异外,安装在这些机器人上的传感器套件取决于其操作环境。在室内环境中,GPS无法访问,但由于周围的墙壁、门、家具等,环境通常具有丰富的特征。因此,可以使用距离传感器进行扫描匹配[165],以实现精确定位。使用双目相机也是实现深度数据的一种经济实惠的解决方案。机器人底盘周围的超声波传感器环也是室内环境中障碍物检测[156]或定位[211212]的可行解决方案。室内环境图示如图4所示。无论是室内还是室外,INS都可以用于基于IMU数据的定位。室内环境通常有光滑的地板,因此车轮不可能打滑,旋转编码器非常适合估计机器人的位移。对于室外环境,GPS可以帮助绝对定位,前提是GPS接收器和至少四颗卫星之间有清晰的视线。在城市环境中(图5a),由于高楼的信号阻挡,可能会违反这些条件。然而,城市环境本质上结构良好。通过对LiDAR数据进行扫描匹配,可以利用该特性来提高定位精度[302]。即使GPS信号可用,扫描匹配仍然可以提高定位精度[175]。另一种方法是视觉位置识别(VPR)[63194284],它通过识别以前去过的地方,在减少定位误差方面发挥着重要作用。在一些户外应用(例如军事)中,移动机器人会遇到恶劣、非结构化、有时无法穿越的越野环境。越野环境将移动机器人的机械[30]和自主能力[141]推向极限。如图5b所示,越野机器人必须配备大车轮、长行程悬架,最好配备全轮驱动能力,以便能够穿越不同类型的土地,如泥泞、岩石、雪地等。除了越野环境的机器人机械要求外,为了实现成功的导航,机器人的自主软件模块必须解决几个挑战:鉴于越野环境不遵循任何特定的结构[277],自主导航无法事先对其进行任何假设;一些越野环境,如沙漠,是没有特色的,这阻碍了机器人的定位,因为缺乏可识别的地标。例如,在沙漠中,由于风沙的移动,甚至地形形状也会发生变化;由于深谷、崎岖的河流、火山等,越野环境非常危险。因此,在路径规划过程中考虑不可通行的区域,以确保机器人安全至关重要;在越野环境中,一些障碍物可能像灌木丛一样可以通过,而其他障碍物则像山脉一样无法通过。检测可通过障碍物的能力对于通过移动可通过的障碍物缩短计划路径的长度至关重要;自主导航依赖于机器人传感器读数来做出决定。然而,由于密集的植被阻碍了有效的定位,传感器的视野可能受到限制;根据越野环境,必须对机器人运动控制器参数进行不同的调整[54]。例如,在下雪的环境中,施加到机器人车轮上的力的大小不同于尘土飞扬的土地。无人机虽然控制地面车辆比无人机(UAV)简单,但它们的移动仅限于可穿越的地面。与地面车辆相比,空中车辆不受这些限制,它们可以在更短的时间内到达期望的位置。然而,飞行器也有一些局限性。例如,飞行持续时间可能很短,特别是对于低级别的无人机。此外,控制模块的故障可能会导致无人机发生灾难性坠毁。另一个缺点是有效载荷有限。无人机可以承载有限的负载,这意味着必须明智地选择可安装在其上的一组硬件(例如传感器和处理单元)。鉴于IMU通常体积小且重量轻,使用它们来实现INS以有效地定位无人机是非常流行的。如图6a所示,UAV可以部署到各种户外环境,例如城市或非结构化和越野环境。为了保持INS误差有界,GPS传感器可以安装在无人机上[28,75,221,308]。在室内环境中使用无人机也是可能的。与室外场景的唯一区别是GPS信号不可用。代替GPS,INS数据可以与激光雷达[180]、激光数据和视觉传感器的混合[146]、超宽带(UWB)[266]、UWB和3D激光雷达的混合[178]融合。甚至还尝试了无人机室内/室外导航模式之间的无缝切换[60]。此外,霍尔效应传感器数据已用于帮助INS的速度更新[306]。霍尔效应传感器通过利用霍尔效应检测磁场的存在和大小。根据这种效应,垂直于电导体中的电流的磁场在电导体两端产生电压差,使得其与电流和磁场横向。水下车辆AUV可用于各种应用中,例如取回在海洋中坠毁的飞机黑匣子[139244],通过探测和处置爆炸物和地雷来加强港口和港口的安全[29,241],以及石油和天然气行业的基础设施维护[57,138,297,309]。然而,由于GPS不可用[112]和能见度有限,水下自主导航(图6b)具有挑战性。未能使用视觉特征配准机器人的当前位置会导致定位不准确,进而阻碍自主导航[239]。使用DR和INS定位AUV由来已久[172]。然而,由于水下环境中的噪声传感器数据、洋流和地球重力,这些方法存在累积误差[112]。为了处理累积误差,可以使用地球物理导航(GN)[243],其中AUV传感器读数与水下环境的地球物理地图相匹配。不幸的是,GN存在一些缺点,例如在导航开始之前需要环境的地球物理地图,以及将传感器数据与地图匹配的计算复杂性。作为GN的替代方法,可以使用声学测距系统[95],但它们依赖于复杂的基础设施,部署成本很高。研究人员已经探索了AUV定位的新替代方案,如光学技术[53]。然而,由于水下环境的恶劣条件,这些技术的发展速度已经放缓。在适当的照明条件下,视觉处理系统可以显著提高定位精度[112]。例如,Mehdi等人[1999]融合了IMU和从立体摄像系统提取的深度数据,以使用ROS中实现的SLAM绘制水下环境地图。该地图用于路径规划和自主导航。AUV适合传感器:第一个使用INS水下定位的传感器是IMU。为了处理INS累积误差,将IMU数据与其他传感器融合是至关重要的。多普勒速度记录仪(DVL)[20]是一种用于测量水下运动的声纳系统,可以确定AUV运动的速度和方向。关于绝对定位,GPS不能在水下使用,因为它的电磁信号衰减很快。声学信号是另一种解决方案,因为声学信号在水下衰减非常缓慢[126]。这种方法的缺点是它依赖于在导航环境中部署的基线站。基线电池需要频繁充电,以保持功能并响应安装在AUV上的询问器设备。此外,基线部署和恢复耗时且成本高昂,这使得声学导航在大规模环境中不切实际[158]。为了解决这个问题,麻省理工学院的研究人员开发了水下反向散射定位(UBL)[110],这是一种无电池精确定位系统。UBL不发射需要电池消耗的声学信号,而是反射来自其周围环境的调制信号。这样,在不需要任何电池操作的设备的情况下提供位置信息。UBL扮演水下GPS的角色。前视声纳和侧扫声纳等声纳传感器家族[151]广泛用于水下障碍物探测和定位。现成的水下摄像机系统[196]也非常常用于基于立体视觉提取深度数据。仿真工具为了在机器人领域进行研究,需要一个合适的机器人平台,它是软件和硬件组件的组合。在研究过程中,需要进行各种实验。这些实验很可能由于软件和/或硬件模块故障而失败。有时,这些故障可能会损坏机器人。另一方面,在真实的机器人上进行实验既乏味又耗时。另一种方法是在仿真中实现和测试机器人软件。这样,研究人员就不必担心意外损坏机器人,也不需要硬件来测试最初的想法。重置模拟场景也比重置现实世界中的机器人状态容易得多。在表2中,提供了一些主要机器人模拟器的特性[4]。虽然在模拟中测试新想法是有益的,但这并不是机器人项目的最终目标。迟早,模拟项目必须在真实机器人上进行评估。使用模拟器的缺点是,为了模拟真实世界的物理规律,可能已经做出了一些妥协。因此,在模拟中测试的项目可能需要一些改进和手动调整,以准备在真实机器人上部署。尽管如此,在部署到真正的机器人上之前,花时间和精力在模拟中开发机器人项目绝对是值得的,因为这大大缩短了开发时间和成本。在现有的模拟器中,像Gazebo这样的一些模拟器依赖于高质量的物理引擎,如开放式动态引擎(ODE)[5],以大幅减少模拟机器人和真实机器人之间的差距。这就是为什么许多知名机器人公司依靠ROS和Gazebo以软件包的形式为客户提供商业机器人的模拟工具。ROS是一组专门为促进机器人应用程序开发而设计的工具和软件库。使用ROS,机器人项目的开发时间大大缩短,因为可以使用高质量的现成软件包,这些软件包实现著名的算法并与各种传感器(硬件抽象)接口。ROS和Gazebo中具有下降模拟的知名机器人的一些示例包括但不限于Fetch机器人[6]、PR2机器人[7]、KUKA
2023年2月6日
其他

TPAMI 2022 | 视觉transformer最新调研!

点击下方卡片,关注“自动驾驶之心”公众号ADAS巨卷干货,即可获取点击进入→自动驾驶之心【全栈算法】技术交流群后台回复【transformer综述】获取2022最新ViT综述论文!Transformer首先应用于自然语言处理领域,是一种主要基于自我注意机制的深度神经网络。由于其强大的表示能力,研究人员正在寻找将transformer应用于计算机视觉任务的方法。在各种视觉基准测试中,基于transformer模型的性能类似于或优于其它类型的网络,如卷积和递归神经网络。鉴于transformer的高性能,transformer正受到计算机视觉界越来越多的关注。在本文中,通过在不同任务中对这些视觉transformer模型进行分类,并分析其优缺点,来回顾这些模型。探索的主要类别包括主干网络、高级/中级视觉、低级视觉和视频处理,还包括有效的transformer方法,用于将transformer推入基于真实设备的应用程序。此外,作者还简要介绍了计算机视觉中的自我注意机制,因为它是transformer中的基本组件。在本文的最后,讨论了这些挑战,并为视觉transformer提供了几个进一步的研究方向。Transformer首先应用于自然语言处理(NLP)任务,在那里它实现了显著的改进,例如,Vaswani等人[9]首次提出了用于机器翻译和英语选区解析任务的基于注意力机制的transformer。Devlin等人引入了一种新的语言表示模型,称为BERT(Transformers的Bidirectional
2023年2月1日
其他

终于完成了20+技术方向学习路线的搭建(BEV感知/3D检测/多传感器融合/SLAM与规划等)

历时半年,我们搭建了一个国内最专业的自动驾驶感知、定位融合、仿真部署的平台,完成了近20+的技术方向学习路线的搭建!自动驾驶是未来出行的趋势,无论是国家层面还是企业层面都投入巨资研发,期望计算机视觉与AI能够改变出行。根据汽车人的了解,近期有不少相关企业陆续开放了HC!目前我们接触的从业者大多是机械、电气、自动化专业的同学,今年来看还有相当一部分从事互联网行业的同学跨行过来,相比于计算机科班来说,缺乏系统的学科知识,入门难,进阶更难!一般来说,任何一门学科,入门进阶首先要对领域整体技术框架有所了解,正所谓不谋全局者不足以谋一域!有了这个基础,剩下的就是深耕某一领域的内容,和同行者、老师一起答疑解惑!如果你有明年找工作的打算(社招/校招/实习),想了解最新的招聘信息和求职攻略,汽车人强烈推荐大家加入自动驾驶之心知识星球!自动驾驶之心知识星球自动驾驶之心知识星球是首个以自动驾驶技术栈为主线的交流学习社区,这是一个前沿技术发布和学习的地方!我们汇总了自动驾驶感知(分类、目标检测、语义分割、实例分割、全景分割、关键点检测、车道线检测、3D感知、目标跟踪、多模态、多传感器融合等)、自动驾驶定位建图(高精地图、SLAM)、自动驾驶规划控制、领域技术方案、AI模型部署落地等几乎所有子方向的学习路线!除此之外,还和数十家自动驾驶公司建立了内推渠道,简历直达!这里可以自由提问交流,许多算法工程师和硕博日常活跃,解决问题!初衷是希望能够汇集行业大佬的智慧,在学习和就业上帮到大家!星球目前有哪些成员?星球成员主要来自商汤科技、旷视科技、百度、阿里、网易、Momenta、Intel、Nvidia、大疆、上汽、集度、地平线、华为等业界知名公司,以及苏黎世理工、卡耐基梅隆大学、普渡大学、东京大学、香港科技大学、香港大学、清华大学、上海交大、复旦大学、浙江大学、中科大、南京大学、同济大学、上海科技大学、哈工大等国内外知名高校;知识星球有哪些模块?CV图文教程:网络结构可视化、算法原理图解;视频教程:星球内部技术分享视频、相机标定、伯克利深度学习与计算机视觉、百度优达学城、Apollo自动驾驶、Udacity自动驾驶、MIT自动驾驶、Carla自动驾驶仿真等系列视频课程;日常paper分享:3D检测、多模态、2D检测、分割、车道线、多任务、多目标跟踪、融合、传感器标定、鱼眼感知与模型、VIT、轻量化等;职位与面经分享:自动驾驶行业职位分享内推、面经分享;日常问答交流:和嘉宾星主交流领域学术工业最新进展;主要面向对象星球创建的初衷是为了给自动驾驶行业提供一个技术交流平台,包括需要入门的在校本科/硕士/博士生,以及想要转行或者进阶的算法工程人员;除此之外,我们还和许多公司建立了校招/社招内推,包括地平线、百度、蔚来汽车、momenta、赢彻科技、集度、滴滴、Nvidia、高通、纵目科技、魔视智能、斑马汽车、博世、纽劢科技、追势科技、寒武纪等!如果您是自动驾驶和AI公司的创始人、高管、产品经理、运营人员或者数据/高精地图相关公司,也非常欢迎加入,资源的对接与引进也是我们一直在推动的!我们坚信自动驾驶能够改变人类未来出行,想要加入该行业推动社会进步的小伙伴们,星球内部准备了基础到进阶模块,算法讲解+代码实现,轻松搞定学习!日常讨论日常分享星球主要关注方向0.自动驾驶顶会与公司星球内部为大家汇总了CVPR、ECCV、IROS、RSS、TPAMI、IV、ICIP等自动驾驶领域顶会和顶刊,以及图森、智加、主线科技、集度、滴滴、纵目、元戎启行、momenta、蔚来小鹏理想等近80家公司介绍(可以内推!)1.计算机视觉相关数据集数据集是AI任务的基石,然而大多数数据集都是国外机构开源,数据量较大,下载速度缓慢,这两个缺点导致很多研究人员在数据获取上为难,为此星球内部已经为大家准备了近30种计算机视觉和自动驾驶相关数据集,包括KITTI、Waymo
2023年1月24日
其他

自动驾驶之心技术交流群

自动驾驶之心是国内首个自动驾驶开发者社区,公号建立了一系列的技术交流群,主要包括2D/3D目标检测、语义/实例/全景分割、深度估计、目标跟踪、多传感器融合、模型部署、姿态估计、车道线检测、SLAM、高精地图、规划控制等方向!感兴趣的同学可以在公号后台回复关键字获取加群二维码,也可以直接添加小助理加入。同时汽车人也欢迎大家来投稿,我们将提供稿费支持!申请格式:研究方向+学校/公司+姓名/昵称(1)
2023年1月17日
其他

AAAI2023 | 户外超大规模场景数据如何生成?READ告诉你答案(浙大&阿里巴巴)

点击下方卡片,关注“自动驾驶之心”公众号ADAS巨卷干货,即可获取点击进入→自动驾驶之心【多传感器融合】技术交流群后台回复【READ】获取论文和代码!!!摘要合成自由视角真实感图像是多媒体领域的一项重要任务。随着高级驾驶辅助系统(ADAS)的发展及其在自动驾驶汽车中的应用,对不同场景进行试验成为一项挑战。虽然通过图像到图像的转换方法可以合成出具有照片般真实感的街道场景,但是由于缺乏三维信息,这种方法不能产生连贯的场景。本文提出了一种大规模神经绘制方法来合成自动驾驶场景(READ),使得在PC上通过多种采样方案合成大规模驾驶场景成为可能。为了表示驾驶场景,本文提出了一个渲染网络𝜔−𝑛𝑒𝑡,用于从稀疏点云中学习神经描述子(descriptors)。该模型不仅可以合成逼真的驾驶场景,而且可以对驾驶场景进行拼接和编辑。实验结果表明,该模型在大规模驾驶场景下具有较好的性能。图1:给定输入点云,本文的自动驾驶场景渲染(READ)从不同的视图合成照片真实感驾驶场景,能够为自动驾驶提供丰富的数据,而不是单一视图的图像介绍合成自由视角的照片真实感图像是多媒体中的一个重要任务[3]。特别是,合成的大规模街景对于一系列现实世界的应用是必不可少的,包括自动驾驶[12,14]、机器人仿真[6,30]、目标检测[9,35,36]和图像分割[7,25,32]。如图1所示,神经场景绘制的目标是从移动的摄像机合成三维场景,用户可以从不同的视角浏览街道风景,并进行自动驾驶模拟实验。此外,这可以生成多视图图像,为多媒体任务提供数据。随着自动驾驶的发展,在各种驾驶场景下进行实验具有挑战性。由于复杂的地理位置、多变的环境和道路条件,对室外环境的模拟往往比较困难。此外,很难对一些意外的交通场景进行建模,如车祸,在这些场景中,模拟器可以帮助减少现实差距。然而,像Carla[6]这样被广泛使用的模拟器所生成的数据与使用传统渲染管道的真实世界场景有很大的不同。基于图像到图像转换的方法[7,10,25,26]通过学习源图像和目标之间的映射来合成带有语义标签的街景。尽管产生了令人鼓舞的街道场景,但仍然存在一些大的人工制品和不连贯的纹理。此外,合成的图像只有单一视图,无法为自动驾驶汽车提供丰富的多视图交通条件。这阻碍了他们大量的现实世界的应用程序。近年来,基于神经辐射场(NERF)的方法[18,19,29,34]在多视点真实感场景合成方面取得了很好的效果。正如[5]中所建议的,它们不能在只有少量输入视图的情况下产生合理的结果,这通常发生在驾驶场景中,对象只出现在几个帧中。此外,基于NERF的方法主要渲染内部或对象。在复杂的驾驶环境中,大量人工物出现在封闭的视图和周围环境中,很难合成大规模的驾驶场景。为了解决这个问题,NERFW[16]利用额外的深度和分割注释来合成一个室外建筑,使用8个GPU设备需要大约两天的时间。如此长的重建时间主要是由于对广阔的空间进行了不必要的采样。与纯粹依赖于每个场景拟合的基于NERF的方法不同,神经渲染方法[27,28,31]可以通过神经纹理有效地初始化,神经纹理存储在3D网格代理(3D
2022年12月23日
其他

苏黎世理工最新!maplab2.0:模块化的多模态建图定位框架

点击下方卡片,关注“自动驾驶之心”公众号ADAS巨卷干货,即可获取点击进入→自动驾驶之心【SLAM】技术交流群后台回复【maplab】获取本文论文!!!将多传感器模态和深度学习集成到同时定位和mapping(SLAM)系统中是当前研究的重要领域。多模态是在具有挑战性的环境中实现鲁棒性和具有不同传感器设置的异构多机器人系统的互操作性的一块垫脚石。借助maplab
2022年12月22日
其他

NuScenes SOTA!从浪潮登顶榜首解读自动驾驶AI感知技术的发展路线

Part1导读“自动驾驶是集感知、决策、交互于一体的技术环境感知能力作为自动驾驶的第一个环节,是车辆与环境交互的纽带通过“摄像头、毫米波雷达、超声波雷达、激光雷达”等各类传感器设备,感知环境的手段日趋多元化同时,在平台层面感知决策处理能力的提升,平台算力和感知算法的效率提升和创新,也成为了车企发展智能驾驶能力的关键。Part2刷新全球成绩,浪潮AI团队登顶榜首,将关键性指标NDS提升至62.4%NuScenes挑战赛,作为检验感知算法在自动驾驶领域相关任务性能的试金石,自数据集公开以来,吸引了来自全球各地的研究团队的结果提交。在最新一期所公布的竞赛测评榜单中,全球领先级AI算力基础设施提供商----浪潮信息凭借Inspur-DABNeT4D登顶自动驾驶数据集NuScenes
2022年12月12日
自由知乎 自由微博
其他

楼天城 理想不死:若知为何而生,遂可纳受一切

Cup、还有TopCoder等等,打遍全球编程高手,蝉联百度之星程序设计大赛总冠军(2005年和2006年)、蝉联谷歌Code
2022年12月12日
其他

轻量级模型设计与部署总结

在给定创建或部署的深度学习网络规模的情况下,可以传递多少推断结果。简单理解就是在一个时间单元(如:一秒)内网络能处理的最大输入样例数。CPU
2022年12月12日
其他

首篇!BEV-Locator:多目端到端视觉语义定位网络(清华&轻舟智航)

点击下方卡片,关注“自动驾驶之心”公众号ADAS巨卷干货,即可获取点击进入→自动驾驶之心【SLAM】技术交流群后台回复【BEV定位】获取本文论文!摘要准确的定位能力是自动驾驶的基础。传统的视觉定位框架通过几何模型来解决语义地图匹配问题,几何模型依赖于复杂的参数调整,从而阻碍了大规模部署。本文提出了BEV定位器:一种使用多目相机图像的端到端视觉语义定位神经网络。具体地,视觉BEV(鸟瞰图)编码器提取多目图像并将其展平到BEV空间中。而语义地图特征在结构上嵌入为地图查询序列。然后,cross-model
2022年12月11日
其他

计算机视觉和多模态到底需要学什么知识?​AI部署、自动驾驶、Python、加速压缩汇总!

计算机视觉与AI行业已接近饱和状态,如何从内卷中脱颖而出,除了极强的自律外,系统的学习方法也很重要,汽车人给大家推荐了几个计算机视觉和AI方面的社区,对入门学习以及后续进阶非常有用!FightingCV号主在github上开源的External-Attention-pytorch库(https://github.com/xmu-xiaoma666/External-Attention-pytorch)已获得6.9k的star,帮助科研小白、进阶者和大神用另一种视角理解深度学习的Attention机制。FightingCV公众号专注于计算机视觉、多模态语义理解的最新论文解读和科研资讯分享。关注微信公众号:FightingCV,回复”AI”,即可下载550篇必读的人工智能核心论文以及Python、Pytorch、机器学习、深度学习、计算机视觉、知识图谱、Transformer、多模态、强化学习、目标检测、自动驾驶、OpenCV、GAN和三维重建课程和项目实战教程。点击上方名片可关注人工智能研究这里是AI领域学习交流的平台!分享人工智能、机器学习、深度学习、计算机视觉、自然语言处理、强化学习、算法原理、科技前沿、行业动态等,为您提供最有价值的知识和资讯。回复“动手学深度学习”获得李沐大佬的电子书!不定期为读者免费赠送人工智能领域大佬的书籍!点击上方名片可关注时序人号主Vachel
2022年12月9日
其他

数据闭环与AutoLabeling方案总结!(Waymo/Uber/Open MMLab)

Pipeline学术界的SOTA目前关于AutoLabeling的完整方案方面的论文不是很多,这里面比较有代表性的有:谷歌的Waymo在2021年发表的:《Offboard
2022年12月9日
其他

NIPS2022 | 港大最新Sparse2Dense:通用点云3D检测稠密模块!

点击下方卡片,关注“自动驾驶之心”公众号ADAS巨卷干货,即可获取点击进入→自动驾驶之心【3D目标检测】技术交流群后台回复【Sparse2Dense】获取本文论文和代码!1摘要激光雷达产生的点云是大多数最先进的3D目标检测器的主要来源。然而,小的,遥远的,和不完整的稀疏或少数点的物体通常很难被检测到。本文提出了一个新的框架Sparse2Dense,通过学习在潜在空间中对点云进行致密化,从而有效地提高3D检测性能。具体来说,本文首先训练一个以密集点云为输入的密集点三维检测器(DDet),然后设计一个以规则点云为输入的稀疏点三维检测器(SDet)。重要的是,本文在SDet中制定了轻量级的插件式S2D模块和点云重建模块来对3D特征进行致密化,并根据DDet中密集的3D特征,训练SDet生成3D特征。因此,在推理中,SDet可以从正常(稀疏)点云输入中模拟密集的3D特征,而不需要密集的输入。本文在大规模的Waymo开放数据集和Waymo域适应数据集上对本文的方法进行了评估,显示了它超越SOTA的高性能和高效率。2介绍三维物体检测是支持自动驾驶汽车感知周围环境的一项重要任务。之前的工作[1
2022年12月9日
其他

Make RepVGG Greater Again!揭示重参化量化崩溃根因并解决(美团)

点击下方卡片,关注“自动驾驶之心”公众号ADAS巨卷干货,即可获取点击进入→自动驾驶之心【模型压缩】技术交流群后台回复【RepVGG】获取本文论文!1摘要性能和推理速度之间的权衡对于实际应用至关重要。架构重参化获得了更好的权衡,它正在成为现代卷积神经网络中越来越流行的成分。尽管如此,当需要INT8推理时,其量化性能通常太差,无法部署(例如ImageNet上的top-1精度下降超过20%)。本文深入探讨了这种失败的潜在机制,其中原始设计不可避免地扩大了量化误差。因此提出了一种简单、鲁棒和有效的补救方法,以具有量化友好的结构,该结构也享有重参化的好处。论文的方法大大弥补了RepVGG的INT8和FP32精度之间的差距。没有任何trick,通过标准训练后量化,ImageNet上top-1的准确率下降控制了2%以内。2介绍尽管深度神经网络在视觉[4,12,17,19,35],语言[6,40]和语音[13]方面取得了巨大成功,但模型压缩已经变得非常必要,特别是考虑到数据中心功耗的巨大增长,以及全球资源受限的边缘设备的大量分布。网络量化[14,15]是最熟练的方法之一,因为它具有较低的内存成本和固有的整数计算优势。然而,神经网络设计中的量化意识并不是优先考虑的问题,因此在很大程度上被忽视了。然而,如果量化是最终部署的强制操作,则可能会变得有害。例如,许多众所周知的架构都存在量化崩溃问题,如MobileNet[20,21,36]和EfficientNet[38],这分别需要补救设计或先进的量化方案,如[26,37,45]和[2,16]。最近,神经网络设计中最有影响力的方向之一是重参化[8,11,46]。其中,RepVGG[11]在训练期间将标准Conv-BN-ReLU转换为其相同的多分支对应,这带来了强大的性能提升,同时不会增加额外的推理成本。由于其简单性和推理优势,因此受到最近许多视觉任务的青睐[10,22,28,39,41,44]。然而,基于重参化的模型面临众所周知的量化困难,这是阻碍行业应用的内在缺陷。事实证明,使这种结构舒适地量化是非常重要的。标准的训练后量化方案将RepVGGA0的精度从72.4%大幅降低到52.2%。同时,应用量化感知训练并不简单[7]。本文特别关注RepVGG的量化难度[11]。为了解决这个问题,论文探索了指导深入分析基于重参化的典型架构的基本量化原则。也就是说,为了使网络具有更好的量化性能,权重的分布以及任意分布的处理数据应该是量化友好的。两者对于确保更好的量化性能至关重要。更重要的是,这些原则将论文引向一种全新的设计,称之为QARepVGG(Quantization
2022年12月8日
其他

迈向分割大一统 | OneFormer:一个Transformer统治通用图像分割!

点击下方卡片,关注“自动驾驶之心”公众号ADAS巨卷干货,即可获取点击进入→自动驾驶之心【分割】技术交流群后台回复【OneFormer】获取本文论文和代码!!!摘要通用图像分割不是一个新概念。过去几十年中统一图像分割的尝试包括场景解析、全景分割,以及最近的新全景架构。然而,这样的全景架构并没有真正统一图像分割,因为它们需要在语义、实例或全景分割上单独训练,以获得最佳性能。理想情况下,真正通用的框架应该只训练一次,并在所有三个图像分割任务中实现SOTA性能。为此,论文提出了OneFormer!!!这是一个通用的图像分割框架,它将分割与一次多任务训练设计相结合。论文首先提出了一种基于任务的联合训练策略,该策略能够在单个多任务训练过程中对每个领域的GT(语义、实例和全景分割)进行训练。其次引入了一个任务token,以在手头的任务上调整模型,使OneFormer的任务是动态的,以支持多任务训练和推理。第三,论文建议在训练过程中使用query-text对比损失来建立更好的任务间和类间区分。值得注意的是,本文的单一OneFormer模型在ADE20k、CityScapes和COCO上的所有三个细分任务中都优于专门的Mask2Former模型,尽管后者使用三倍的资源分别对三个任务中的每一个进行了训练。使用新的ConvNeXt和DiNAT主干,论文观察到了更多的性能改进。我们认为OneFormer是使图像分割更加普遍和流行的重要一步!!!YYDS!本文的主要贡献如下:论文提出了OneFormer,这是第一个基于transformer的多任务通用图像分割框架,该框架只需要使用单个通用架构、单个模型和单个数据集进行一次训练,就可以在语义、实例和全景分割任务上胜过现有框架,尽管后者需要使用多次资源在每个任务上单独训练;OneFormer使用task-conditioned联合训练策略,通过从全景标注中生成所有标签来统一采样不同的GT域(语义、实例或全景),以训练其多任务模型。因此,OneFormer实际上实现了全景分割的原始统一目标[29];论文通过对三个主要基准的广泛实验来验证OneFormer:ADE20K[15]、Cityscape[14]和COCO[34]。与使用标准Swin-L[38]主干的方法相比,OneFormer在所有三个分割任务上都取得了新SOTA!并使用新的ConvNeXt[39]和DiNAT[21]主干提升了更多性能。相关工作图像分割图像分割是图像处理和计算机视觉中最基本的任务之一。传统的工作通常使用专门的网络架构来处理三种图像分割任务之一(图1a)。语义分割:语义分割长期以来一直作为一个像素分类问题使用CNN解决[6,7,10,40]。最近的工作[26,27,44,56]展示了基于transformer的方法在语义分割中的成功,继其在语言和视觉中的成功[3,49]。其中,MaskFormer[13]在早期工作[4,16,20]之后,通过使用带有object
2022年12月7日
其他

多传感器融合SLAM:激光雷达、RGB相机、IMU定位与光度重建

彩色图像成像过程相机以图像的形式观察现实世界的辐射,该图像由像素强度的2D阵列组成。对相机的图像形成过程进行建模,并进一步将灰色相机模型扩展到彩色相机。如图2所示,对于世界上的点P,它反射从光源
2022年12月7日
其他

双非自学!我上岸了,分享下踩过的坑(感知与融合岗)

点击下方卡片,关注“自动驾驶之心”公众号ADAS巨卷干货,即可获取点击进入→自动驾驶之心【求职】交流群个人背景本硕双非院校(考研失利),无名校背景。本科电子信息工程(武汉),硕士计算机技术(上海)。曾经拿过学校的智能汽车竞赛一等奖,参赛过程中受益良多,我想对智能汽车的兴趣就是从那时候开始的。秋招情况最终拿到了几个offer,有机器人公司,激光雷达,自动驾驶的公司。方向选择和自学历程选择自动驾驶感知的方向也是机缘巧合。一方面参加过学校智能汽车的竞赛,另一方面也参加了两轮平衡车的大创项目。计算机专业的基础知识都已掌握,C/C++编程,数据结构,计算机网络,操作系统,计算机组成原理等。基础知识储备C/C++:又将C/C++的知识过了一遍,敲完《C++
2022年12月7日
其他

推荐一款专注论文review和rebuttal的平台

PaperReview一个分享Review的平台给大家推荐一个分享AI论文review和rebuttal的干货原创公众号PaperReview。关注公众号,后台回复“Paper”即可下载1000篇人工智能领域经典必读论文(我们已经将其很好的分门别类),以及保姆级科研入门和进阶视频教程。扫码关注并回复“Paper”即可领取推荐阅读1、ICLR
2022年12月6日
其他

你想象中的禾赛,和真实的禾赛可能很不一样!

激光雷达老炮点击下方卡片,关注“自动驾驶之心”公众号ADAS巨卷干货,即可获取点击进入→自动驾驶之心【全栈算法】技术交流群11月2日上午,禾赛科技召开媒体沟通会,正式发布面向
2022年12月6日
其他

经典回顾!LSS (Lift, Splat, Shoot) 论文&源码万字长文解析

1)))'''最后就是将输出的语义分割结果与binimgs的真值标注做基于像素的交叉熵损失,从而指导模型的学习过程。以上就是LSS算法的整体实现流程,往期回顾史上最全综述
2022年12月6日
其他

90+目标跟踪算法&九大benchmark!基于判别滤波器和孪生网络的视觉目标跟踪:综述与展望

点击下方卡片,关注“自动驾驶之心”公众号ADAS巨卷干货,即可获取点击进入→自动驾驶之心【目标跟踪】技术交流群后台回复【视觉目标跟踪综述】获取本文论文!准确和鲁棒的视觉目标跟踪是最具挑战性和最基本的计算机视觉问题之一。它需要估计图像序列中目标的轨迹,仅考虑其初始位置和分割,或者以边界框的形式粗略近似。鉴别相关滤波器(DCF)和深度Siamese
2022年12月6日
其他

清华最新强化学习 | 混合策略梯度对高级自动化车辆的集成决策与控制

算法来解决IDC的CMDP问题。CMPG是为约束优化而设计的RL算法。与基于模型的算法不同,CMPG可以同时使用交互式数据和先验模型来有效且一致地改善自动驾驶策略。本文设计了一种基于注意力的状态编码
2022年12月5日
其他

YOLO v5在分割任务上的持续发力!(训练/调优/部署一体化)

lossloss上在分类和检测同目标检测,同时添加了对分割的损失,在分割上的build_target部分,相比于检测考虑anchor正样本划分,分割属于像素级的分类,读取对应目标的index即可。#
2022年12月5日
其他

LOCUS 2.0:基于激光雷达的鲁棒且高效的3D实时建图

2.0使用来自非激光雷达源(来自传感器集成模块)的初始估计,通过使用接近最优的种子初始化优化,来简化扫描到扫描匹配阶段的GICP收敛,从而提高精度并减少计算,增强实时性能。LOCUS
2022年12月5日
其他

盘一盘!实时自动驾驶车辆定位技术都有哪些?(视觉/Lidar/多传感器数据融合)

点击下方卡片,关注“自动驾驶之心”公众号ADAS巨卷干货,即可获取点击进入→自动驾驶之心【SLAM】技术交流群后台回复【车辆定位综述】获取论文!1摘要实时、准确和鲁棒的定位对于自动驾驶汽车(AVs)实现安全、高效驾驶至关重要,而实时性能对于AVs及时实现其当前位置以进行决策至关重要。迄今为止,没有一篇综述文章定量比较了基于各种硬件平台和编程语言的不同定位技术之间的实时性能,并分析了定位方法、实时性能和准确性之间的关系。因此,本文讨论了最先进的定位技术,并分析了它们在AV应用中的整体性能。为了进一步分析,本文首先提出了一种基于定位算法操作能力(LAOC)的等效比较方法,以比较不同定位技术的相对计算复杂性;然后,全面讨论了方法论、计算复杂性和准确性之间的关系。分析结果表明,定位方法的计算复杂性最大相差约107倍,而精度相差约100倍。与基于激光雷达的定位相比,基于视觉和数据融合的定位技术在提高精度方面的潜力约为2–5倍。基于激光雷达和视觉的定位可以通过提高图像配准方法的效率来降低计算复杂性。与基于激光雷达和视觉的定位相比,基于数据融合的定位可以实现更好的实时性能,因为每个独立传感器不需要开发复杂的算法来实现其最佳定位潜力。V2X技术可以提高定位鲁棒性。最后,讨论了基于定量比较结果的AVs定位的潜在解决方案和未来方向。2介绍自动驾驶车辆(AVs)有望在未来的智能交通系统中发挥关键作用,因为它们在确保安全驾驶、缓解交通压力和降低能耗方面具有潜力。目前对AVs的研究已进入道路测试阶段。例如,百度已经在复杂的道路场景中测试了Apollo
2022年12月5日
其他

超越所有Anchor-free方法!PP-YOLOE-R:一种高效的目标检测网络

点击下方卡片,关注“自动驾驶之心”公众号ADAS巨卷干货,即可获取点击进入→自动驾驶之心【目标检测】技术交流群后台回复【PPYOLO】获取论文、代码等更多资料!超越所有Anchor-free方法!PP-YOLOE-R:一种高效的目标检测网络PP-YOLOE-R是基于PP-YOLOE的高效anchor-free旋转目标检测器,作者在PP-YOLOE-R中引入了一系列有用的技巧,以提高检测精度,同时减少额外参数和计算成本PP
2022年12月3日
其他

最新冠军方案开源 | MOTRv2:YOLOX与MOTR合力打造最强多目标跟踪!(旷视&上交)

点击下方卡片,关注“自动驾驶之心”公众号ADAS巨卷干货,即可获取点击进入→自动驾驶之心【目标跟踪】技术交流群后台回复【目标跟踪综述】获取单目标、多目标、基于学习方法的领域综述!代码开源:https://github.com/megvii-research/MOTRv2摘要
2022年12月1日
其他

达摩院 | DAMO-YOLO:兼顾速度与精度的新目标检测框架

Flops,作为目标预算。搜索后,我们将空间金字塔池化和焦点模块应用到最后的骨干。下表1中列出了不同的主干的性能对比结果。可以看到MAE-NAS骨干网络的效果要明显优于DarkNet网络结构。表1
2022年11月30日
其他

AIGC大一统模型来了!「全能Diffusion」(CV泰斗黄煦涛团队)

支持新的扩展和应用,如图形风格和语义的分离、图像-文本双引导生成等。c)
2022年11月30日
其他

全流程打通!YOLOV5标注&训练&部署:Windows/Linux/Jetson Nano

在参数配置栏,分别指定msnhnetPath和msnhbinPath为之前导出的yolov5m的参数。然后将上一节制作好的labels.txt文件,复制一份,重命名为labels.names.(6)
2022年11月30日
其他

CVPR 2022 | Accuracy和F1-score真的能代表车道线检测网络性能吗?

点击下方卡片,关注“自动驾驶之心”公众号ADAS巨卷干货,即可获取点击进入→自动驾驶之心【车道线检测】技术交流群后台回复【车道线综述】获取基于检测、分割、分类、曲线拟合等近几十篇学习论文!摘要在2017年TuSimple车道检测挑战赛之后,其数据集和基于accuracy和F1分数的评估已经成为衡量车道检测方法性能的事实标准。虽然它们在提高车道检测方法的性能方面发挥了重要作用,但这种评估方法在下游任务中的有效性尚未得到充分研究。在本文中,我们设计了
2022年11月30日
其他

纯视觉至上!聊一聊时序融合在BEV感知中的应用

DetectionPETRv2的时序融合方法与上文的Uniformer相似,都是通过变换前序帧外参的方式,将前序帧的相机视角变成当前帧的虚拟视角,只是它只用了1帧前序帧,是从前3-27帧(包含key
2022年11月30日
其他

Copy-Paste is All U Need!拥挤目标检测你是如何解决的呢?

Huang等人NMS利用较少遮挡的可见框来指导完整框的选择,而需要额外标记(可见框)。CrowdDet提出了一个方案来进行多个预测,并使用精心设计的Set
2022年11月29日
其他

裁撤一批员工后,马斯克又开始招人,推特2.0 PPT曝光

机器之心点击下方卡片,关注“自动驾驶之心”公众号ADAS巨卷干货,即可获取点击进入→自动驾驶之心【全栈算法】技术交流群「给我一年半,我让推特月活上十亿。」——马斯克。你可能没察觉到,自从伊隆
2022年11月29日
其他

三维点云配准的相关知识学习技巧(粗配准&精配准)

深蓝AL点击下方卡片,关注“自动驾驶之心”公众号ADAS巨卷干货,即可获取点击进入→自动驾驶之心【全栈算法】技术交流群1点云配准过程就是求一个两个点云之间的旋转平移矩阵(rigid
2022年11月29日
其他

入门必看 | 如何高效实现矩阵乘?万文长字带你CUDA入门

负责的分块也并不是图中所示的连续一块矩阵乘,我们也将在后续一步一步完善细节,但这种分解的框架却是一种非常经典的思路。如何确定分块大小?在拥有分块的基本理念之后,我们还有一个问题没有解决。那便是每一个
2022年11月29日
其他

视觉和Lidar里程计SOTA方法一览!(Camera/激光雷达/多模态)

点击下方卡片,关注“自动驾驶之心”公众号ADAS巨卷干货,即可获取点击进入→自动驾驶之心【SLAM】技术交流群后台回复【SLAM综述】获取视觉SLAM、激光SLAM、RGBD-SLAM等多篇综述!摘要自动驾驶的发展需要研究和开发准确可靠的自定位方法。其中包括视觉里程计方法,在这种方法中,精度可能优于基于GNSS的技术,同时也适用于无GPS信号的区域。本文深入回顾了视觉和点云里程计SOTA方法,并对其中一些技术在自动驾驶环境中的性能进行了直接比较。评估的方法包括相机、激光雷达和多模态方法,并从共同的角度比较了基于特征知识和基于学习的算法。这些方法在道路驾驶公共数据集上进行了一系列测试,根据这些数据集对这些技术的性能进行基准化和定量测量。此外,作者还密切讨论了它们在具有挑战性的条件下的有效性,如明显的照明变化、开放空间和场景中动态目标的存在。该研究表明,基于点云的方法在轨迹误差方面超过视觉技术约33.14%,从而提高了精度。这项调研还发现了SOTA方法的性能停滞,尤其是在复杂条件下。作者还研究了多模态架构如何规避单个传感器的限制。这与基准测试结果一致,其中多模态算法在所有场景中表现出更大的一致性,在平移漂移方面优于最佳LiDAR方法(CT-ICP)5.68%。此外,作者还讨论了当前人工智能的进步如何构成克服当前发展瓶颈的途径。引言在过去十年中,自动驾驶一直是许多技术和科学研究的主题。它的许多好处,如提高乘客安全性、舒适性和便利性、更好的交通流量、无人驾驶交通和降低了燃料消耗,吸引了负责自动驾驶汽车技术进步的大型制造商的投资。对于任何自动驾驶智能体,自定位的能力在每个导航任务中都是必不可少的。尽管GNSS(全球导航卫星系统)接收器通常是现代车辆自定位的主要来源,但大众市场设备提供的精度和可靠性远远低于自动驾驶车辆所需的水平。因此,由于定位误差、信号延迟和服务质量问题的不确定性,自动驾驶车辆不会强依赖于卫星数据[1]。而且这一问题在城市场景中进一步加剧[1],由于此场景中卫星能见度有限、多径效应、干扰和其他误差。人类驾驶员自己的视觉感知能力弥补了所有这些限制。以同样的方式,自动驾驶汽车可以配备传感器,当与适当的里程计技术一起使用时,传感器可以提供类似人类水平的精确的相对定位。里程计可以被定义为使用局部传感器的数据来估计一个特定的起始点,估计一段时间内车辆的姿态变化。通常,这些方法试图通过传感器(如车轮编码器、RADAR、惯性测量单元(IMU)、LiDAR)来恢复车辆的位置和方向,这些传感器在现代车辆中越来越普遍。同样重要的是,要认识到这些传感器类型不是限制死的,因为里程计方法可以是多模态的,即不同的传感器可以通过一个算法一起使用。随着相机和激光雷达在现代车辆中的使用越来越普遍,基于视觉和点云的里程计正在成为关键的方法。与GNSS不同,这些传感器不需要外部信号。此外,这些技术比车轮里程计更为稳健,并且易于通过IMU或GPS进行补充[2]。随着政府对驾驶员辅助和自动驾驶安全功能的需求增加,自动驾驶相关领域的研究也在增加。参与感知领域的里程计对开发此类系统至关重要。本研究提供了视觉、点云和多模态里程计的概述,并将这些类别与一个共同的基准进行了比较,同时考虑了在完全相同的条件下获得的实际结果。此外,深度学习(DL)技术的兴起使得有必要评估其相对于传统方法的发展现状。这项工作背后的另一个动机是使用一个众所周知的数据集(KITTI-360[3])创建一个最先进的视觉、基于点云和多模态方法的无偏见基准。基准测试在具有挑战性的情况下测试不同的算法,以验证所调研技术的优势和局限性。本文件还讨论了一些当前的问题,这些问题可以帮助研究人员超越常见的视觉里程限制,例如恶劣的天气条件、计算能力限制和动态目标的存在。本调研主要贡献是:视觉里程计相关和有前景的工作的分类和理论讨论,从基于特征和外观的技术到利用深度学习能力的最新工作;基于点云的里程计,包括基于知识和学习的方法;同时还分析了不同类型的传感器融合。在相同场景下,使用通用评估程序对这些技术进行了分析;对几种开源算法进行基准测试的大量实验,特别关注动态环境、开放空间、亮度变化、密集植被、转向机动和高速等具有挑战性的情况;识别自运动估计的当前挑战,例如对场景外观的依赖性、高计算负载和移动目标的存在。分析和量化这些条件对不同类型所述方法性能的影响;调研当前的最新技术,同时深入了解深度方法与基于知识的方法和多模态架构的现状,以及未来研究如何超越当前结果。视觉里程计里程计是估计一个车辆的位置和方向随着时间的变化的过程。视觉里程计(VO)是指当依赖于连接到车辆的一个或多个相机的输入时给出的名称。视觉里程计方法包括通过从连续图像帧之间的对应关系中提取自运动参数来推算传感器(或安装传感器的系统,例如无人机)的位置。给定车辆在时间步长k-1中的姿态
2022年11月29日
其他

多模态3D目标检测发展路线方法汇总!(决策级/特征级/点/体素融合)

点击下方卡片,关注“自动驾驶之心”公众号ADAS巨卷干货,即可获取点击进入→自动驾驶之心【3D目标检测】技术交流群后台回复【3D检测综述】获取最新基于点云/BEV/图像的3D检测综述!什么是多模态3D目标检测?多模态3D目标检测是当前3D目标检测研究热点之一,主要是指利用跨模态数据提升模型的检测精度。一般而言,多模态数据包含:图像数据、激光雷达数据、毫米波雷达数据、双目深度数据等,本文主要关注于当前研究较多的RGB+LiDAR融合3D目标检测模型进行汇总和总结,希望可以给大家带来一定的启发。多模态3D目标检测主要方法(一)
2022年11月28日
其他

卷完了!分享下我的秋招面经(投递近50家自动驾驶与机器人公司)

点击下方卡片,关注“自动驾驶之心”公众号ADAS巨卷干货,即可获取点击进入→自动驾驶之心【求职交流】技术交流群个人背景学校双985背景,本科和研究生专业都是车辆相关的,但都不是智驾方向的(本科内燃机相关,硕士燃料电池相关)。秋招情况秋招主要投递的是规划控制算法岗/控制算法岗。最终拿到的offer也赛道各异:传统主机厂/造车新势力底盘线控岗/智驾独角兽/机器人独角兽企业等比较早确定了自己要转码转智驾的路线,所以硕士期间找了一段主机厂大厂实习一段智驾小厂实习,自己做了两个规控方向的小项目,后续看论文做了优化。由于资源受限,没有过实车经验,这也是我在秋招面试中的痛点,以下展开说。前期自主研究历程研一确定了自己求职的方向,根据方向去看了很多的经验贴和大佬的项目分享(知乎,CSDN,牛客等),了解自己欠缺的知识。之后学了经典控制理论,开始慢慢把C++捡起来。研二上学期开始跟着cousera上北大的C++课程学完了C++基础和一些数据结构基础。这里还是很推荐这个课程,是免费的,用学校的邮箱就可以学,同时作业一定要自己完成,感觉代码最重要的不是看懂了,而是脑子里有想法可以敲出来,讨论区里也都能找到答案。之后开始学习自动驾驶中常用的控制算法,也在B站上看DR_CAN的控制理论的视频,他讲的深入浅出,也不乏味,很适合初学者搭建框架,配合着课程我也找到一个不错的开源MPC项目,做了点简单探究;同时期也在上海这边的一个主机厂的Powertrain部门实习,强化了自己matlab/simulink的熟练度,也为后续我做控制算法仿真建模打下了点基础。在2021年年末到2022年初的一段时间里,我在B站发现了宝藏的老王,跟着他从头学了一遍LQR算法,从模型到微分方程推导,到算法搭建仿真,都非常详尽,从头到尾跟着做一遍,会有更深入的理解。之后我开始阅读文献,在普通LQR的基础上做一些优化,并拿到搭建的simulink模型里对比验证,做了一些简单的思考,如动态QR矩阵和抗干扰双PID等。秋招前基础理论知识准备2022年4、5月份开始因为没有找暑期实习,我就开始力扣刷题,开始复习C++和经典控制理论以及现代控制理论的知识了。7月下旬就有一些企业的提前批开启,之后就是一边投递,一边刷题复习一边改简历再投递的过程了。这里对我在规划控制算法上所学的以及面试重所考察专业知识做个总结,下一节还有更详细举例:首先是C++,把基本概念都过一遍,然后面试前要“背八股”,C++是投递算法岗位的基础,很多企业会先机考编程,再在面试环节安排手撕代码,善用Leetcode,并多总结;之后是数据结构的学习,按照模块刷,常用的数据结构的底层实现原理,复杂度最好都要清楚;然后就要学习控制理论了,经典控制理论和现代控制理论都要学,主要关注pid、lqr、mpc算法原理,了解相关知识点,控制理论需要一定的线性代数基础和微分方程基础,如果这方面基础差的也可以相应的做一些补足;再就是实践部分了,这里从项目和实习两方面说,如果不是智驾科班出身的,建议跟着别人的项目复现一下,比如用simulink去搭建控制算法模型,去跑一下,对参数有理解,之后再借着这些小的项目经历去找实习,实习不一定非要是大的平台,但最好是能有实车去实践。控制搞好之后,可以去往规划算法方向研究一下,很多企业规控岗是一起招人的,所以面试官也可能是规划方向的,就会更偏重规划知识的考察,规划算法有DFS,Dijkstra,A,D*,RRT,RRT*,这些掌握就差不多校招够用了,再深入学习去看一些局部规划算法像EM
2022年11月27日
其他

麻省理工最新!NeRF-SLAM: 具有神经辐射场的实时密集单目SLAM

field训练的实时实现,并并行运行它们,本文可以实现实时性能。图2显示了本文pipeline中的信息流。图2。本文pipeline的输入由顺序的单目图像
2022年11月26日
其他

轻量级模型设计与部署总结(关键字定义/架构理解/高效CNN)

点击下方卡片,关注“自动驾驶之心”公众号ADAS巨卷干货,即可获取点击进入→自动驾驶之心【模型部署】技术交流群后台回复【模型部署工程】获取基于TensorRT的分类、检测任务的部署源码!前言一些关键字定义及理解计算量
2022年11月26日
其他

BEV常见开源算法 | BEV下的多模态融合(BEVFusion/AutoAlignV2等)

mAP的最先进性能,而TransFusion的mAP为68.9%。nuScenes验证集和测试集的结果【标注demo视频】02
2022年11月26日
其他

互联网最值得加入的173家国企汇总

FightingCV点击下方卡片,关注“自动驾驶之心”公众号ADAS巨卷干货,即可获取文章转载Jack
2022年11月25日
其他

最新综述!分析用于实时车载激光雷达感知的点云深度学习表示(空间结构/光栅化/坐标系)

点击下方卡片,关注“自动驾驶之心”公众号ADAS巨卷干货,即可获取点击进入→自动驾驶之心【3D目标检测】技术交流群后台回复【3D检测综述】获取最新基于点云/BEV/图像的3D检测综述!最新综述!分析用于实时车载激光雷达感知的点云深度学习表示激光雷达传感器是自动驾驶汽车不可或缺的一部分,因为它们提供了汽车周围环境的精确、高分辨率3D表示。然而,在计算上很难利用来自多个高分辨率激光雷达传感器不断增加的数据量。随着帧速率、点云大小和传感器分辨率的增加,这些点云的实时处理仍必须从车辆环境的这张日益精确的图片中提取语义。在这些点云上运行的深度神经网络性能和准确性的一个决定因素是底层数据表示及其计算方式。本文调查了神经网络中使用的计算表示与其性能特征之间的关系,提出了现代深度神经网络中用于3D点云处理的LiDAR点云表示的新计算分类法。使用这种分类法,对不同的方法家族进行结构化分析,论文揭示了在计算效率、内存需求和表示能力方面的共同优势和局限性,这些都是通过语义分割性能来衡量的。最后,论文为基于神经网络的点云处理方法的未来发展提供了一些见解和指导。领域背景
2022年11月25日