高富帅 Waymo PK 西装暴徒 Tesla
众所周知,自动驾驶技术感知领域存在着广泛的技术分歧,以激光雷达为主的多传感器融合派和以摄像头为主的视觉优先派就孰优孰劣进行了旷日持久的技术交手。最近,激光雷达阵营的旗手 Waymo 和摄像头阵营的龙头特斯拉又一次交锋了。
不体面的互怼
新一轮的交锋最早要追溯到 4 月 22 日,在特斯拉自动驾驶投资者日上,Elon Musk 再一次向激光雷达开炮。
用激光雷达的都是傻 X,任何依赖激光雷达的公司注定是要失败的。它们是昂贵、不必要的传感器。
为什么要如此的出言不逊呢?
Elon 向来无所顾忌、嚣张跋扈,这样的个性与他过去 20 年来每每进入一个新领域总是力排众议一意孤行最后又总能取得成功密切相关。
在特斯拉推出自动驾驶芯片的投资者日上,分析师第 N 次质疑特斯拉 Autopilot 的技术路线。考虑到 Elon 自 2015 年底就完全接管,直接领导和招聘 Autopilot 团队,这不是质疑摄像头的潜力,这是在质疑 Elon 对技术前景的判断。已经反复解释过 N 次的 Elon 终于爆发也就不足为奇了。
Elon 这么一闹,不少激光雷达阵营的从业人员都出来回应。不过吃瓜群众最期待的 Waymo,彼时并没有发声。
Waymo 在等待时机,在 5 月 8 日的 Google I/O 2019 大会上,Waymo CTO 兼工程副总裁 Dmitri Dolgov 和 Waymo 首席科学家 Drago Anguelov 展开了全面反击。
Elon 仅使用摄像头而去掉激光雷达是「非常危险」的(very risky)。
你可以设想仅通过摄像头实现自动驾驶,但你需要最好的摄像头系统来解决问题。所以这是一个非常大的赌注,你可以实现它,但是非常非常冒险且不必要。
Anguelov 认为激光雷达帮助 Waymo 为用户创造了更安全的用户体验。
我们拥有更丰富的数据也更准确,我们更容易建立正确的模拟环境。激光雷达帮助汽车确定道路上的汽车和其他物体如何相互作用,如果你只用摄像头,所有这一切都要难得多,而且有更多限制。
Dolgov 的回应让特斯拉彻底陷入窘境。
(对于摄像头和激光雷达)我们不是非此即彼,我们两者兼具。一切都是为了充分汲取两个感知体系下的世界并以一种可理解的方式将他们结合起来,从而拥有最强大、最安全的系统。
激光雷达从本质上讲没什么昂贵的东西,我们已经大幅降低了从第一代到当前的激光雷达的价格。你可以想象随着我们的扩张,成本下降空间会有多大。
我们有一个(自动驾驶车队运营区域)扩张到凤凰城外的路线图和一些计划。
(2018 年 12 月,Waymo 在美国亚利桑那州凤凰城的限定区域内正式推出了自动驾驶汽车打车服务 Waymo One。)
对于 Waymo 方面的反驳,Elon 彻底失去了耐心,选择以「任何购买特斯拉全自动驾驶功能的用户都能在今年(晚些时候)使用 Autopilot(全程无需人工干预)从加州开到纽约」结束战斗。(括号中丰富的细节来自 Elon 此前关于 Autopilot 的表述)
看着这些在自动驾驶领域世界级的科学家和技术专家没营养的互怼,我感到很失落,这样不好。自动驾驶汽车是一个新生事物,我们应该让普通消费者理解,为什么 Waymo 和 Tesla 的分歧没有太大价值,为什么自动驾驶不同技术路线的感知最终会殊途同归。
Waymo?
我们直接从 Waymo 的反击说起吧。不得不说,无论 Elon 怎么回应,Waymo 的精确打击都切中要害,一击必中。
仅使用摄像头而去掉激光雷达是「非常危险」的
我们更丰富、更准确,一切都是为了更强大、更安全
这会在消费者心中形成一个认知:摄像头 = 危险;激光雷达 = 安全。实际上,特斯拉的对面不是 Waymo 一个人,Waymo 阵营的规模有多大呢?外媒 The Verge 的标题一语中的。
IT’S ELON MUSK VS. EVERYONE ELSE IN THE RACE FOR FULLY DRIVERLESS CARS
The Tesla CEO is forging his own path toward full autonomy
这是 Elon Musk VS 其他任何人在自动驾驶赛道的对决
特斯拉 CEO 以自己独有的方式实现自动驾驶
下面我们一一展开讨论。
Elon 说激光雷达的主要问题在于「昂贵」和「不必要」,激光雷达更安全已经解决了「不必要」的问题,那么「昂贵」呢?
与大多数车企、自动驾驶公司不同,如今 Waymo 早已不再采购激光雷达领域的顶级大厂 Velodyne 的产品,而是走了内部自主研发的路线。与特斯拉自研芯片类似,自主研发激光雷达给 Waymo 带来了独特的竞争力。
比如说,同等性能的激光雷达,Waymo 自研的成本要远低于采购 Velodyne。早在 2017 年年初的底特律车展上,Waymo CEO John Krafcik 就宣布,Waymo 已经将激光雷达的成本下降了 90% 以上。
Waymo 此前采购 Velodyne 的 64 线激光雷达成本为 75,000 美金左右,下降 90% 以上意味着 Waymo 将成本控制在了 7,500 美金以内。
考虑到 Autopilot 2.+ 的 BOM 成本控制在 2,500 美金左右,Elon 仍然可以维持既有态度:Waymo 的工作是卓有成效的,但今天的激光雷达成本远未达到商业化临界点。
但是,别忘了 Waymo 暴降 90% 以上的表态是在 2017 年,Waymo 激光雷达团队一直在为性能的提升和成本的下降不断努力。
4 月 24 日,《福布斯》曝光了 Waymo 正在测试的下一代感知系统,包括激光雷达系统和摄像头系统都做了升级。Waymo 没有披露新款激光雷达的提升或改进细节,但确认「新传感器系统最近几周开始在旧金山湾区测试」。
如果我们回顾一下 Waymo 在过去两年来取得的各种进展,会发现 Waymo 商业化的速度还是相当令人印象深刻的。
Waymo 跟 FCA 和捷豹路虎达成了共计 8.2 万辆规模的自动驾驶车队采购协议
Waymo 实际路测里程超过 1000 万英里,虚拟测试里程超过 70 亿英里
Waymo 自动驾驶打车服务 Waymo One 正式上线
Waymo 在密歇根设厂,100% 专注于量产 L4 级自动驾驶汽车
除了上述进展,Waymo 值得关注的另一个原因在于下面这张图。
除了车顶的激光雷达,Waymo 还在车正前方和正后方,左右两侧各配备了短程、高分辨率中程和高性能长距激光雷达。Waymo 堆料狂魔的底气来自对自研传感器成本的控制,而充分的传感器布置反过来又在技术层面做到了自动驾驶领域无可争议的第一。
我们如何看待 Waymo,Waymo 正在凭一己之力解决没有众包车队收集海量数据、激光雷达成本居高不下、算法改进乏力等一个又一个自动驾驶汽车商业化道路上的拦路虎们。
通用 Cruise 正在快速追赶,成长为耀眼的新星。但如果从技术、成本、商业化等各个角度综合判断,撇开不走寻常路的特斯拉不谈,自动驾驶领域应该划分为 Waymo 和其他。
特斯拉!
然而现实世界是不允许撇开特斯拉的,下面我们来聊这家公司。先回到文章开头的互怼,你仔细观察,会发现有趣的细节的。
Waymo 首席科学家 Drago Anguelov 批评特斯拉仅用摄像头「非常非常冒险且不必要」,但关于仅用摄像头落地自动驾驶,他的评价是「你需要最好的摄像头系统来解决问题」、「你可以实现它但这是一个巨大的赌注」以及「所有这一切都要难得多」。
作为斯坦福大学计算机科学、人工智能和机器学习领域的博士、Waymo 首席科学家,Drago Anguelov 对摄像头感知的潜力,对计算机视觉 + 人工智能技术的边界有着清晰的认知。完全基于摄像头实现自动驾驶的挑战巨大,但并不是说这完全不可行。
Waymo 的感知为什么以激光雷达为主?这是由历史因素决定的。在 Google 无人车项目起步的 2009 年,人工智能技术还没有取得显著进展。这直接导致彼时以摄像头为主做自动驾驶汽车的视觉感知是完全不可行的。
那是谁给了 Elon 站在行业对立面的勇气?
2012 年,深度卷积神经网络驱动的 ImageNet 大规模视觉识别挑战赛错误率大幅下降到了 16%,被认为是前所未有的突破,也成为新一波人工智能浪潮繁荣的起点。这直接撬动了人工智能和计算机视觉识别技术的快速发展。
所以发展到今天,Waymo 的感知体系和特斯拉的感知体系出现了明显的差异。
Waymo 以激光雷达为主,基于点云的感知(Point-cloud based)依赖于由有源传感器收集的 3D 空间中的点(或测量到对象的距离)的数据。算法可以涉及通过点的密度,几何形状或图案从大量点导出结构以便检测物体,正确地检测和识别故障。
特斯拉以摄像头为主,基于视觉的感知(Vision-based)依赖于相机数据。因此,这些算法剖析基于像素的视频以检测环境中的车辆、行人和其他障碍物。算法可以使用几何、光流、颜色或其他图像特征进行检测。
Waymo 在 2017 年的技术博客中提到激光雷达的关键意义是这么说的。
我们自主研发的激光雷达可以区分真实的行人和人形海报,它能识别三维形状,检测静止物体,精确测量距离。
所以特斯拉摄像头为主感知的核心问题在于,赋予摄像头和激光雷达类似的,识别 3D 空间物体的能力。换句话说,通过不同像素的切割,赋予自动驾驶系统识别和理解图像深度信息的能力。
在 Elon 向激光雷达开炮一天后。美国康奈尔大学一项名为《源自视觉深度估算的伪激光雷达(Pseudo-LiDAR),缩小自动驾驶 3D 物体探测差距》的研究中,研究人员使用低成本低分辨率的立体相机通过预算深度像素反向投影 3D 点云,实现了点云质量的大幅提升,精度从 10% 提升到 37.9%,快速逼近激光雷达 66% 的平均精度。
考虑到该研究基于 40 万像素摄像头实现,与最先进、最高分辨率的摄像头体系有着巨大的差距,也没有应用模型蒸馏(model distillation)或实时预测(anytime prediction)提升探测精度及速度,研究人员的结论是这项研究的改进前所未有,有着广阔的前景和潜力。
那么特斯拉是怎么做的呢?
在特斯拉自动驾驶投资人当天,特斯拉官方 Twitter 发布了这样一条视频,配文「通过此3D 重建可以显示,特斯拉车辆能从 8 个摄像头所拍摄的短短几秒的视频中收集大量深度信息」。
这与康奈尔大学的视觉感知研究路径异曲同工。
当然,自动驾驶感知还存在着广泛的问题需要科学家和工程师去克服。但更多时候,这是激光雷达和摄像头的共性挑战。
比如在白雪完全覆盖的路况下,摄像头对车道线、道路边界、路牌、障碍物的识别能力都将大幅降低,但雪的密度也会影响激光雷达的反射效果,产生幻影障碍(Phantom obstacles)。从而干扰激光雷达的感知能力。
所以,无论是基于激光雷达的多传感器融合还是基于摄像头的视觉为主,本质上都是赋予机器以人类感知环境的能力。这就是为什么 Waymo 和 Tesla 的分歧没有太大价值,为什么自动驾驶不同技术路线的感知最终会殊途同归。
看点还是有的,高富帅 Waymo 和西装暴徒 Tesla,谁先胜出?
42 号车库招募汽车实习编辑 1-2 名,坐标上海徐汇区,有兴趣的请发送简历及过往作品到邮箱 d@42how.com。