查看原文
其他

【瀚海数据说】一文看懂特斯拉自动驾驶

王维嘉 776 瀚海数据说 2022-05-19

第 285 期

编者按:特斯拉为了降低成本、优化性能、降低功耗,推出了最新全自动驾驶芯片FSD。特斯拉的自动驾驶对环境的感知主要用环绕车身的8个摄像头和车前方的一个雷达。特斯拉将采集到的视频当成一幅幅图像来处理。神经网络是把视频当一幅幅图像来处理,卷积神经网络的则从图像中提取特征从而识别图像。



2019年4月21号, 特斯拉召开了一次独特的投资者发布会:“特斯拉自动日”。极为详细地展示了过去三年特斯拉在自动驾驶方面的进展。身手矫健的可以到油管上看全部视频https://www.youtube.com/watch?v=Ucp0TTmvqOE ,信息量极大,技术细节惊人。




在第一篇文章中我们讲了特斯拉的全自动驾驶FSD芯片里最主要就是两个卷积神经网络,以及存储器,还顺便放了12个ARM CPU 做数据融合,路线规划,控制等一大堆其他事情。其中最神秘的就是这个卷积神经网络(Convolutional Neural Network, CNN)。如果说FSD芯片是自动驾驶的大脑,这个卷积神经网络就是集中了最多神经元的大脑皮层。理解了这个卷积神经网络,就彻底理解了今天所有自动驾驶的黑科技



在我的新书《暗知识》的第三章有通俗易懂的介绍,对于那些想深入了解神经网络工作原理的读者(不需要专业背景),书的附录里还有一个典型神经网络的剖析。懂了卷积神经网络的工作原理,你就比大多数泛泛读了很多人工智能书的人理解深入了一个层次。我写作的目标是,一个感兴趣的中学生稍微有一点耐心就一定能看懂。长按这个二维码就能看到书的内容介绍。



自动驾驶分为四个环节:1. 感知环境,就像人眼看到周围。2 . 识别场景,就像我们看到十字路口的汽车,行人,交通标志等。3. 路径规划,根据识别出来的场景来决定车怎么驾驶。4. 控制。根据路径规划决定如何控制方向盘,油门和刹车。这里最核心的环节就是识别场景。这个卷积神经网络就是用来识别驾驶场景的。特斯拉的自动驾驶对环境的感知主要用环绕车身的8个摄像头和车前方的一个雷达。特斯拉和所有其他做自动驾驶的大大小小上百家公司不同的是坚决不用激光雷达。关于这件事,我们会专门写一篇。马斯克认为,人开车就是靠视觉,为什么机器开车不能靠视觉?目前特斯拉是把视频当成一幅幅图像来处理。所谓识别驾驶场景就是识别图像中的物体以及物体之间的关系。


现在的问题变成了:神经网络是怎样识别场景的?我在《暗知识》的第三章讲过,要让神经网络学会认一种物体(比如汽车),一定要给它看大量不同形状,颜色,型号的汽车,神经网络看多了会自己总结出汽车的特征。识别场景的第一步是训练神经网络识别场景里的各种各样的物体,比如汽车,行人,自行车,交通标志,线道标记, 障碍物,动物等等。如果你事先知道要识别那些物体,识别本身对神经网络不难,只要对每类物体提供大量样本即可。问题在于可能会有很多想不到的物体,如公路上突然有棵树横在那里,或者前面车上掉下个和小孩一样大小的玩具娃娃等等。比如这张图里汽车背后挂了辆自行车,如果机器没见过,可能会把这玩意识别成一辆自行车,就会导致刹车。




所以一旦发现有机器识别不出来或者识别错了的物体,就必须找大量类似物体让机器去学会正确识别,像汽车背自行车就要找很多类似的图让机器看。同样道理,每种没见过的场景都要很多不同的图像,例如上面图是各种路边动物,下面图是各种路面垃圾 等等。我在《暗知识》书里讲过,神经网络只会“死记硬背”,没见过的东西一律不认识,不会推理和联想, 也不会举一反三。所以要有海量的驾驶数据,让神经网络见过尽可能多的不同物体。



  

比识别物体更难的是识别场景,因为一个场景里有很多物体,物体之间会有复杂的关系,比如车和行人之间的关系等。神经网络是不会理解物体关系的,但神经网络其实不能理解物体间的关系,只能发现它们之间的相关性。所谓相关性就是哪些物体经常一起出现在画面上。也就是说目前的神经网络是把一种场景当成一幅图像来识别的。但不同的场景几乎无穷无尽,所以谷歌的自动驾驶实验车在硅谷都开了好多年了,收集了1300万公里的驾驶场景数据,还没能够收集到足够的场景。我们会在下一篇文章里专门讨论是否能够穷尽所有的驾驶场景。





识别场景的目的是能够规划驾驶线路,所以识别场景里最重要的是识别道线。如果高速公路上道线画的很醒目,摄像头可以清楚分辨,识别道线就很简单。但实际上情况千变万化,比如道线不清或干脆没有,转弯和上坡看不到,雨雪雾天气等等,要自动驾驶,这些情况神经网络都要学习。像这张图里自动驾驶车辆前面有一辆面包车挡住了视线,而面包车前面路开始转弯,因为看不见前面道线,自动驾驶车辆根据能看见的道线就做出了道路继续直线延伸的预测。当神经网络训练师发现这种错误后就要做两件事:第一是找到大量类似的场景,第二是把每一幅类似的场景都标注一下。标注的方法是在这些图片上画出正确的转弯线道,如下面这张图。训练神经网络就像训练一条狗,给它看很多这样的图片并对它说:“记住啦,以后看见这类场景前面是转弯!”





类似转弯这样的场景多的数不过来,像上面这张图里  道路施工,自行车过马路,雾霾天气等等等等,都要像上面转弯那样去一一处理。





这是一个不断循环增加识别准确性的的过程,像下面这张图,特斯拉把它叫数据引擎。这个过程是从图的左上角开始,先让机器学会一些初步的识别;然后在驾驶中发现识别错误;把这个错误拎出来单独标注;然后用这张典型图给在路上行驶的所有特斯拉车下指令让它们上传类似图像(从2018年年底以后出厂的车都可以默默记录驾驶场景并且根据指令找到类似场景上传);再把这些图片都一一标注用来训练机器,重新训练过的机器再驾驶,再发现新问题,如此重复下去。 我在《暗知识》书中预测未来第一大新工种就是数据标注员,Facebook 已经有几千个数据标注员了。这个工作很简单,甚至不需要识字都能做。所以可以在人工便宜的地方找人做。





但即使用便宜人工,标注的工作量仍然太大。所以特斯拉要想办法让机器自动标注,代替一部分人工。比如这张图上很明显右边的车突然插入自己的前面,这种情形机器就能自动标注为“右车道车在前方5米处切入”。还有一个省人工的办法是让特斯拉的车主们“训练“机器。


车主训练机器方法是这样的:在行驶的特斯拉车中开启“影子驾驶”模式。就是开启了识别和判断功能,但并不控制车。车主并不知道。这时候就比较车主的人工驾驶(方向盘角度,加减速等)和自动驾驶要做出的决定。因为特斯拉知道每辆车的驾驶记录,可以挑出那些稳健老练的车主做训练。如果机器的决定和人的驾驶不同,就把这段时间的图像调出来看看怎么回事。或者就闭着眼睛相信人工驾驶总是对的,就用人工驾驶去修改原来的自动驾驶决定,也就是说以后再遇到类似情况,按人工驾驶的来。想象刚才谈过的那个标注弯道的例子,这里的“车主训练机器”其实相当于车主们用自己的驾驶动作无形中给数据做了标注,免费给特斯拉打工。这对车主们没有任何损害,相反,自动驾驶获得的训练越多,每台车的驾驶就越安全。




所以总结一下,特斯拉的自动驾驶的核心技术是卷积神经网络。卷积神经网络的主要功能是从图像中提取特征从而识别图像。自动驾驶四个环节中最重要环节是场景识别。现在神经网络是把视频当一幅幅图像来处理的。每个场景都是一幅不同的图像,要让神经网络见过大量的,不同的,而且是实际的场景。对这些场景要人工标注,告诉机器是什么场景该如何驾驶。这个过程是一个大量收集数据,不断发现遗漏和错误,不断补充场景和纠正标注的过程。特斯拉从去年年底以后出厂的车都能收集场景,所以今后几年会有上百万辆车在全世界各地收集驾驶场景,这是谁都没有的优势。目前谷歌,百度,Uber,通用汽车,丰田,福特,奔驰,宝马这些大举进入自动驾驶的公司和上百家创业公司,最多也就是几百辆实验车。但是即使有上百万辆车收集数据,是否能够穷尽绝大部分驾驶场景使得错误率降低到一个比人工驾驶更安全的地步是我们下一篇文章要讨论的。





自动驾驶是AI最大的应用领域,没有之一, 限于篇幅,这篇文章只能讨论神经网络是如何识别场景的。在我的书里用了很多篇幅介绍自动驾驶的传感器如激光雷达;是否需要高精度地图?还讨论了产业生态的问题,比如美国汽车产业的中心是否会从底特律转到硅谷?传统车厂和互联网车厂的优势劣势比较;中国电动车产业在世界范围内胜算几何?长按下面二维码可以看到书的内容介绍,电子版也有免费的阅读。

 

作者简介

王维嘉,1958年出生于陕西西安,1977年考入科大6系,取得学士和硕士学位,后在斯坦福大学取得电气工程博士学位。1987年至1989年,王维嘉供职于太平洋贝尔,参与开发了太平洋贝尔的第一个光线宽带入户项目。1989年至1991年,王维嘉任职于硅谷蜂窝数据公司,主持开发世界第一个依托于蜂窝电话网的无线数据网。1991年至1994年,王维嘉在微软创始人保罗.阿伦的尖端研究公司主持无线联网可穿戴设备和虚拟现实的研究开发并拥有6项美国基础性专利。

王维嘉于1994年在美国硅谷创办美通无线公司,是最早在硅谷创办高科技公司的中国留学生之一。王维嘉和他所创立的美通公司在全球第一个提出并开创了无线互联产业,并将个人移动信息服务的革命性技术和产品带给了全世界。美通无线公司1996年开发了世界上第一台无线移动联网并可以浏览页面和收发邮件的手持终端以及配套的移动数据基站和交换机, 1997年在硅谷开发并在上海开通了世界上第一套移动股票交易系统,1999年开创了中国的移动互联网产业,第一个在全国范围内提供移动内容和应用服务,2001年第一个在中国提供基于位置的移动电子商务服务,2005年开发并运营了世界上第一款手机联网游戏。

王维嘉是硅谷风险投资公司CEG Ventures的创始合伙人,中国IT和互联网领域最大的行业组织“数字中国”的创始人之一和常务理事、中国高端海归组织欧美同学会2005委员会的创始人之一和第三届理事长。王维嘉是中国最大的企业家环保组织阿拉善生态协会(SEE)的创始终身会员并担任第一任章程委员会主席和第三任副会长,他也是中国最有影响力的企业家论坛亚布力论坛的创始终身理事,和中国第一家企业家智库中国企业研究所的创始人和第一任理事长。

编辑:郭艳0106研 唐志杰0106研


推荐阅读


【人文科大】科二代姜晨的人物摄影

【瀚海数据说】王维嘉谈暗知识

【人文科大】凶险、神秘、绝美的克什米尔

【瀚海文摘】邓立校友给图灵奖评委会的一封推荐信

【瀚海数据说】小记CVPR2019AreaChair会议 |联谊交流

【瀚海美食】上个月,我把广西嗦了个够

【瀚海数据说】硅谷抑郁症讲座笔记

【情系科大】与数学大师关肇直,华罗庚和曾肯成共事的故事

【瀚海数据说】宇宙如书,倾心阅读,无数的故事,送给同样好奇的你

【瀚海数据说】“脑科学与人工智能”前沿技术论坛纪要

【瀚海数据说】朱松纯:人工智能范式转换


欢迎点赞、留言、打赏、投稿、和分享转发!如需转载请留言。投稿请电邮 hzhang9@att.net。



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存