查看原文
其他

CV 界学术明星肖建雄创业了,他想让自动驾驶像电脑一样普及 | 专访

2017-09-04 彭君韬 机器之能

出走学界、仍是商界新人的肖建雄,正用十分之一的成本构建自动驾驶解决方案。


撰文 | 彭君韬( Tony )

编辑 | 刘燕


从副教授到企业家,肖建雄对新身份适应得很快。


33 岁的肖建雄以企业家身份入选今年 MIT Tech Review —— 35 Innovators Under 35 ,这是由美国科技媒体 MIT Tech Review(麻省理工大学科技评论,创办于 1899 年)自 1998 年创立的一项年度科技人物评选,旨在表彰全球 35 岁以内最杰出的 35 位创新人士。


相比于其他入选者,例如美国一流转基因公司 Caribou Biosciences 创始人 Rachel Haurwitz ,亦或是市值超过 30 亿美元的柔宇科技创始人刘自鸿,肖建雄还是个商界新人,2016 年 10 月,他正式创办了研究自动驾驶技术的企业 AutoX。


今年 2 月,在一场由丹华资本和斯坦福华人创业者协会主办的斯坦福 AI 活动中,肖建雄介绍了他的自动驾驶公司 AutoX。 


在随后的半年时间里,AutoX 获得了加州自动驾驶牌照,其无人车已经能在硅谷的车水马龙间穿梭自如。在今年三月披露的首款测试视频中,AutoX 摒弃了市面上的主流传感设备,仅依靠低成本的摄像头,实现了无人车在不同天气情况下的路面行驶。

这也是 MIT Tech Review 看好肖建雄的重要原因。其科技主编 Will Knight 认识肖建雄已久,他认为:「肖建雄希望将无人车变得和计算机一样普及」。

在成为企业家之前,肖建雄拥有璀璨的学术生涯―― 2012 年世界顶尖计算机视觉大会 ECCV 最佳学生论文奖获得者;2012 年 Google Research 最佳论文奖获得者;普林斯顿计算机视觉和机器人实验室创始人;两度获得 Google Faculty Awards ;美国国家自然基金委员会研究奖……

不过,入选 35 Innovators Under 35 对肖建雄有着不同的意义,「这是我第一次在商业上得到认可。」

拓荒三维深度学习

肖建雄热爱计算机科学,聊到人工智能( AI )时,他整个人都兴奋了起来,「人类能造车、造机械,什么都有,但最缺智能化,AI 是很神奇的。」

同时,他又是一个很直观、喜欢视觉的人。个人喜好引领他在十多年前就读本科期间选择了计算机视觉――一种数学和工程学的结合体。肖建雄在读博士之前就读于香港科技大学,学习三维视觉重建,师从该校计算机科学与工程学的终生教授权龙,他是三维视觉的学术权威。

在港科大分别完成本科和硕士学位后,肖建雄进入麻省理工大学(MIT)。他在 2012 年获得的 ECCV 最佳学生论文奖,是在谷歌实习期间的作品《重建世界上的博物馆》(Reconstruct the world’s museum)。这是一篇有关室内场景重现的经典论文――用 Google 街景相机,在博物馆内部拍照,继而重现博物馆的内部三维构造。

在 MIT 的 4 年,肖建雄已经开始琢磨如何将深度学习和三维视觉结合在一起。当时,深度学习之父 Geoffrey Hinton 和他的学生 A Krizhevsky 在 NIPS(神经信息处理系统进展大会)递交的那篇经典论文《ImageNet Classification with Deep Convolutional Neural Networks》,让卷积神经网络大放异彩,深度学习也迅速地在计算机视觉领域普及,这对肖建雄的影响很大。

毕业后,肖建雄加入普林斯顿大学视觉研发团队,开始着手研究一个新领域――三维深度学习。深度学习被证明在一维(语音)和二维(图像)上有着显著的效果,但将深度学习模型应用在三维数据(点云、深度图像、网格)的深度特征表示,是在最近几年才开始慢慢流行起来。

近三年,肖建雄发起或参与了几乎所有关于三维深度学习的研究——参与发布目前最大的公共三维数据集(三维数据里的 ImageNet )ModelNet 和 ShapeNet ;创建了研究三维深度学习的基
础网络框架 Marvin,为后来者做了铺垫;推出 3D 卷积网络 Deep Sliding Shapes ,在 RGD-D 图像中研究三维物体的特征……值得一提的是,Marvin 的所有权如今属于 AutoX。

「这个领域是我们创建的。」提起三维深度学习,肖建雄毫不掩饰内心的骄傲。

由于该领域技术在自动驾驶中有可观的应用前景,原本相对独立的三个领域——计算机视觉、深度学习和机器人找到了应用的结合点。这种趋势在近几年愈发明显,今年,机器人学术圈正在筹办一个大会,取名「机器人学习大会」,以此推广机器人和机器学习的相关研究。肖建雄受邀成为第一届大会的领域主席。

不难理解,当肖建雄在 2016 年离开普林斯顿大学后,一条知乎评论写道,「肖教授走了,普林斯顿视觉岂不是又没人扛把子了。」

入局自动驾驶

「我觉得这个(企业家)可能更适合我。」对肖建雄来说,创业和做学术更像是一个数学问题。「做创业,90%会失败;做学术,90%会成功。」

初见肖建雄,一如照片上的样子:白衬衫,深蓝色的西装裤,棕色的尖头皮鞋,梳着整齐的飞机头,戴着一副眼镜,文质彬彬。他出生在广东潮州,和马化腾、李嘉诚是老乡。他的家里人,包括爷爷奶奶、父母、姐姐,都是商人。

早在 2013 年,肖建雄就有了创业的念头,但没有迈出那一步。在他看来,刚刚从 MIT 毕业,花 4 年时间读完计算机科学的博士学位,在技术层面还达不到通透的程度。此外,当时也没有多少人真正相信无人车的前景。

学术圈有比较完整的体系和硬件支持。对计算机科学家而言,创新点往往在算法上,许多流程可以按部就班地进行。肖建雄之前在学术界从事过四五十个项目,对做学术稍有些倦怠。每个学术项目的周期都很短,如同经历一个又一个小的循环,成就感自然不如自己开公司。

三年后,情况扭转。肖建雄从普林斯顿大学辞职,离开美国东海岸的新泽西州来到硅谷。知乎有人评价肖建雄创业,是典型的「学而优则商」。但真正踏出那一步,说服自己的内心,需要勇气。肖建雄是一个愿意冒险的人,「这项创业是我一辈子做到现在最大的一件事情,也是最激动的事情。」

事实上,2016 年也是一个入局的好时间。此前,肖建雄一手创办了普林斯顿大学的计算机视觉和机器人实验室,掌握了自动驾驶的核心视觉技术。

另一方面,自动驾驶市场也日趋成熟,成为如今人工智能在应用领域里最炙手可热的一块蛋糕,传统车厂和互联网新贵都在全面押注自动驾驶。就在上周,三星也获得了加州道路上测试自动驾驶汽车的许可,正式进入这片群雄逐鹿的战场。

自动驾驶分 5 个等级区分,这是由 SAE International(美国国际汽车工程师协会)制定的行业标准(美国交通部下属的国家高速路安全管理局也制定了一套划分,从 2016 年 9 月统一使用 SAE International的分类标准),这 5 个等级从最初级的 L1 辅助驾驶出发,到 L5 已经是完全智能化驾驶的水平。

目前,主流的自动驾驶解决方案将目标定在 L3(高度自动驾驶,由人类负责激烈的驾驶情况)和 L4(超高度自动驾驶,由系统负责激烈的驾驶情况)。在 2020―2023 年间,自动驾驶车辆能够在特定的路段,比如城市街道、高速公路上行驶。至于 L5 什么时候来临,有业内人士预计是 2030 年,持悲观态度的人甚至认为 L5 可能永远不会到来。


「实现完全无人驾驶没有这么快,有些初创公司完全押宝在完全无人驾驶,我觉得非常危险,我不清楚接下来五年他们怎么生存。」肖建雄说,但他仍然希望尽快普及无人车,AutoX 宣传口号也是 Democratizing Autonomy(普及无人车),而他准备从摄像头入手。

挖掘摄像头的潜力

作为重要的自动驾驶传感器,摄像头主要是用于目标识别和对象跟踪任务,如车道检测、交通信号灯检测、行人检测等。

完全基于摄像头的自动驾驶解决方案在市面上并不多见。Mobileye 算是自成一派,这家创立于 1999 年的公司致力于研究基于视觉的辅助驾驶科技,目前主要面向 L1/L2 等辅助驾驶;特斯拉也曾是 Mobileye 的用户,但因为一场事故,两家分道扬镳,现在正独立研发基于摄像头、前向雷达、超声波雷达和 GPS 数据的全自动驾驶方案。

主流市场常常质疑摄像头的安全性问题。相比之下,汽车厂商们更青睐于能够主动探测的激光雷达,后者不会受到视线的限制,通过反射光波测量反射时间来确定和物体之间距离,精度高。

肖建雄并不排斥激光雷达,但他始终认为,在目前这个阶段,摄像头应该扮演传感器中的主角。从今年三月公布的首支无人车测试视频来看,他们使用改造自林肯 MKZ 的原型车,装载 7 个单目摄像头,成功地在晴天、小雨、晚间、晚间多云这四种天气情况下行驶无人车。在肖建雄看来,「摄像头的潜力被低估了,理论上,摄像头可以做到比人眼还厉害。」

AutoX无人车的测试视频截图


AutoX 种子轮投资方丹华资本的董事总经理万卉,在年初体验了最早的 Demo。她告诉记者,在创立 2 个多月的时间里,AutoX 成功让仅有两个低端摄像头的无人车在城市街道行驶,「 这种强大执行能力给人留下深刻印象。」

万卉看好摄像头为主、传感器融合为辅的自动驾驶解决方案,「基于高端激光雷达与三维高清地图的解决方案始于 13 年前的 DARPA(美国国防部高级研究计划局)挑战赛,该架构有其历史包袱与局限性。人类不会发射激光,也不需要提前记录下道路上每一个细节,我们可能会迷路,但仍能安全驾驶。」

为了提高摄像头的安全性,AutoX 下了很大功夫。硬件上,装在 AutoX 无人车上的 7 个单目摄像头,是从 AutoX 团队购买的 300 多种摄像头中所甄选出来的,但依然没有完全符合要求。肖建雄列举了一长串摄像头标准,包括符合车规硬件标准、自动化、高动态范围成像、夜视以及算法需求等。

但这不会造成太大的麻烦,伴随手机市场过去 10 年的发展,摄像头工艺也跟着突飞猛进,厂商有能力制造出满足需求的摄像头。「我们知道需要什么,我们可以让厂商提供定制。不是他们做不出来,是从来没有人和他们提过。」 肖建雄说。

软件上,基于摄像头的解决方案对算法的鲁棒性要求很高。这是 AutoX 的优势,除了肖建雄外,公司 20 多人都来自高等院校或谷歌、Facebook。

除了技术层面,成本也是一个重要的考量因素。到 2019 年,AutoX 将提供基于摄像头的 L2.5/L3 自动驾驶软件解决方案。作为创业者,肖建雄需要盘算自动驾驶在商业上的可行性。动辄上万美元的激光雷达,直逼一辆乘用车的市场价,相比之下,几十美元的摄像头就变得无足轻重了。

「我们现在主要是以摄像头为主,然后把摄像头的软件模块提供给感兴趣的汽车厂商。」肖建雄没有披露更具体的应用场景,但提到了两种适合 AutoX 的落地方式:第一种是特殊场景,比如运输卡车、机场巴士等在限定路线和区域内的完全无人驾驶;第二种是半自动化驾驶,即在乘用车上实现 L2/L2.5/L3 的水平。

肖建雄从内心觉得,这是一件正在改变社会的事情。正如他人尽皆知的外号 Professor X 所代表的另一个人物——查尔斯教授(Charles Francis Xavier ,漫威漫画 X 战警里的重要角色),「不是因为这个角色有什么超能力(才厉害),而是能集结社会中的能人异士去做一件很难但对社会有贡献的事情。」


以下是肖建雄和我们探讨关于无人车技术的内容:

AutoX 具体使用的是哪款摄像头?

具体的摄像头我们没有定 47 32568 47 15288 0 0 1494 0 0:00:21 0:00:10 0:00:11 3444 47 32568 47 15288 0 0 1367 0 0:00:23 0:00:11 0:00:12 3257我们大概买了 300 种摄像头。单目双目都有用,双目的其实就是两个单目的同步起来。RGB-D 没有看到一个特别好的,因为 RGB-D 用不了就得靠 Lidar。传统的 Kinect 和红外线不能看太远,会受到阳光的影响,白天开车阳光照射,有很大的干扰。所以基本上没有太多选择,我们就用单目相机。

你认为可以通过摄像头解决一切安全问题吗?

如果说不计成本快速实现无人车,当然什么传感器都上,科学上,你加多一点传感器肯定好过没有,就算它再差,但最起码多一层保险总好过没有,但这是科学上的。实际商业上,不可实现。因为你加很多传感器,价格非常昂贵,最后没有任何经济价值。无人车比雇几个全职驾驶员还贵的话,就没有意义了。

另外,硬件也没有准备好。更多东西,就有更多风险,比如说有了不同的东西,每一个都可能失败,一个失败就不稳定。做实验的时候,因为工程师检测半天可能不会有什么问题,但现在如果是真正商用,把车交给用户,什么千奇百怪的事情都可能发生。如果质量不好,任何一个传感器失效,都会出事。

汽车行业这么多年一直在测试稳定性,它们做的东西其实就是刹车油门方向盘,但为了这么简单的机械工艺,它们还进化了上百年才能把将它提升到一个很高的安全系数上。今天的方向盘已经安全很多,像 Abs(防抱死)提升整个系统的安全性能,也是迭代很多年才进化到今天这个地步。系统里如果加入了越多的东西,不完美的可能性就越高。

怎么克服摄像头中的弊端?比如说过度曝光,比如弱光环境,咱们只是在算法上做一些调整吗?

对摄像头也有一定的要求,不全是算法。当然算法要非常好,非常鲁棒,这是必须的,这是我们的技术优势。摄像头方面,一是强曝光的 High Dynamic Range(高动态范围成像),HDR 的要求非常高;其次就是夜视。其实,理论上,相机可以做到比人眼更厉害,但因为现在没有这种需求,没有人用它,自然就没有生产。

摄像头对处理器的带宽要求很高吗?

带宽要求挺高的。一般来说,现在的技术都已经承受了,比方说 USB 是很糟糕,但 USB 已经非常快。比方说在工业界,大家用 VMSL 来,这个是符合车规级的一个连接。现在很多特别新的电动汽车厂,他们一直在推 automotive ethernet(汽车以太网),我觉得这也非常好,因为自动化,以前就是用 Canvas ,这是个非常老的、非常糟糕的 protocol bandwidth(协议带宽)。

深度学习在 AutoX 整个决策过程中扮演什么角色?

我觉得深度学习非常重要,我们在各个方面、各个角落都用到深度学习。很多公司整天把深度学习当回事,把它当广告词。但我觉得深度学习有点像 C++,非常底层,不是说它不好,而是说它非常好,好到一定程度被普及,就变成了常识。

AutoX 的解决方案会是端到端的吗?就是把摄像头的数据直接输入到一个模型里,然后来做决策?还是会分权?

我们在 ICCV (由 IEEE 主办的国际计算机视觉大会)发表过一篇文章,里面有详细比较过,说端到端的效果不是很好。你可以想象一下这对数据要求非常高,就比如同一条路的车都不一样,那么多辆车,排比组合都不一样的话,每一个都得要训练数据。下次再换条路开,我觉得可变性太大,导致端到端需要用作训练的数据量非常大,可能是整个人类开车一两千年的数据量。

 AutoX 会用哪种处理器?会用 GPU 来大量处理这些数据?

现在还没有定下来,因为没有一款成熟的处理器可以用。我们和各大厂商都有接触,和英特尔、NVIDEA、Media Tech、MTK 有紧密关系。我觉得问题就是目前这四个厂商都没有任何一个真正能可靠的、能用的处理器。

你觉得芯片定制化会是自动驾驶的一个方向吗?

不一定是定制。比如说像卷积神经网络,基本操作就是卷积。不管使用 GPU、 FPGA 还是更定制化的芯片,都是为了实现卷积。如果有芯片 ACIS 或者 FPGA 出来就是卷积,会有更好的效果,用通用芯片我认为是一种资源的浪费。关于卷积在自动驾驶中的作用,一开始大家不清楚是不是卷积,逐渐达成共识后,甚至芯片都可以定制化到卷积。


不同汽车之间,数据可以互相通用吗?比如说卡车上的视觉数据也能用在训练一个小汽车上面。

可以,但那不是完全通用。但是 90%可以。

但是,拍摄的角度包括摄像头的位置都会有很大不同。

所以我就说 90%可以(通用),为什么?你的算法要够鲁棒,设计时还要多加一些变化,万一摄像头稍微动了一下,怎么办?这些数据可以增强它们的鲁棒性、独创性,但之后在某一款车型上你还是需要大量定制,所以我觉得需要通用和定制的结合。这也是我们的策略。我们未来的产品可能会有各种形式,然后有一个 centralized(集中)的 dataset(数据集),圈好之后,为每个厂商的每个产品进行定制,确保用户体验在那个环境里是最优的。既不是 one fix everything,也不是说完全不共享。


摄像头怎么和这种 HD Map(高清地图)来一起工作?Lidar(激光雷达)和 HD Map 合作的比较多,摄像头这种有哪些优势或者缺点?

优势很明显,就是能够快速落地产品化,因为价格便宜,然后硬件制造也容易实现。我觉得称不上缺点,大家没做过 ,像 Mobileye 做过,其他很多厂商做得都比较少。事实上,我们内部发明了许多基于摄像头的定位技术。没人做只能说,难度比较大。还有就是盲目崇拜 Lidar 。其实, Lidar 在定位方面也有局限性,比如说一个最极端的状况,试想在一个很大的操场,Lidar 只能看一百米,因为操场很大,超过一百米的半径,你的车在中心的时候,周围一圈扫起来都是平面,什么都没有,没有树也没有房子,这时候科学上就是不可能做到精确定位。
很多人没意识到这个极端状况,国内的很多地方是十条道,还有交叉路,这就很像广场,什么都没看到,这样就很难定位。我觉得美国这些居民小区、旁边有楼的还可以操作。


另外,高清地图每两个月扫一下,但像山间、林间小路里,树会长大、会落叶,比如说在 MIT,东部一到秋天叶子两星期内全部落完了,然后高清地图上次扫的是有叶子,这种情况下,如何对齐就不是很清楚。我觉得高清三维地图是个很好的设想,怎么落地还有很多现实挑战。比如说在波士顿,下雪风吹,每个小时雪都是不一样的,怎么定位?我觉得用 Lidar 很难定位,长得太不像了,Lidar 是靠形状,形状都不一样就没办法定位,分辨率非常有限。大家觉得用 Lidar 就一定好,我觉得不一定。如果 Lidar 降价或者真正量产,我们会马上使用 Lidar,我以前发表过很多文章做 Lidar ,只是用 Lidar 需要现实一些,就算用 Lidar ,软件也要做到非常好。


传感器是怎么样的一个配置?AutoX 是以摄像头优先的一个解决方案,加上一些其他的传感器吗?

我们现在以摄像头为主,然后将摄像头模块,比如说各大汽车厂感兴趣,我们可以把摄像头软件模块提供给他们。像特斯拉、 Mobileye ,现在真正落地的产品都是靠摄像头,奥迪 A8 也是基本靠摄像头,前面的四线 Lidar 基本上是最后一层防线扫障碍物。(机器之心海外分析师 Alex Chen 对本文亦有贡献


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存