查看原文
其他

独家对话清华教授邓志东:凭借通人性的大模型,助力中国无人驾驶商业落地

郭怀毅 亿欧汽车 2023-08-22

全文共6562字,阅读大约需要11分钟
尽管不够完美,但通人性的大语言模型已可为中国无人驾驶产业赋能。更完美的多模态大模型会更接近甚至超过人类,但实现的路径也更难,对安全监管也提出更多挑战。

本文首发于亿欧汽车

采访|郭怀毅、安晓雅

作者丨郭怀毅

编辑丨郝秋慧



从行业全面遇冷到再度炙手可热,自动驾驶只需要一个ChatGPT。  


2022年,因为商业落地的前景渺茫,国内外的智能驾驶行业不约而同地陷入了寒冬中。去年10月,作为智能驾驶行业的巨头之一,Mobileye估值一度超过500亿美元。但在去年上市前夕,这一数字已缩水至159亿美元,不足估值巅峰期的一半。   


但从整体情况来看,Mobileye估值缩水已经算非常幸运。同样在去年10月,由大众和福特汽车共同投资数十亿美元的自动驾驶初创企业Argo宣布倒闭。   


在大洋的此岸,中国的自动驾驶独角兽们也都遭遇了挫折。全球“自动驾驶第一股”图森未来宣布裁员四分之一,另一家被寄予厚望的初创企业小马智行也被传裁员消息。   


为什么一时风光无两的自动驾驶独角兽们纷纷在2022年折戟沉沙?   


福特汽车CEO吉姆·法利解释关闭Argo的话也许最有代表性,他表示:2017年投资Argo时,福特预期在2021年将L4级无人驾驶汽车推向市场。但事与愿违,所以福特不再青睐遥遥无期的L4级无人驾驶。   


商业落地遥遥无期,这是智能驾驶行业遇到的最大瓶颈,这也直接导致了全行业在2022年遭遇寒冬。   


但当Open AI发布基于生成式Transformer大语言模型(LLM)的ChatGPT后,智能驾驶行业似乎迎来了转角的曙光。   


理想汽车创始人、CEO李想马上就捕捉到了ChatGPT带来的机遇并得出“AI技术路径逐渐清晰”的结论。在2023年春节结束后,理想汽车内部就明确要“在2030年成为全球人工智能行业的领导者。”   


一直高举“智能”大旗的小鹏汽车也迅速跟进ChatGPT热潮。在百度发布了类ChatGPT产品文心一言后,被认为属于“阿里系”的小鹏汽车甚至和百度云开展合作。   


回到大洋彼岸的美国,作为智能电动汽车行业的领头羊,特斯拉在2020年就将大模型引入自动驾驶中。目前,特斯拉已实现了纯视觉FSD(Full Self-Driving,完全自动驾驶)Beta公测。在近日的特斯拉二季度财报会议上,马斯克再次表示有信心在今年底实现完全自动驾驶目标。


邓志东,清华大学计算机系教授、博士生导师

清华大学人工智能研究院、视觉智能研究中心主任


“特斯拉的技术路线其实和Open AI的ChatGPT是一样的。”清华大学计算机系教授、清华大学人工智能研究院视觉智能研究中心主任邓志东在接受亿欧汽车专访时表示,应该争取利用大语言模型为中国的L4级无人驾驶产业赋能。   


因为在邓志东看来,ChatGPT虽然还不完美,但它证明大语言模型完全可以理解人类语言,而语言是人类思维和理解世界的“载体”。ChatGPT能够理解人类语言,拥有常识与其他世界知识,也就意味着它能够像人类一样理解外部世界,从而实现最重要的一点——通人性。   


一旦做到了通人性,人工智能就有望实现在感知基础上的理解(understanding),进而打通驾驶过程中的感知、预测、决策和规(划)控(制)环节,这也是长期以来困扰无人驾驶进一步发展的行业瓶颈。   


所以邓志东主张,考虑到目前特斯拉在单车智能这条道路上已经领先绝大部分企业,中国车企可以在大语言模型赋能NOA的基础上叠加智能路网,实现中国L4级无人驾驶产业的商业落地。   


事实上,部分中国车企高管对于特斯拉在自动驾驶领域的领先是有着清醒的认识。   


李想就曾在2023年初表示:“今年年底时,大部分头部中国车企能够做到2021年年底特斯拉的(FSD)水平。2024年,大家普遍能做到2022年底2023年初特斯拉在北美的水平。”   


为了追赶特斯拉的步伐,理想汽车宣布将大力推进基于大模型的自动辅助导航驾驶(Navigation On Autopilot,下称:NOA),并计划在今年年底覆盖国内100座城市。   



除了理想汽车,小鹏、蔚来、华为、智己和长城旗下的毫末智行等企业也都陆续公布了自家的NOA战略。   


“但是NOA终究没有脱离L2级辅助驾驶范畴。”在邓志东看来,如果想进一步向更高级别的无人驾驶发展,可以通过大语言模型对车企的NOA进行赋能。同时,再叠加智能路网的基础设施建设。这样的结合方式,有可能助力中国的L4级无人驾驶最终实现商业落地。   


以下为亿欧汽车与邓志东的对话实录,在不改变原意的基础上有所删改:



 ChatGPT让自动驾驶看到新希望


亿欧汽车:今年4月的时候,百度前总裁陆奇说他已经跟不上大模型时代的发展速度了。您也有类似的体会么?


邓志东:虽然陆奇投身商界,我在学校从事科研,但陆奇说的那种紧迫感,我也有着深刻体会。而且我在科研一线,每天要看大量关于大模型的新论文,大量的新思想、新框架和新架构,可以说是层出不穷,不断涌现。   


亿欧汽车:这种热潮在学术界有什么具体表现么?   


邓志东:我举一个例子,国际上有一个神经网络领域的顶级学术会议NeurIPS,往年这个会议能够收到的投稿论文一般是7000至8000篇,但是今年因为大模型太热了,给这个会议投稿的论文数量超过了15000篇,这种投稿量“通货膨胀”让我印象深刻。今年,大模型的爆发让人工智能再度炙手可热。   


亿欧汽车:自动驾驶也包括在内吗?因为我们知道在2022年,自动驾驶和前几年相比出现了非常明显的降温。   


邓志东:随着大模型的爆发,自动驾驶今年也重新成为热门赛道。但必须要明确的一点是,自动驾驶是一种非常具有挑战性的任务,甚至可以说它是人工智能里最艰难的落地场景之一。   


自动驾驶是模拟人驾驶汽车,可并不是所有人都可以驾驶汽车。你想驾车的话,你必须得先考驾照对吧?所以从这个角度来看,人驾驶汽车都需要学习,那对于人工智能就更具有挑战性了。   


亿欧汽车:那么,以ChatGPT为代表的大语言模型对于自动驾驶的意义在哪里呢?或者说,大语言模型如何赋能自动驾驶呢?   


邓志东:这个需要从ChatGPT的底层逻辑说起。   


首先,从本质上来看,ChatGPT可以理解和模拟人类的语言智能,换一个通俗的说法就是,ChatGPT做到了——通人性,这是以前的人工智能所不具备的。这个时候,它就可以按照人类的逻辑来进行驾驶。   


第二,ChatGPT压缩、封装了人类关于一般性知识的超大规模知识图谱。把人类至少文本意义上全世界多语种的一般性知识,都进行了语义对齐,对齐之后还建立了它们之间的关系。这些海量常识、事实性知识、语言类知识和场景的注入,可以帮助实现安全、可靠和基于认知的视觉理解任务。   


亿欧汽车:但是ChatGPT目前主要应用在语言文本领域,这和自动驾驶怎么衔接呢?   


邓志东:对,ChatGPT目前还是基于文本语料库构建的大语言模型,也就是文本单模态的。但我们要知道,无论是文本单模态语言智能,还是文本、视觉、语音等构建的多模态语言智能,其实语义理解、推理与规划等底层逻辑是完全一致的,区别仅在于后者是增强型的。语言是人类观察、理解、预测、决策与规控的思维基础,开车离不开语言思维。


我们开车都是先通过视觉感知环境,在这个过程中,我们以语言思维知道了自己所处的动态驾驶环境,了解了自己处在什么位置,这个过程主要是依靠纯视觉感知与理解的。   


然后,我们继续以语言思维做行驶轨迹的预测,不断进行决策与路径的规划,最后就是控制和执行。这些其实都是靠语言思维来进行的,也可以或只能用语言思维来贯通。虽然我们不会把这个过程说出来,但这其中的每一个环节都是在语言智能和常识的基础上实现的。   


亿欧汽车:例如我们开车的时候进行了左转,但不会把“左转”说出来?   


邓志东:对,意图或行为的描述也是以语言的形式表达的,这就是你在形成意图或完成任务后的文字表述。但你操作的时候并没有说出来,对不对?  


当视觉完成了外部环境的“阅读”理解之后,余下的整个过程,定位、预测、决策、规划、控制都是在语言智能基础上实现的。   


这就是ChatGPT的意义所在,因为它通人性,可以打通人类的语义与语言逻辑,它就可以实现在感知基础上的理解(understanding),这也是以前自动驾驶的一个主要瓶颈。   


亿欧汽车:这就是ChatGPT通人性对自动驾驶最大的好处么?   


邓志东:ChatGPT通人性还有一个好处,那就是我们也知道它在干什么,驾驶的时候是怎么思考和决策的,因为它懂我们的语言,我们就能让它解释。   


反过来,如果一个自动驾驶的模型不理解人类语言,不通人性,那它的一切思考和决策也就不具有可解释性,至少我们人是看不懂的。一旦出了问题,原因是什么?它解释不了,我们也看不明白。这种模型,你敢用吗?   


所以,我们必须要通过大语言模型赋能自动驾驶,这才是真正的人工智能,而不是以前人类理解不了的数据或特征层次上的数据驱动建模。唯有如此,才能获得自动驾驶所需要的安全性与可解释性,只有人类的语言智能才可以让人类可以理解,才能够进行事前、事中、事后的解释。反过来,也才可以让自动驾驶与人类老司机的驾驶技巧进行“价值”对齐。   


亿欧汽车:对于中国智能驾驶行业,当务之急就是尽快开发属于自己的大语言模型,然后再赋能给自动驾驶?   


邓志东:其实这里有三条发展路径。第一个,设定多任务的联合训练,就是把自动驾驶看成是很多需要解决的任务。这里主要是三个主任务:感知、预测和规划。在三个主任务下面还有很多子任务,比如感知下面有检测、跟踪、建图。然后将所有任务和目标联合起来进行训练。   


但是这条路能不能走通,就不好说了。因为这种模式缺乏语言智能,也就是我刚才说的不通人性。人理解不了,也无法解释,所以这条路径的未来就很难说。


第二条,研发和训练多模态通用大模型,这有可能已经超过了目前ChatGPT的能力与水平,因为ChatGPT还是文本单模态的大模型。GPT-4考虑了文本+视觉,但使用的是视觉转文本的方式进行对齐,不是真正意义上的跨模态大模型。因此要直接开发多模态通用大模型的路径会面临非常大的挑战。毕竟国内的大语言模型中,还是以优先追赶ChatGPT为主,能达到ChatGPT的能力和水平,就已经非常不容易了。   


第三条,那就是在已有ChatGPT的基础上,直接利用它,通过ChatGPT来进行赋能,我觉得这是目前最现实、最可行的一条路径。首先,它需要的算力是最小的。然后,ChatGPT已经能够做到通人性,而且它封装了巨大的世界知识或知识图谱,相当于是一个受过通识教育的“成年人”了,进驾校或开车练一练,就可以当司机了。后面这个驾校学习或实践的过程,就是我们要重点发展的垂域自动驾驶GPT,以便让“成年人”受到专业训练。因此这是成败的关键。   


亿欧汽车:今年以来,很多车企都在NOA这条赛道上做投入和研发,一些车企甚至表示要在年底的时候在100座城市开启NOA,大语言模型也可以赋能NOA吗?   


邓志东:首先要明确一点,NOA其实还是属于L2级别的高阶的智能辅助驾驶,虽然它可能非常接近L3,但它终归不是L3。所以,车企在实现NOA大规模商业化以后,就必须要去考虑L3、L4级的自动驾驶,因为这才是终局的战场。但是从目前的现状来看,我们的单车智能和国外的先进水平可能还有一定的差距。   


这个时候,大语言模型不仅可以加快甚至是“换道”我们的单车智能发展,还可以叠加智能路网的建设。在单车智能+智能路网的范式下,还可以利用类ChatGPT的大模型去重点解决云、边、端“一对多”的AI安全预测问题,实现一个安全员可以远程照看10辆、100辆甚至1000辆车。我觉得这个时候就可以构建起具有中国特色和优势的自动驾驶商业闭环,并推动L4级无人驾驶大规模商业落地。



 多模态是终极大模型,但监管要跟上


亿欧汽车:既然ChatGPT已经通人性了,它的未来发展空间还有多大?   


邓志东:现在的ChatGPT还是文本单模态的大语言模型,多模态大模型才是完美的,才是智能增强型的,因为人就是多模态的。   


所以,如果想让生成式通用人工智能从数字空间走向或直接赋能真实的物理空间,那我们就必须要发展出多模态的通用大模型,也就是装上对现实世界观察与理解的“眼睛”与“耳朵”。


因为在多模态通用大模型中,文本、图像、视频和激光点云等才可以做到语义水平上的完全对齐,才可以做到语言智能的增强,以及对视觉与语音的直接感知与理解。这个时候,或许就不需要专门去发展垂域的自动驾驶GPT了。   


举个例子,现在ChatGPT是文本单模态的大语言模型,它可以理解文本上的“老虎”,可以是中文的,也可以是其他语种的。


但在“ChatGPT+垂域视觉GPT”或直接在多模态通用大模型下,它不仅可理解文本上的“老虎”,还可以理解图像和视频中的“老虎”。而且还能做到语义上的对齐,不管这个“老虎”是文字、图像还是视频形态下的,它都知道这是“老虎”。   


所以,我刚才说的三条路径中的第二条就是发展多模态通用大模型,这等于是换道超越ChatGPT,这条路非常艰难且需要大量的时间,同时也需要专业且顶级的大模型人才与团队,还有远比研发ChatGPT更多的资源。因此,“ChatGPT+垂域视觉GPT”的第三条路径可以作为目前的过渡,也就是先给类ChatGPT装上“眼睛”,但研发我们自己的多模态通用大模型,肯定是更有意义的事情。


亿欧汽车:那人工智能岂不是和人类一样了?   


邓志东:对,其实现在的大语言模型在一些任务的评测上就已经达到或者接近人类水平了。   


亿欧汽车:未来的人工智能可以发明创造吗?   


邓志东:它有可能实现AI for Science,就是用生成式通用人工智能赋能科学发现。因为大语言模型有人类语言智能,又封装了人类关于一般性知识的超大规模知识图谱,例如分布在Transformer框架低层和中层的语言学知识,如词法、词性、句法等浅层知识,以及存储在中层和高层结构中的抽象的语义类知识,包括常识型知识和事实型知识等所谓的世界知识,而且它还可以在整体上把知识互相连接起来,即通过反复使用打通路径连接,在此过程中就有可能发现一个新的路径出来,这可能是此前人类完全没想到的路径,这就是“创造”。   


所以这就是为什么我们说通用人工智能可以赋能科学发现,AI for Science就是这个意思,它可能会发现一些新材料,甚至发现颠覆性的物理、化学的新定律。   


就像阿尔法狗(AlphaGo)在很多棋局中使用了人类完全意想不到的下棋思路一样。人类已下了几千年的围棋了,也积累了很多棋艺。但人类自以为在一些棋局中是绝不可能那样下的,可阿尔法狗不但下了,走通了,而且还可能是更优解。   


亿欧汽车:目前,ChatGPT的迭代还是通过人来研发和预训练的。以后有没有一种可能,ChatGPT实现自我训练和迭代?   


邓志东:GPT-5可能就是这样做的,就是让人工智能去教人工智能。   


亿欧汽车:那人工智能有没有可能超过人类?   


邓志东:人为什么比动物聪明?因为我们有语言和学习能力,但是这两种能力,现在生成式通用人工智能都具备了,而且机器算力远超生物算力的进化速度,细思极恐。


从学习效率来说,人工智能是机器,它们是不需要休息的。自2017年6月Transformer问世到2020年5月GPT-3发布,生成式人工智能可以用三年时间学习完几乎全世界所有的文本语料知识。同样是三年,人类可能只是从小学三年级升到小学六年级。   


一个人穷其一生也就是100年左右,在这100年里,你也许可以成为一个数学家,在数学的某一个细分方向出类拔萃。但是在其他领域,例如生物学和经济学,作为数学家的你可能就不太懂了。ChatGPT是什么都懂,这是前所未有的。   


亿欧汽车:学术界和产业界有一种观点认为人工智能发展的速度有些太快了,所以对于ChatGPT为代表的人工智能应该施以严格的监管甚至暂停开发下一代GPT,您怎么看这个问题?   


邓志东:其实对于中国技术与产业环境来说,现在还是应该主动去创建一个宽松的大模型创新生态,因为我们现在还没有属于中国自己的ChatGPT,所以应该更多的去鼓励探索和创新,尽快缩短差距。   


但这并不意味着不需要安全监管,因为任何一个通用人工智能的发展都需要在人类的安全监管下进行。问题是安全监管的尺度要把握好,毕竟我们现在还仅是追赶者。   


另外,对于通用人工智能发展的安全监管,国际合作也是非常重要的。假设,有一个国家的安全监管比较严格,限制了大模型在该国的发展。可其他国家都不做限制,那意义也不大。所以,对于通用人工智能的监管需要取得国际共识。   


亿欧汽车:您觉得目前的ChatGPT会带来哪些风险呢?   


邓志东:还是很多的。因为ChatGPT封装了人类的所有文本知识,所以通过它去从事一些带有社会危害性和毒性的事情是完全可能的。   


例如一个人并不会写程序代码,但是他可以通过向ChatGPT提示查询,然后写出一段电脑病毒,但这还只是在互联网世界。现实世界中也一样,如果一个人的提示词足够“巧妙”, ChatGPT甚至可以手把手教他如何制作违禁品甚至是武器。   


所以,社会公测的ChatGPT必须要做到价值观对齐,通过RLHF强化学习和人类价值标签强行让ChatGPT在面对这些提问时禁止响应。   


其实,OpenAI在价值对齐上做得还是非常好的,他们在这上面花了很多功夫,GPT-3.5其实在去年就已经调优好了。但是,OpenAI又用了好几个月的时间专门做价值对齐。现在,外界使用的感受也觉得ChatGPT或GPT-4的价值观好像没有什么问题。   


所以我刚才强调,任何一个通用人工智能的发展都需要处在人类的安全监管之下,而且还要形成安全监管上的全球共识。






阅读




- END -

本文由亿欧汽车出品

未经许可 请勿转载


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存