即便是 AI,有了先进的大脑,还是需要灵活的躯体。
我们和清华大学交叉信息研究院助理教授,前 OpenAI 研究员,师从人工智能泰斗 Stuart Russell 教授的吴翼教授,交流了机器人控制领域的最新进展,Enjoy。
绿洲:最近这一波 AI 热潮对您研究上有什么影响或是思路上有什么变化吗?吴教授:我认为变化还是挺大的。回顾一下我的研究,最早是强化学习与规划算法,到多智能体强化学习,最后统一到强化学习的泛化性。强化学习本身是一个过拟合的学科,只要能记住最牛的策略,比如说下棋,只要这个策略一直能赢,记住就可以,不用考虑泛化性。多智能体强化学习更复杂,多个策略同时最优已经很困难了,如果其中一个智能体要变成一个人,那人的策略可能根本就不是最优,就需要开始考虑有没有可能让 AI 对不同的人有泛化能力,和不同的人做交互。我研究人机交互,包括在游戏里跟人做交互,或真实中跟机器人做交互,去研究强化学习怎么才能学出一些比较像人的行为。ChatGPT 的语言能力让人机交互实现了飞跃。之前人对机器只能使用非常简单的语言指令,比如说“打开红色按钮”,“打开蓝色按钮”,“向前走 3 米”。ChatGPT 却可以将“我渴了”这类对 AI 而言复杂的语言翻译成 AI 可以执行的任务:理解你可能想喝水,去找厨房,找冰箱,然后打开冰箱拿到水。这让我顿时觉得全方位互动的智能 AI 助理是可以实现的!AI 助理不仅能跟你说话,还能帮你完成生活或者办公上任何浪费时间的琐事。ChatGPT 的出现让之前难以企及的目标变得可行了,我自己还蛮高兴的。
绿洲:您的研究方向最近有哪些进展?
吴教授:我们主要在做人机互动。比如我们去年在 NeurIPS(神经信息处理系统大会)有个玩游戏的工作。在很多即时战略游戏里,人要高效率操作很多兵是非常麻烦的,我们思考让 AI 听从人的指令以便帮人完成复杂的微操。人和人交流的方式是很抽象、很高级的,日常交流中很少会出现“往前走 3 米,往左转再走 3 米”这类表达。所以我们开始研究如何用抽象指令去指挥 AI,做了一个可以跟 AI 说话并指挥它去做事的项目。现在你只要直接跟兵说“你去采矿”,具体哪几个小兵去采矿,采哪个矿你就不用管了;又或者你想造冰龙这个单位,只要说“Build Dragon”,造了龙放在哪里,或者有什么前续动作,AI 都可以帮你处理。
除此之外我们还做了很多别的项目,比如让游戏里的 AI 根据人的行为推测他的想法并辅助人类完成目标,比如用语言去控制机器人,比如让机械狗像宠物狗一样招手等等。这些研究的核心都是形成一个“助手”,让 AI 能在现实或虚拟世界中,听懂人类的抽象指令,并完成任务。
吴教授:每个人都拥有“私人助手”。我们想做一个通用的 AI 大脑,有一天让每一个人都有属于自己的定制化助手,就像钢铁侠里的 Jarvis。
绿洲:在您的领域或是工业界哪些开源工作让您印象比较深刻?吴教授:算法上差别不大,但有很多项目效果不错。比如 Google 花了一年时间做的 SayCan Robot,让一个移动机器人成功听懂指令去厨房拿东西。局限性肯定有,但能第一个做出来,相当不容易。机器人控制在有了深度学习和强化学习之后整个领域变得很卷,但也卷出了诸多好玩的项目。还有值得一提的项目是最近斯坦福的工作,让 25 个 AI 在游戏里自己跟自己说话,模拟人生。这些工作并非难在技术,而是原本大家不敢想或者觉得不可能的事,现在真的有团队会花时间耗精力做出演示模型,让世人眼见为实。我做研究的哲学也是这样,做 AI 最重要的是拿出东西来给人看到,而不只体现在算法创新。我跟学生也说,“有了大语言模型之后,这个时代变了,你还是可以做传统的算法,但是有一个如此强力的工具摆在面前,为什么不用呢?”退回十年看,当时也有很多人觉得深度学习这个不行,那个不好。但是它既然已经表现出了很强的能力,至少可以当成一个工具用起来。结果显而易见,现在基本每个领域都多少会用到深度学习。我认为这个时代强化大语言模型是一个强有力的工具,并非说它广泛适用,它必然存在局限性,但可以预见的是它在未来 10 年会成为一个基准工具,所有的领域都会用到,会带来很多范式的变化。吴教授:机器人控制领域很广,不同的机器人差异很大。强化学习让机器人控制做得越来越好,比如说无人机,现在高速无人机可以完成很多复杂灵活的机动,速度更快,机动能力更强,反应更快,越来越炫酷。又比如最近学术圈都在做机械狗,可能因为这是学术圈最容易买到的移动机器人了(笑),控制机械狗本身又比较难,也适合强化学习产生突破。现在训练好的机械狗能走各种地形、上山下海,跳起来翻越障碍或者站起来走。我们组自己最近做了一个站起来能走的狗,然后发现伯克利发了一篇论文,他们的狗站起来走还能跳一跳;我们做了让狗追着球跑,然后发现伯克利做了一个守门员狗,能跳起来扑救。可以感受到这个领域有多卷。大语言模型出现之后,也因为 Google 做了 SayCan 机器人项目的原因,从语言直接控制机器人的领域也很卷。但语言到机器人控制因为有语言部分,难度更高。机械狗没有语言的部分,主要就是控制,所以就卷起来就更疯狂。不过我们这里说的都是世界上最好的研究组,直接和他们相比的确感觉整个领域非常卷。事实上机器人领域的门槛很高,每个子领域的机器人能做到很精深的组并不多。但确实在深度学习和强化学习技术之下,每个子领域都往前推进了不少。
绿洲:您对开源机构的 LLM 怎么看,是会普惠,还是会出现譬如 OpenAI 一家独大?吴教授:我认为可能出现一家领先,但不太可能垄断。因为 LLM 的核心在于数据、框架和算力。举一个不是很恰当的类比,之前的人脸识别,刚开始有些机构特别领先,比如说像商汤,从技术上还有优势,但多年发展下来目前大家的水平都差不多了。从实际应用来看,当大家都有一定水准之后,随便弄一个评分差一点的模型,也凑合能用。如果你领先别人10 个点或者 20 个点,那确实很厉害。但如果只领先 5 个点,在部分场景确实能有垄断地位,但从宏观上看,就很容易被替代。大语言模型像当年的深度学习, 12 年、14 年的时候深度学习也就一小部分人会,也只有那些人在做,他们积累了很多东西。随着开源的进步,OpenAI 原来可能领先两个身位,现在可能只领先一个,过 5-10 年再看,它可能就只能领先半个身位或者零点几个身位。技术上我觉得早晚都会差不多,商业上 OpenAI 可能就是 0.5 个身位的优势。而在垂类或者产品上必定会有超过 OpenAI 的公司。另外从政治角度看,如果出现一家垄断,政府也会监管。
绿洲:您是为数不多在 OpenAI 工作过的中国人,能分享下您在 OpenAI 的工作体验和感受吗?吴教授:我当时在多智能体团队,做的项目叫“捉迷藏”,应该是 OpenAI 公司历史上视频点击率最高的一个视频。
OpenAI 对我而言还挺独特,我之前在 Facebook AI Research 兼职了一年,觉得两者还是挺不一样的。 Facebook AI Research 特别像一个实验室,那个年代拥有大量顶尖 PhD和最好的研究员,会做顶级的科研项目。OpenAI 一开始也这样,很多强化学习的基础工作都是 OpenAI 在16、17年做的。但到 18、19 年开始做 OpenAI Five 和 Dota 之后,公司内部的目标发生了变化,大家也能发现这个时间点开始,OpenAI 的论文数量显著变少,但它逐渐秀出一些大新闻,比如说机械手拧魔方、捉迷藏、打 Dota,还有 GPT-2。公司的风格变了。OpenAI 一直只有 100 人左右规模的团队,拆成几个小团队,每个小团队就做一件大事。但它做的“大事”也不算产品,就是研究项目。一个打 Dota 的 AI,能够开新闻发布会,但不是为了赚钱而做的。OpenAI 用一个团队的方式做一个大科研项目,这点让我觉得与众不同。
绿洲:从这角度来说,OpenAI 的确不像实验室,更像是一个面对终端用户或者客户产品思维的公司?吴教授:DeepMind 从某种程度上说也是这样,但 OpenAI 做得更彻底——用做产品的方式做研究。当然缺点也不可避免,比如“拧魔方”的工作投论文就一直没投中。但从结果导向回顾的话,虽然没有论文发表,影响力却极为可观。
绿洲:在学校里做研究是不是就不太适合 OpenAI 的思路?吴教授:这个还是看人,在学校也要看地方。伯克利就有类似的组,并且非常成功。比如说我们系统组,当年最早叫 AMP Lab,然后叫 RISE Lab,现在叫SKY Lab,伯克利每隔一段时间就攒一堆学生加上工程师一起,去做每个时代最先进的技术,孵化出很有名的公司,比如 Databricks、Anyscale 等等,都作出了很好的产品。在系统方向很多,但 AI 领域确实比较少。我的组也有这样的倾向,我的学生开启一个项目之前,我都会说,先不要跟我讲你想做什么算法,你告诉我最后你想展示什么东西,这个东西得是现在世界上没有的。我认为这是一种有挑战性的工作方式。缺点就是之前提过的,论文数量会比别人少。所以还是看个人目标,如果一个人受限于比如学校要你发 10 篇论文才能毕业,那可能确实得采取另一种策略。但我觉得事实上越来越多的人开始觉得 OpenAI 模式还不错。绿洲:现在的大模型几乎都是以谷歌 Transformer 为基础模型的,OpenAI 的创新革新体现在哪里?吴教授:我觉得是要看怎么定义创新,是学术圈的创新还是工业工程上的创新?OpenAI 的创新更像做系统的创新,比如 Operating System 和 Distributed System 里面的创新。大家如果去关注计算机系统领域的顶级会议,他们的创新点往往一句话就能说完,之后补上 10 到 14 页的论文,讲清楚所有细节。OpenAI 就是这样,每个工作就只有一个创新,比如说大语言模型,他的创新点就是模型做大了之后发现了它很牛,就这么一句话。看起来好像在算法上,数学公式上没有什么创新。在传统的人工智能领域,大家特别喜欢在数学公式、算法、逻辑上做得漂亮。但 OpenAI 有创新么?显然有。GPT-3 做出来,结论很简单,但是论文里面得有 20 页的细节。当时我们做”捉迷藏“的时候,就一句话——用强化学习算法跑了一个捉迷藏游戏——这事就结束了。从传统 AI 领域的视角去看,是用现有算法,写个环境,跑了一把,发现一点好玩的行为,仅此而已。绿洲:您觉得这波 AI 的变革对于物理世界的机器人会有哪些方面的影响?哪些机器人的终端产品是能够做得更好的?吴教授:除了人机交互之外,其他我觉得变化不大。人机交互核心就三点:一是事情的理解,二是事情的执行,三从执行到控制。“理解”原来确实做不了,现在有了 ChatGPT 就没问题了。早年我做强化学习的时候,也可以做到简单模版类型的语言控制,用强化学习 AI 去做特定任务,而大模型可以做一些复杂任务的拆解。当然拆解任务这件事情强化学习也可以做。关键在于有了大语言模型之后,复杂语言理解的能力实现了飞跃。从宏观上看,其他部分的变化并不多。从控制的角度看,最大的变化是由当年机械手拧魔方项目带来,它是第一个端到端的强化学习模型,可以控制一个机械手,并完成了传统机械机器人控制算法完全解决不了的任务。现在几乎所有最新的基于强化学习的机器人控制项目也都是这一套,就是说从 19 年 Open AI 拧魔方开始的,技术路线一直没变。不过,路线虽然一直很确定,但不代表所有问题都很好解决,因为控制中算法和硬件的耦合占比太重。机器人并不像语言一样有一个特别通用的标准,基于强化学习的控制需要仿真器,需要数据,但是你要采集那么多现实生活中的数据,并且机器人硬件还可能在变化。硬件不像语言是统一的,是基本不变的。不同领域不同型号的机器人硬件可以有完全不同的设计,机器人硬件上的很多具体限制是没办法完全在仿真里完美体现的。如果要在现实生活中用真实硬件去采集数据又很慢,所以硬件这个坎至今还很难真正迈过去。一句话来总结现状:硬件控制的问题一直都在,任务拆解方向有提升,而理解做得非常之好。关键还是你希望做怎样的机器人,工业机器人?还是 ToC 机器人?ToC 就需要复杂指令,ChatGPT 可以把指令的理解和交互做到位。但是 ToC 对硬件的要求、成本控制、以及产品形态,都是未知数。只能说我们做了一个很好看的例子,比如办公室里的辅助机器人。真要产品化那就会涉及到硬件的各种问题。比如你每天要叠被子、倒垃圾,很多事情是柔性的,或者需要很强的触觉反馈,触觉反馈在硬件上就很难做。目前人类造出的机器人并不能很好地反映人类本身躯体的灵活性,这是目前 ToC 机器人硬件上过不去的坎。相比而言,工业场景中的机器人,比如说装手机装汽车,就不需要理解那么复杂的指令。工业机器人有没有一个好的语言接口完全不要紧,关键的是底层控制精度。在我看来,大语言模型给机器人带来更多变化的是有人参与较多的场景。虽然离产品化还有距离,但新技术确实带来新的可能性,机器人是可能从工厂最终走向千家万户的。具体产品形态到底如何,还得以后再去看。绿洲:特斯拉一直在展现的人形机器人,LLM 对其可能除了在指令接收上有帮助,其他部分的进展反而关系不大是么?吴教授:对,大语言模型带来的一种可能性,一旦下游全硬件做好了,接入大语言模型,机器人就能直接跟人一样思考和行动了。但因为这个目标非常宏大,所以下一步怎么走,如何使机体达到和人一样的灵活度,总体还是相当困难的。但是假设工程上可以解决这些难题,大语言模型就是机器人的大脑,这个大脑已经很强了。但我们也得承认一个事实,就是现在看起来脑子之外的其他部分似乎更难攻克。绿洲:目前来看机械控制的进展比大脑的进展节奏要慢了?吴教授:特别明显。大家原本觉得 AI 能替代所有体力工作,后来发现 AI 其实只能替代脑力工作,体力工作实在替代不了。因为人体是一个太厉害的系统,要硬件去仿真,而且还是用刚性结构去仿真人体这样的生物结构,可以想象一下其中的难度。我们组主要做“脑子”,现在就靠买来一个“身体”,然后去做适配的一个好“脑子”。我们希望能做出一套通用的大脑 pipeline,让整个流程自动化工业化,这样随便给我什么样的身体,都能很快配上足够好的“脑子”。我们自己不做硬件,直接买来的硬件会有各种问题,硬件一迭代,我们就很崩溃。我们也想找一些做硬件的伙伴,大家合作,这样装脑子的时候会容易很多。
绿洲:这一波 AI 对很多做泛娱乐类的带来很大冲击,您觉得对 3A 大作游戏有影响么?吴教授:我觉得游戏形态会发生很大变化。我的组研究人机交互,核心是多智能体学习,研究 AI 如何理解人,怎么帮人,如何行为才能像人。我希望有一个 AI 能够替代人,可以实现跟人的无缝交流合作。这个使命对应到游戏里,就是有一个特别开放的世界,里面有一半的玩家是 AI,对于人来说你不太能够区分这个游戏世界里面哪一些是 AI,哪些是人,AI 跟你一起共创新世界。现在很多游戏的内容是需要人去设定的, AI 只是机械角色。以后 AI 可以很智能,跟人一样是个玩家,每天带来不同的体验,进行个性化的沟通。在游戏体验上的想象空间会大很多。绿洲:这个阶段各行各业都有点从焦虑到狂热的状态,大厂也每周有都要出一两个基础模型,您怎么看这个状态?吴教授:对,但是我觉得正是因为大家看不清才有机会,如果看清了,这个世界也就没有可能性了。只有在大家都狂热的时候才会有人能走出去。我觉得也是好事,所有的行业都得先有泡沫,没有泡沫行业就死了。大厂应该是商业考虑。这个可以对标历史,比如 Alpha Fold 刚出来的时候,国内也有 20 个发布蛋白质预测生物医疗的公司;人脸识别年代类似的事情也特别多。这就是泡沫的一部分,但泡沫本身代表的是一个黄金时代的来临。绿洲:在这波 AI 浪潮中您觉得美国和中国的创业有什么不同?吴教授:美国的好处是生态不同。OpenAI 做了很棒的基本模型,提供 API,加上美国的商业生态和付费意愿特别好,所以做小的垂类都可以做得很成功,这跟中国很不一样。中国一来没有像 OpenAI 一样做得极牛的公司,大家都在同一起跑线,不太可能出现像 OpenAI 这样一骑绝尘的团队,竞争势必激烈。第二中国付费生态跟美国不一样,最后做大模型不太可能只做 API,但如果要去切垂直领域,一个人也切不过来,最后大概率会是留下来几家,不同的垂类有不同的机会。我的看法是,在美国做 OpenAI 真能做成功,并成为基础设施的一部分,但中国不太可能。绿洲:近期出现了 AI 换脸等诈骗,您对 AI 安全方面有什么看法吗?吴教授:AI 越强,安全问题肯定会越多。我的导师 Stuart Russell 教授在伯克利成立了 Center for Human-Compatible AI,这几年一直在奔走,说的就是 AI Safety。我们不能等一个非常强大的东西出现之后,再想去怎么应对它。安全问题应该作为一个科学问题,或者说大家应该关注的问题,从头到尾应都需要尽心考虑,不能出事了再去擦屁股。最近欧盟已经开始做监管,国内的反应也很快。这一波 AI 技术革命,每个政府的反应都挺快。安全问题在每个时代都出现过,互联网刚出现的时候,原来大家觉得网上说的都是真的,电视上说的都是真的,后来就有莆田系医院,骗了很多人。大家觉得新事物起始进去的都是高知,都是好人,所以信任,结果骗子就来了。这也是个趋势,未来适应了经常有人换脸,也就会出现新的应对方式。只要有新技术,生活就会发生改变。坏事的出现并不是百分之百由技术导致的,而是因为人的弱点。人会轻信,会相信自己愿意相信的东西,技术只是放大了这些弱点。吴教授:影响还是很大的,最大的问题就是学术界交流的时差。人和人之间的关系一定是要线下沟通的——这也是我觉得大语言模型不是一切原因。因为人和人的沟通不光是文字,我们一起吃饭,有微表情,气场,情绪,这些都是人类交互的一部分,语言模型只有文字,还有太多东西没有囊括在内。学术界的交流也一样。中美有时差,美国所有报告都是这里的深夜,就算我想听,也不能天天凌晨 4 点钟爬起来听报告。这导致你和他人的沟通会滞后,所有的事情只能通过开公开发表的信息去获取,相当于原来大家可以坐在一起感受最前沿的信息,现在变成所有事情滞后半年。这种滞后和孤立的感觉还挺糟糕的。现在总算能去线下开会了,真的很重要。绿洲:最近榜单也多了,你觉得榜单怎么获得公信力,榜单本身是否也面临很多挑战?吴教授:榜单是第一步。你上不了榜单,那估计你肯定不行。但说到底,看榜单的感觉远没有你实际去用一个模型的感受那么强烈。比如 ChatGPT,如果我只告诉你它榜单刷得超级厉害,你是没有直观感受的,一定得亲自去用才能意识到它有多牛。所以我倒是觉得能开源让大家用是一个最有底气的行为。绿洲:在过去的一个月当中开源的大模型非常的多,您觉得这股开源的力量是会产生怎样的局面?吴教授:开源的力量会让学术界的水平开始赶上工业界。工业界目前领先是因为工业界资源多。但是开源,尤其在美国的生态里,会让技术的发展变得很快。以文生图为例,Stable Diffusion Model 一下子拉低了门槛,新想法层出不穷。大模型最近也开始开源,从长期来看,它会联合很多学术界分散的力量,在追赶公司的路上加速。这也是整个 AI 领域或者整个 Computer Science 领域最先进的地方,比如说你要对标生物,整个领域大家都不开源,进展就很慢。相比之下,AI 日新月异的原因,就是鼓励发表,鼓励开源。当然它可能会导致领先者的技术一下子被人追上,但它确实在客观上推动了这个时代的快速进步。参赞生命力
人类最终的目标一定是走向星辰大海,这才是最有生命力的文明。科技是推动生产力发展,促进人类走向星辰大海的一个最重要的推手。科技一定是常青的,人类文明应该去拥抱发展的生态。
绿洲资本是中国新一代风险投资机构,致力于发现中国未来十年最有生命力的企业家,并与他们共同成长,创造长期价值。 “参赞生命力”是绿洲的愿景和使命。这种生命力(Vitality),既是时代结构性变革的方向,亦是企业家坚韧和进化的力量。
绿洲资本专注于早期和成长期投资,单笔投资300万到3000万美金,重点投资机器人、人工智能、科技服务等领域,助力中国科技驱动的新服务升级。