李飞飞门生与英伟达新研究部门GEAR:起底领衔华人科学家范麟煕
昨日,伴随英伟达高级科学家、人工智能代理计划负责人Jim Fan的两条推文,英伟达正在组建一个新的研究小组GEAR的消息,不胫而走。
GEAR,Generalist Embodied Agent Research的简称,中文全称“通用具身智能体研究”。时机成熟,英伟达下场研究智能体。
用Jim Fan的话说,他们正在构建基础智能体:一个具有通用能力的AI,可以在许多虚拟和现实的世界中学习如何熟练地行动。
针对这一目标,GEAR的研究议程涉及四大关键领域:
多模态基础模型:
包括用于规划和推理的大型语言模型(LLMs)、视觉-语言模型,以及在互联网规模数据源上训练的世界模型。
开发基于大规模互联网数据源训练的LLMs(大型语言模型),用于规划与推理,视觉-语言模型以及世界模型,旨在打通不同模态信息间的壁垒。
通用机器人研究:
开发能够在复杂环境中实现稳健运动和灵巧操作的机器人模型和系统,以提升其在各类实际场景下的普适性与效能。
虚拟世界中的基础智能体:
构建大型动作模型,这些模型能够在多种游戏与模拟环境中自主探索并持续自我提升能力的大型动作模型,为虚拟世界的智能交互设定新标准。
模拟和合成数据技术:
为大规模学习提供模拟基础设施和合成数据管道。构建大规模学习所需的仿真基础设施及合成数据流水线,为智能体的学习过程提供有力支持。
伴随英伟达市值飙升至2万亿美元的历史高峰之时,这一专攻具身智能的AI实验室,用Jim Fan的话说,“可能是全球最有钱的具身智能实验室”,有足够的资金一次性解决机器人基础模型、游戏基础模型和生成式模拟。
尤为引人瞩目的,作为GEAR的两位领导人之一,Jim Fan是从上海去到美国上大学的华人科学家。他原名叫范麟熙。
范麟熙,曾是OpenAI的第一位实习生。他是英伟达机器学习研究总监、加州理工学院计算机与数学科学教授Anima Anandkumar组的人工智能研究专家,是AI Agent领域的科学大咖。
2023年2月7日参与上海人工智能实验室学术论坛主讲MIneDOJO
高中时就憧憬斯坦福AI实验室
范麟熙自称,因为名字笔画特别多,从小最吃亏的时候就是考试写名字,每次都比同学们慢三秒钟,所以起了一个越简单越好的英文名“Jim Fan”。
早在高三(2011年)的时候,他就想做AI。当他把想法告诉亲朋好友的时候,他们都觉得他很疯狂,整天在谈一些不切实际的科幻。当时深度学习还无人问津,他就已经非常憧憬斯坦福AI实验室。
范麟熙在上海上高中毕业后去到美国上大学,本科就读于美国纽约的哥伦比亚大学。当时他们学习非常刻苦,他曾写道,“每逢deadline,大家就从宿舍搬家到图书馆通宵,......因为这才是图书馆正确的使用时间。”
2016年,范麟熙本科毕业,在毕业典礼上以16届优秀毕业生代表的身份做毕业致辞。
之后,他逃离冰冻三尺的东海岸,来到阳光明媚的西海岸,在一个“AI成为这个时代的主旋律”的时刻,来到他曾经最向往的地方,也被他视为硅谷心脏的斯坦福大学,攻读博士学位。
他称,这算是圆了他的一个人生梦想。
在斯坦福,他师从李飞飞教授。他将李飞飞视为“AI女神”。她在产学研多岗位,身兼数职,让他印象深刻。他说,李飞飞教授最著名的研究成果就是ImageNet,“如果没有ImageNet,就没有现在的深度学习革命”。
攻读博士的第二年,范麟熙就开了微信账号,要践行李飞飞的AI平权化主张。他说:现在很多尖端的AI技术都掌握在少数大学和大公司精英手里,但其实任何人都能学习和使用AI。AI作为一个造福社会的发明,应该让所有的人平等共享这项技术带来的福音。
美国著名科幻作家阿莫西夫有一句名言:任何足够先进的技术,看上去都和魔法没有区别。他引用这句名言,并结合AIphaGo以4:1战胜传奇色彩的世界围棋冠军李世乭、空无驾驶在复杂的路况中穿梭自如和波士顿动力公司的机器人能做后空翻三个历史性时刻,说明一个黑科技没有那么虚无缥缈、高深莫测:
当你彻底理解AI背后的秘密时,你就会发现这场看似叹为观止的魔术,其实一切都尽在你的掌控之中。
围观冠军AI Alphago比赛,启发当下研究方向
Alphago和李世石比赛那天,范麟熙坐在哥伦布大学的教室里,没有认真听课。相反,他在笔记本电脑上围观这场比赛。这是有史以来第一个击败人类冠军的AI。
对此,在2023年在TED演讲时,他说道,“我仍然记得那个历史性的时刻,真人让人血脉贲张。AI Agent终于进入主流世界,历史性的高光时刻!”
但兴奋之余,他脑子里想的却是,Alphago虽然强大,它只能一件一件地做事:独自单干。它不能玩任何其他的游戏,如《超级马里奥》或《我的世界》,它当然也无法给人洗脏衣服或做一顿美味的晚餐。
他说,我们真正想要的是人工智能代理,要像机器人瓦力一样多才多艺,要像《星球大战》中所有机器人的身体形态或化身,还要像《头号玩家》那样,在无限的现实中发挥作用。
以此视之,他当下在英伟达作为人工智能代理项目负责人研究的角色与定位,最早可追溯到这场比赛所受的启发。
2021年范麟熙获得斯坦福大学计算机博士学位,期间曾在英伟达、谷歌云、OpenAI、百度硅谷研究院和MILA魁北克研究院实习,与吴恩达及Yoshua Bengio(图灵奖得主)等联名发表论文。
使用不到200个人类演示,可自主生成超过5万个训练数据,涵盖18个任务、多个模拟环境
基于合成数据训练AI将是未来方向
范麟熙的主要研究方向是通用智能体、强化学习、transformers、多模态学习和大规模AI系统。
他说,机器人技术落后于其他人工智能领域的一个关键原因是缺乏数据,基于合成数据训练AI将是未来方向。
与ChatGPT只能回答问题的机器人不同,在他看来,作为一个模型,AI Agent是一个执行者,能够理解和感知环境,自主作出决策和执行任务,看到行动后果,然后自我改进。
他想知道,是否有可能有一个“真正开放式的智能体,可以通过任意自然语言提示做开放式的、甚至是创造性的事情。”
他在这一领域项目的进展,最终导致人工智能机器人 Voyager 的创建。把GPT-4放进《我的世界》,Voyager 全凭自主学习,实现通关游戏《我的世界》。Voyager 也成为第一个LLM驱动、能熟练玩《我的世界》的智能体。
范麟熙认为,大语言模型和AI Agent有三大应用领域,其中一个是游戏和元宇宙。在游戏或者其它沉浸式的虚拟环境里,AI Agent可以取代游戏里的NPC (非玩家人物),他们不按照预设剧本,而是像真人一样和我们对话和互动。
这也成为范麟熙的项目 MineDojo 的跳板。MineDojo是一个将《我的世界》变成 AGI 研究游乐场的开放框架。团队收集了100000个 YouTube 视频、Wiki页面和Reddit帖子,用于训练《我的世界》智能体。
他的这一最新研究工作荣获人工智能领域顶级会议NeurIPS最佳论文奖。2023年2月7日在上海人工智能实验室学术论坛,他以此为主题带来报告《MineDojo: 在〈我的世界〉里学习开放式通用智能体》。
从Agent迈向AGI
作为Agent领域的大咖,范麟熙将AlphaGo视为Agent的序曲,他所主持的Voyager则是Agent大航海阶段的产物。
而与Voyager相比, Mantamorph向多体控制迈出了一大步,这一与斯坦福合作创建的基础模型,可以控制数千个机器人,它们有着完全不同的手和脚。Metamorph 有能力处理来自不同机器人身体的差别迥异的各种运动特性。
利用英伟达的机器人仿真技术所打造的IsaacSim,可以把机器人的技能和化身转移到现实世界。Isaac Sim最大的优势是把物理模拟加速到比实时模拟,调快1000 倍。
他举了个例子,虚拟小兵练习武术,只花了三天模拟时间,就完成了相当于原来10年的高强度训练,很像电影《黑客帝国》里的虚拟陪练道场。
他认为,训练Foundation Agent将与训练ChatGPT非常相似。ChatGPT是文本进去,文本出来。Foundation Agent就是具身化提示和任务提示进去,行动出来。
他认为,未来所有可移动物体,最终都将自主可控。总有一天,我们会意识到《星球大战》《瓦力》《头号玩家》都是AI agents。不管他们是在物理空间还是虚拟空间, 对于基础代理而言, 我们之间的不同,只是提示词的区别。
2024年将是属于机器人、游戏AI和模拟的一年
范麟熙还有一个特点,让元界君印象深刻。他具有将抽象研究感性化的表达与演讲能力,并有一系列观点输出,这让他成为一位相貌、口才、观点俱佳的具有网红气质的科学家,或只是时间问题。
去年年底,他在展望2024年时说,除了LLMs之外最大的事情,毫无疑问的回答是机器人。
他表示,2023年机器人在强大硬件方面取得了惊人的进展:特斯拉Optimus@elonmusk、Figure@adcock_brett、1X@ericjang11、Apptronik、Sanctuary、Agility+Amazon、Unitree等。
他认为,2024年将是机器人全面崛起的第一年。他透露,学术界正在共同努力策划下一个ImageNet(人工智能深度学习取得突破的关键项目),比如Open X-Embodiment(RT-X)数据集。虽然尚不够多样,但这是迈向正确方向的一大步。
他说,距离ChatGPT具备物理人工智能代理的时刻,仅有约3年。
同时他预测,2024年将是视频的元年。虽然机器人和具象代理(AI代理系统能够通过感知和互动来直接操作环境,而不仅仅是通过符号表示或模拟来解决问题)尚处于起步阶段,但他认为视频人工智能将在接下来的12个月内迎来突破。
2024年2月,OpenAI新模型Sora出来时,他点评称:
Sora离达到Kolmogorov复杂度(一种衡量对象信息量的方法,代表了最短的无损压缩数据长度)还有很长的路要走。
Sora系统的设计不仅仅是为了模拟我们所知的世界,而是能够包含所有可能存在的世界。换句话说,我们所经历的现实只是Sora能够模拟出的众多可能性之一;
就像在游戏设计中,使用虚幻引擎5(Unreal Engine 5)创建逼真场景时不需要渲染出每一个细节,我们的物理世界也可能在我们未观察它之前的某些部分实际上是不存在的。
在剧透GEAR正在组建时,他再发表预测:
2024年将是属于机器人、游戏AI和模拟的一年。
在未来,每一个能够移动的机器都将实现自主化,机器人和模拟智能体将会像iPhone一样无所不在。
而去年,范麟熙的老板黄仁勋,也公开表达了对下一代人工智能的观点:
这种新型的人工智能叫做具身智能(Embodied AI),即能理解、推理和与物理世界互动的智能系统。
资料来源:机器之心、AI寒武纪、前行的七哥、四木相对论、量子位、心有麟熙、AI产品进化论、AskMusk
推荐阅读