其他
吸引李飞飞创业的空间智能,已经让机器狗遛瑜伽球|笔记
李飞飞在斯坦福大学的个人主页上显示,她将在2024年初至2025年底期间部分离职。这位顶着“AI教母”光环的科学家创业了。李飞飞创办的公司,将利用类似人类的视觉数据处理能力,使人工智能进行更高级的推理。据路透社报道,她最近完成了种子融资。投资者包括硅谷风险投资公司安德森·霍洛维茨,以及加拿大公司激进风险投资公司(Radical Venture),李飞飞去年加入该公司担任科学合伙人。李飞飞上个月在温哥华的TED会议上的演讲中,介绍了她正在研究一种算法,可以合理推断图像和文本在三维环境中将是什么样子, 并可以根据预测采取行动。这一概念被称为“空间智能”。为了说明这一概念,李飞飞展示了一只猫伸出爪子,将一个玻璃杯推向桌子边缘。她说,人类大脑能在一瞬间评估“这个玻璃杯的几何形状、在3D空间中的位置、与桌子、猫和其他一切的关系”,然后预测会发生什么并采取行动阻止它发生。她说:“大自然创造了一个良性循环,由空间智能驱动观察与行动。”李飞飞在斯坦福大学的实验室正在尝试教会计算机“如何在3D世界中采取行动”。例如,使用大型语言模型指导机器人手臂按照口头指令执行打开门和制作三明治等任务。李飞飞以计算机视觉技术而成名,她开发了大规模图像数据集ImageNet,帮助实现了AI识别物体技术的突破。李飞飞曾感叹,私营部门在人工智能研究领域拥有充足资源,学术界和政府实验室在资金方面存在差距。现在她通过创业的方式,利用风险资本,参与人工智能最热门领域的竞赛,即教会算法具备常识推理能力,而不仅仅是通过一些测试和考试。大型语言模型的局限性越来越明显。尽管表面上它能像人类一样响应各种提示和问题,但其中也夹杂着荒谬的虚假信息。它也无法在一个“具身”的物理环境中完成简单的任务。除了OpenAI坚持的构建更大、更复杂的模型用来提高推理能力, 以图灵奖获得者杨立昆为代表的AI科学家则认为,需要通过视觉信息,通过适应周围环境,建立基于“世界模型”的学习过程,才能找到通向人工智能技术进步的道路。
李飞飞的学生Tim Fan,在英伟达担任高级科学家,他组建了通用具身智能体研究(GEAR)小组,试图构建一个具有通用能力的AI,可以在许多虚拟和现实的世界中学习如何熟练地行动。
就在李飞飞创业的消息报道的当天,他们推出了一个能在滚动的瑜伽球上保持平衡的机器狗。
这个AI智能体叫DrEureka,可以通过模拟训练机器人执行新的技能,然后将这些技能无缝转移到现实世界中。具体来说,研究人员训练了一只机器狗在模拟环境中学会在瑜伽球上保持平衡和行走,然后将其直接应用到真实环境中,无需任何额外调整。
传统上,从模拟到真实世界的过渡需要由人工调整许多参数,这是一个乏味的过程。但DrEureka系统利用了大型语言模型(如GPT-4)内置的物理直觉,可以自主调整摩擦力、阻尼、刚度、重力等参数,使机器人能够适应各种地形,甚至可以在瑜伽球上侧行。
DrEureka建立在之前的Eureka算法的基础上,后者可以教会一个五指机器手执行笔旋转等技巧。DrEureka进一步自动化了整个机器人学习流程,一个模型输出指令,另一个模型输出执行力矩。
DrEureka展示了人工智能在自动化机器人技能学习和部署方面的巨大潜力。未来可能每一台移动的机器都将是自主的,机器人和模拟智能体将像iPhone一样无处不在。
所有代码和论文都可公开获得。