学术前沿 | 智能体仅靠直觉也能玩复杂物理游戏？

Original 李世乾, 武可雯北京大学人工智能研究院

2024-09-16

导读

本文是人工智能研究院朱毅鑫助理教授团队发表在 NeurIPS 2022 论文On the Learning Mechanisms in Physical Reasoning 的介绍。

本文共同一作为李世乾（北京大学）、武可雯（清华大学），通讯作者张驰（北京通用人工智能研究院）、朱毅鑫（北京大学）。

原文链接：

https://arxiv.org/abs/2210.02075

项目主页：

https://lishiqianhugh.github.io/LfID_Page/

研究背景

人类在解决生活中的物理难题时候有两种推理模式，第一种是基于直觉的推理，例如看到一摞堆叠的物体，能够直接通过直觉迅速判断出是否会倒，如图1，第二种是基于动态轨迹的推理，例如在多物体交互的游戏中通过想象各物体的运动轨迹来判断最终的游戏状态，如图2中的物理推理游戏[2]。

图1：判断堆叠的物体是否稳定[1]

图2：物理推理游戏，通过放置一个工具使得红球到达绿色区域[2]

先前研究者普遍认为解决这类复杂物理推理游戏需要基于动态轨迹预测，即首先训练一个动态轨迹预测模型去预测每一个时间节点各个物体的状态（位置，速度等），然后据此判断最终游戏的目标是否会被达到 [4, 5, 6]。

论证方法

本文[8]质疑了原有的假设，并通过实验证明了智能体通过直觉也能解决复杂的物理难题，即只让智能体从初始场景中学习，然后直接给出最终任务成功或者失败的判断，而不需要从初始场景中预测未来物体可能的轨迹。本文在一个类似的物理推理数据集PHYRE[3]上做了实验，PHYRE提供了一系列在二维世界中的物理难题，每一个物理难题都有一个目标状态（如让绿色的球碰到紫色的物体）和一个初始状态，这些难题可以通过在环境中放置一个或多个新的物体被解决，模拟器会自动运行，来检验放置新物体的动作能否达到目标状态。除此之外，本文还通过实验论证了从动态轨迹中学习的潜在不足，并为未来物理推理的研究提供了具有前景的方向。本文共设计了如下四个实验逐步展开论证。

图3：物理推理游戏PHYRE（来自https://phyre.ai/）

实验一：对先前固有观念提出挑战

在第一个实验中，我们将从直觉中学习的模型和目前在PHYRE任务上表现最好的动态轨迹模型RPIN进行了比较，发现从直觉中学习的模型达到了和RPIN同样的表现，并且在从没见过的任务上表现超过了RPIN。这一现象有力的验证了从直觉中学习的巨大潜力，并对从轨迹中学习的固有观念提出了挑战。

实验二：理论上来讲，动态轨迹到底

对物理难题的解决有没有帮助呢？

受到第一个实验的启发，本文设计了第二个实验来验证动态轨迹到底对于最终任务状态的判断是否有用。为了回答这个问题，本文从模拟器中直接抽取了各个物体的真实运动轨迹，据此让智能体判断能否达到最终的目标，实验结果发现，无论是在相似游戏场景测试（within）还是从未见过的游戏场景测试（cross）下，随着智能体输入轨迹帧数的增多（1，2，4，8），智能体解决物理游戏的表现都会变好（见图2），由此得出结论：如果提供准确的轨迹，动态预测会对物理难题的解决有帮助。

图4：智能体解决物理游戏的表现随输入轨迹帧数的变化

实验三：为什么实际应用中，动态轨迹

对物理难题的解决没有帮助呢？

那么既然动态轨迹预测对于物理难题的解决确实有用，那为什么实际应用中，通过设计动态模型预测轨迹对于物理问题的解决没有积极作用呢？为了回答这个问题，本文设计了一种动态轨迹预测模型，通过严格的变量控制，来进行消融实验。具体地，对比了直觉模型（只有任务状态判断模块），串行动态预测模型（先训练动态预测模块，再训练任务状态判断模块）和并行动态预测模型（同时训练动态预测模块和任务状态判断模块）在相同训练设置下的表现，实验结果显示：

1. 串行动态预测模型变现还不如直觉模型，因为动态预测模块很难获得像实验二中的精准轨迹，所以给后续的任务状态判断模块引入了噪声，反而对问题的解决带来了负面影响。

2. 并行动态预测模型退化成了直觉模型，因为同时训练动态预测模块和任务状态判断模块可以让模型将更多注意力转移到最终任务状态的判断上，通过忽视动态预测模块预测出的轨迹来避免其引入的负面干扰。

通过这两点可以得出结论：实际设计的从轨迹中学习的模型因为不可避免地具有不准确性和噪声，所以反而干扰了最终任务状态的判断，表现近似或不如直觉模型。

图5：串行并行动态预测模型预测出的轨迹

实验四：更多的直觉模型

基于此，本文设计了第四个实验，尝试测试更多从直觉中学习的模型来进一步验证其有效性。实验结果发现，这些模型达到了或超过了从轨迹中学习的模型的表现（见表1），而且从直觉中学习的模型流程简单，也符合人类利用常识知识（AI中的暗物质[7]）对游戏解的直觉性判断（如放置的红色小球应该在距离绿球相对近的地方并且能够对其施加某种影响，见图3），可谓一种有用且高效的方法。

图6：直觉模型对PHYRE游戏的解决方案

表1：从直觉中学习和从轨迹中学习模型的表现对比

总结

在本文中，我们介绍了物理推理中两种学习机制的概念，即基于直觉的推理和基于动态轨迹的推理。虽然人们普遍认为对动态轨迹的预测有助于下游推理，但在实验一挑战了这一基本假设：简单的直觉模型有效地学习执行物理推理，而无需任何来自基本事实的额外监督动态轨迹信号。这一违反直觉的发现促使我们质疑动态轨迹的预测是否在物理推理中发挥重要作用。通过实验二，我们发现动态轨迹的预测可以提高解决问题的能力。通过实验三，我们进一步探讨了为什么动态轨迹预测模型在物理推理中表现不佳。我们注意到，嘈杂的动态预测对推理的整体性能产生负面影响；在并行动态预测模型中，动态轨迹预测模型退化成直觉模型。我们推测，从长远来看，动态预测的不确定性不可避免地累积，导致最终表现不佳。通过实验四，我们深入研究更多的直觉模型并检查其 PHYRE 中的性能。

图7：论文研究思路

为什么动态轨迹预测模型难以做出准确的预测？

我们总结了以下三个可能的原因：

动态轨迹预测本身具有挑战性，尤其是在全新的场景中。一方面，预测长阶段轨迹本质上是困难的，因为一些物体之间的交互，例如碰撞，难以预测。另一方面，错误将从早期累积，导致噪声指数级上升。不幸的是，当前的动态预测模型无法稳健地预测物理场景中的准确轨迹。
基于像素的表示比基于物体的表示具有更多的信息，而基于物体的表示更简洁。可以说，基于像素的表示可能包含所有必要的信息，例如对象的形状、潜在的碰撞和角速度。然而，这样的表示非常嘈杂，并且很难提取有用信息。相比之下，基于物体的表示在设计上是简洁的，并且遵循物理定律的一般原则。然而，以物体为中心的方法在场景中失去了重要的线索，尤其是对于碰撞预测来讲。还没有一种特征表示方法可以总结物理建模的所有必要信息，这一事实进一步使物理推理复杂化。

未来研究展望

在实验中，我们使用了比较通用的直觉模型，没有针对物理推理任务的更多设计。我们认为，设计更能捕捉到物理场景空间信息的感知模块，将增强直觉模型的感知能力和泛化能力。
虽然物理轨迹预测非常困难，但是它表现的上限能力具有前景。我们非常好奇，物理预测对于其他推理任务的作用，例如反事实推理以及假设推理。我们认为物理轨迹预测仍然需要更进一步的改进，我们期待在这个领域里的突破。

References

[1] Allen, Kelsey R., Kevin A. Smith, and Joshua B. Tenenbaum. "Rapid trial-and-error learning with simulation supports flexible tool use and physical reasoning." PNAS (2020)

[2] Battaglia, Peter W., Jessica B. Hamrick, and Joshua B. Tenenbaum. "Simulation as an engine of physical scene understanding." PNAS (2013)

[3] Bakhtin, Anton, et al. "Phyre: A new benchmark for physical reasoning." NeurIPS (2019)

[4] Qi, Haozhi et al. "Learning Long-term Visual Dynamics with Region Proposal Interaction Networks", ICLR (2021)

[5] Girdhar, Rohit, et al. "Forward prediction for physical reasoning." arXiv preprint arXiv:2006.10734 (2020)

[6] Harter A, Melnik A, Kumar G, Agarwal D, Garg A, Ritter H. Solving Physics Puzzles by Reasoning about Paths. arXiv:2011.07357 (2020)

[7] Yixin Zhu, Tao Gao, Lifeng Fan, Siyuan Huang, Mark Edmonds, Hangxin Liu, Feng Gao, Chi Zhang, Siyuan Qi, Ying Nian Wu, Joshua B. Tenenbaum, Song-Chun Zhu. "Dark, Beyond Deep: A Paradigm Shift to Cognitive AI with Humanlike Common Sense. " Engineering (2020)

[8] Shiqian Li, Kenwen Wu, Chi Zhang, Yixin Zhu. "On the Learning Mechanisms in Physical Reasoning." NeurIPS (2022)

— 往期发布 —

学术前沿 | 黄如院士-杨玉超教授团队在仿生光电突触与多模态、多尺度储备池计算研究中取得重要进展

点击图片查看原文

学术前沿 | 机器人场景重建，它需要“看见”什么？动作信息助力自主规划

点击图片查看原文

学术前沿 | 基于新型存储器的模拟矩阵计算研究进展

点击图片查看原文

本微信公众号所有内容，由北京大学人工智能研究院微信自身创作、收集的文字、图片和音视频资料，版权属北京大学人工智能研究院微信所有；从公开渠道收集、整理及授权转载的文字、图片和音视频资料，版权属原作者。本公众号内容原作者如不愿在本号刊登内容，请及时通知本号，予以删除。

继续滑动看下一个

北京大学人工智能研究院

向上滑动看下一个

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

人民日报征集“中美友好合作故事”，令人感奋

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！

学术前沿 | 智能体仅靠直觉也能玩复杂物理游戏？

您可能也对以下帖子感兴趣

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

人民日报征集“中美友好合作故事”，令人感奋

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！

生成图片，分享到微信朋友圈

学术前沿 | 智能体仅靠直觉也能玩复杂物理游戏？

您可能也对以下帖子感兴趣