ACL 2024论文盖棺定论：大语言模型≠世界模拟器，Yann LeCun：太对了

Original Milan写技术 AI说热点

2024-09-05

点这里 👇 关注我，获取更多的AIGC资讯～

文章摘要

【关键词】 语言模型、世界模拟、准确率、研究发现、实验结果

最近，一篇入选ACL 2024的论文《Can Language Models Serve as Text-Based World Simulators?》在社交媒体上引发了广泛讨论。该论文探讨了当前语言模型是否可以充当世界模拟器，并正确预测动作如何改变不同的世界状态，从而避免大量手动编码的需要。研究者来自亚利桑那大学、纽约大学、约翰斯・霍普金斯大学、微软研究院和艾伦人工智能研究所等机构。

研究者认为，当前的语言模型并不能作为可靠的世界模拟器。例如，GPT-4在模拟基于常识任务（如烧开水）的状态变化时，准确率仅为约60%。图灵奖得主Yann LeCun对此表示认同，并指出没有世界模型就没有规划。然而，也有观点认为，当前LLM（没有进行针对性任务训练）的准确率达到60%已经表明它们至少是“某种程度上的世界模型”，并且会随着LLM的迭代而持续改进。

研究者构建并使用了一个新的基准，称为“ByteSized32-State-Prediction”，包含了一个文本游戏状态转换和随附游戏任务组成的数据集。他们首次使用该基准来直接量化大语言模型（LLM）作为基于文本的世界模拟器的性能。通过在这个数据集上测试GPT-4，研究者发现尽管其性能令人印象深刻，但如果没有进一步的创新，它仍然是一个不可靠的世界模拟器。

研究者提出了一个预测任务，称为LLM as-a-Simulator (LLM-Sim)，用来定量评估语言模型作为可靠模拟器的能力。LLM-Sim任务是将一个函数F作为世界模拟器来实现。在实践中，完整状态转换模拟器F应考虑两种类型的状态转换：动作驱动转换和环境驱动转换。

实验结果显示，预测动作驱动转换比预测环境驱动转换更容易。在最好的情况下，GPT-4能够正确模拟77.1%的动态动作驱动转换，而环境驱动转换的准确率仅为49.7%。此外，预测静态转换比动态转换更容易。对于动态状态，预测完整游戏状态更容易；而对于静态状态，预测状态差异更容易。

研究者还发现，游戏规则在上下文消息中至关重要。当上下文消息中未提供游戏规则时，GPT-4在所有三个模拟任务上的性能在大多数情况下都会下降。GPT-4在大多数情况下都能预测游戏进度。在上下文中加入了游戏规则信息后，GPT-4可以在92.1%的测试用例中正确预测游戏进度。

人类在LLM-Sim任务中的表现优于GPT-4。研究者对LLM-Sim任务进行了初步的人类研究，结果显示人类的整体准确率为80%，而采样的LLM的准确率为50%。这表明，虽然任务对于人类来说总体上是直观且相对容易的，但对于LLM来说仍有很大的改进空间。

总的来说，研究者认为他们的工作为当前LLM的能力和弱点提供了新的见解，也为跟踪新模型出现时的未来进展提供了一个新的基准。更多技术细节和实验结果请参阅原论文。

原文信息

【原文链接】 阅读原文 [ 2908字 | 12分钟 ]
【原文作者】 机器之心

市管干部“龚书记”免职迷局

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

2025.1.1起，全国法院全面推进应用民事起诉状、答辩状示范文本(附下载链接)

法明传[2024]173号：关于加快推进起诉状、答辩状示范文本全面应用工作的通知(附下载链接)

ACL 2024论文盖棺定论：大语言模型≠世界模拟器，Yann LeCun：太对了

推荐阅读

您可能也对以下帖子感兴趣

市管干部“龚书记”免职迷局

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

2025.1.1起，全国法院全面推进应用民事起诉状、答辩状示范文本(附下载链接)

法明传[2024]173号：关于加快推进起诉状、答辩状示范文本全面应用工作的通知(附下载链接)

生成图片，分享到微信朋友圈

ACL 2024论文盖棺定论：大语言模型≠世界模拟器，Yann LeCun：太对了

推荐阅读

您可能也对以下帖子感兴趣