麻省理工:AI大模型缺乏推理能力
CSAIL的研究比较了“默认任务”(Default Tasks)和“反事实情景”(Counterfactual Scenarios)两种情况下LLM的表现。“默认任务”是对模型进行训练和测试的常见任务,而“反事实情景”则是偏离默认条件的假设情况——GPT-4和Claude等模型通常有望应对这种情况。
研究人员通过调整现有任务而不是创建全新任务,开发了一些超出模型舒适区的测试。他们使用了各种数据集和基准,这些数据集和基准专门针对模型在算术、国际象棋、评估代码、回答逻辑问题等方面的不同能力而定制。
当用户与语言模型交互时,算术运算通常都是模型擅长的十进制方式。观察到LLM在十进制的运算中表现出色,就会容易让我们误以为LLM真的在加法运算方面具有很强的能力,从而让我们产生LLM很善于计算的错觉。然而研究表明,这些大模型并不像许多人想象的那样强大。它们的高性能仅限于常见的任务变体,但在不熟悉的反事实情景(例如非十进制计算)中性能会持续严重下降,这表明它们缺乏通用的加法能力。
与之类似,当面临音乐和弦指法、空间推理、甚至是棋子起始位置稍有改变的国际象棋等问题时,LLM表现不尽如人意。人类棋手可以适应新的象棋问题,但模型却很吃力,其表现与随机猜测别无二致,这意味着LLM对陌生情况的应对能力十分有限。
► 研究结论:
LLM在标准任务上的大部分优秀表现很可能不是因为LLM处理任务的能力有多强,而是用上了它们在训练数据中看到的东西。
► 研究局限:
这项研究的测试环境仅限于特定的任务和环境,并没有测试到模型在实际工作和应用中可能遇到的所有挑战,未来仍需要更多样化的测试环境。
麻省理工学院CSAIL成员、本研究的第一作者吴兆丰(音译)评论道:“我们发现了大型语言模型的一个迷人之处:它们在熟悉的场景中表现出色,就好像在一条熟悉的道路走的很顺,但当地形变了,它们就会陷入困境。随着人工智能在我们的社会中越来越无处不在,它必须可靠地处理各种场景,无论这些场景熟悉与否。”
2023年3月,语言学巨头乔姆斯基在《纽约时报》撰文批评ChatGPT等大模型缺乏任何智能的关键能力,大语言模型没有道德只是被人类设计得尽量符合道德要求。
2024年6月,麻省理工在《自然》杂志发表的文章显示:完整的语言并不意味着完整的思维,语言是交流工具而非思考工具;人类大脑生成和解析语言的神经网络并不负责形式化推理,而且提出推理并不需要语言作为媒介。
来源|MIT官网
编译|尚健
审核|张羽翔
赛博研究院简介
上海赛博网络安全产业创新研究院(简称赛博研究院),是上海市级民办非企业机构,成立至今,赛博研究院秉持战略、管理和技术的综合服务模式、致力于成为面向数字经济时代的战略科技智库、服务数据要素市场的专业咨询机构和汇聚数智安全技术的协同创新平台。赛博研究院立足上海服务全国,是包括上海市委网信办、上海市通管局、上海市经信委、上海市数据局等单位的专业支撑机构,同时承担上海人工智能产业安全专家委员会秘书长单位、上海“浦江护航”数据安全工作委员会秘书长单位、上海数据安全协同创新实验室发起单位等重要功能,并组织“浦江护航”数据安全上海论坛、世界人工智能大会安全高端对话等一系列重要专业会议。
欢迎联络咨询:邮件:public@sicsi.org.cn;电话:021-61432693。