ElectionSim:首个大模型智能体驱动的大规模人口选举仿真框架,实现美国总统大选高精度模拟
01
内容简介
✦
基于大规模人口的选举模拟旨在建模特定群体对候选政党和候选人的偏好,在预测现实社会趋势方面有重要意义。当前的主流方法是 agent-based modeling(ABM),通过简单函数实现个体的动作模拟,从而达到对群体行为仿真的效果。ABM方法在建模个体的复杂背景信息和提供交互性结果方面存在不足,因此限制了预测的精度和预测结果的可解释性。随着大语言模型(LLMs)的发展,使用大模型智能体进行个体和任务仿真取得了一定程度的成功。在此背景下,复旦大学联合美国罗切斯特大学,推出ElectionSim,首个大模型智能体驱动的大规模人口选举仿真框架。ElectionSim构建了超100万真实用户的选民池,在全美51个州的仿真模拟中准确匹配了46个州的真实结果,并在15个摇摆州中成功预测12个州模拟结果。同时,我们推出了可交互的选举模拟demo,支持对2024年选举模拟的互动和分析。
项目主页(点击文末阅读原文链接即可跳转):
http://www.fudan-disc.com/electionsim/
技术报告链接:
https://arxiv.org/abs/2410.20746
”
本文贡献:
大规模选举模拟框架:ElectionSim 一个大规模人口选举模拟框架,通过采用灵活的、自定义的分布抽样策略来与现实世界保持一致,可以实现高置信度下的不同选举模拟场景。 百万级的选民人口池:通过收集和梳理社交媒体平台的数据,我们构建了支持大规模人口选举模拟的庞大且多样化的百万人口级别选民池。 系统性选举评测基准:一个基于民意调查的总统选举基准benchmark,用于验证我们的模拟结果。实验和进一步的分析证实了该基准的鲁棒性,并在美国总统选举仿真中验证了该框架的有效性。 交互模拟演示:我们搭建了一个交互演示系统,可以实现与我们模拟的选民进行多轮对话互动。该系统允许以多种方式筛选选民,包括指定属性和指定对特定问题的回答。
02
大规模人口下的选举模拟框架:
ElectionSim
✦
2.1 整体流程
1. 从多种社交媒体平台中获取原始数据,包含不同平台的用户信息和发布内容;
2. 以用户为单位对原始数据进行抽取和整合,并根据用户发布内容生成对应的人口属性标签,构造大规模多样化的选民用户池;
3. 根据现有真实世界的普查统计结果,拟合真实情况下每个选民的人口属性特征,并从选民池中采样实现分布对齐的模拟目标选民;
4. 将采样得到的选民特征(人口属性特征+过往发布内容经验)作为上下文,驱动大语言模型完成多种选举模拟,如PPE中的美国总统大选。
2.2 大规模多样化的选民池构建
1. 对用户的人口属性标签标注设计:
2.3 与真实世界对齐的任意人口分布采样策略
1. 面向选举任务的人口分布采样方法:我们利用了美国人口普查局(U.S. Census Bureau)在2022年11月选举中的投票和登记数据,以及美国全国选举研究(ANES)的2020年时间序列研究。这两个数据集允许我们基于注册状态、性别、年龄、种族、意识形态和党派立场等变量模拟真实的人口分布:
2. 迭代比例抽样:为了能从统计数据的边缘分布中获得接近真实世界选民人口属性的联合分布,我们使用了迭代比例抽样来对选举模拟中所有关注的人口属性的联合分布进行迭代生成,以一个二维联合分布为例,从边缘分布v和w获得对联合分布x的估计x_hat的迭代公式为:
03
美国大选评测基准:PPE
✦
3.1 民调问卷设计
我们统计了2020年ANES在总统大选前的问卷调查所涉及的议题及详细类别:
接着,我们根据ANES数据中的问题设计构建了用于选举模拟的问卷,通过话题筛选和选项优化,重构了更适用于模拟场景的问卷,涵盖24个议题的49个问题,问卷信息如下:
3.2 测评基准设计
Baseline 1: 通过简单用户画像提示语言模型完成民调问卷,此时用户通过随机采样获得,用户画像包含用户的人口统计学属性;
Baseline 2: 通过人口统计学分布提示语言模型完成民调问卷,在Baseline 1的基础上,增加按真实人口属性分布采样用户作为选民接受民调;
Baseline 3: 结合人口统计学分布和用户历史经验提示语言模型完成民调问卷,在Baseline 2的基础上,增加用户的历史发言作为补充上下文信息。
04
测评结果
✦
4.1 选民个体模拟
我们使用每个选民在问卷所有问题上的F1值作为评价选民个体模拟准确性的指标,并在整体问卷问题(Overall)和与选举投票行为高度相关的问题子集(Voting Subset)上进行了测试。不同的语言模型在个体层面下的表现结果如下:
模型在选举行为相关的子集上表现出来的模拟结果更接近真实结果; Macro-F1的总体表现不如Micro-F1,说明模型在模拟少数个体持有的观点方面还有改进的空间,模型本身存在着一定的偏差; GPT-4o-mini展现出了与GPT-4o接近的较高模拟准确度。
4.2 州级别模拟
我们采用PPE中的三个Baseline来评测州级别模拟中大规模人口的选举模拟结果,并使用以下两个指标作为评判依据:
选举结果一致性(CER):是一种状态模拟结果与实际结果之间一致性的粗粒度度量。通过计算选举模拟结果与实际结果一致的样本状态所占的比例,对该指标进行量化;
投票份额一致性(CVS):评估一个州内相对投票份额和实际份额之间一致性的细粒度指标。相对选票份额是指一个政党候选人的实际选票百分比与民主党和共和党候选人的实际选票百分比之和的比率。在此指标中,我们计算每个州的模拟投票份额和实际投票份额之间的均方根误差(RMSE)。随后,我们使用所有州的平均RMSE作为CVS的值。
我们对美国所有51个州的选举模拟结果进行了评估,并对其中15个摇摆州的模拟结果单独展示。
实验结果:
在Baseline2和Baseline3仿真实验中,Qwen2.5-72b-Instruct和GPT-4o-mini在摇摆州模拟中均取得了较好的仿真精度,所有状态的投票结果都被正确预测。尽管Llama3-70b-Instruct在摇摆州的预测结果较差,但其细粒度指标(CVS)也显著低于Baseline 1。这表明,所提出框架可以比基于朴素抽样方法的模拟更准确地模拟民意。 在开源模型性能方面,Baseline3的结果与Baseline2在不同粒度指标上的结果相似。然而,GPT-4o-mini在Baseline3上的性能不如Baseline2。一个可能的原因是在Baseline3中引入了时间约束,而在Baseline2中,模型内部存在一定程度的关于选举的知识泄漏。
05
扩展分析
✦
5.1 提示策略影响
我们考虑对用户人口属性特征的提示方法(dict形式和biography形式)和回答问题的思维过程(direct回答和reason回答),开展了提示词对模拟结果影响的评估实验,其结果如下所示:
5.2 案例分析
5.3 2024大选模拟预测
06
选举模拟交互页面
✦
我们对美国大选场景进一步设计了可交互的可视化界面和在线网页,可以实现大规模人口选举模拟过程中的多角度信息呈现和分析。点击【阅读原文】进一步体验该交互模拟场景。
复旦大学数据智能与社会计算实验室
Fudan DISC
联系方式:disclab@fudan.edu.cn
地址:复旦大学邯郸校区计算中心
点击“阅读原文”跳转项目主页