查看原文
其他

机器学习已经用于微观数据调查和构建指标了, 比较前沿!

计量经济圈 计量经济圈 2022-05-11


凡是搞计量经济的,都关注这个号了

箱:econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

计量经济圈公众号搜索功能及操作流程演示
正文

关于下方文字内容作者:郑诗琨,南京大学经济系,通信邮箱:christopherzheng@foxmail.com

作者之前的文章:①为什么受伤的总是女人? 学生评教都存在性别偏见!国际最新文献综述方法: 引文语境分析法, 透明, 严谨, 可复制和可量化!

IZA DP No. 14221: Using Machine Learning and Qualitative Interviews to Design a Five-Question Women's Agency Index
We propose a new method to design a short survey measure of a complex concept such as women's agency. The approach combines mixed-methods data collection and machine learning. We select the best survey questions based on how strongly correlated they are with a "gold standard" measure of the concept derived from qualitative interviews. In our application, we measure agency for 209 women in Haryana, India, first, through a semi-structured interview and, second, through a large set of close-ended questions. We use qualitative coding methods to score each woman's agency based on the interview, which we treat as her true agency. To identify the close-ended questions most predictive of the "truth," we apply statistical algorithms that build on LASSO and random forest but constrain how many variables are selected for the model (five in our case). The resulting five-question index is as strongly correlated with the coded qualitative interview as is an index that uses all of the candidate questions. This approach of selecting survey questions based on their statistical correspondence to coded qualitative interviews could be used to design short survey modules for many other latent constructs.
运用机器学习和定性访谈(MASI)设计女性主导地位指数(包含五个问题)
我们提出了一种针对诸如女性主体之类的复杂问题进行简短调查的新方法(MASI, MAchine learning and Semi-structured Interviews)。该方法结合了多种方法的数据收集与机器学习。我们基于定性访谈的结果,根据与“黄金标准”度量之间的相关性,来选择最佳调查问题。我们通过半结构化访谈和大量封闭式问题,对印度哈里亚纳邦的209名妇女进行评估。我们使用对每位女性的主体地位进行评分,并将其作为她主体地位的真实值。我们根据封闭式问题来预测女性主体地位,应用了基于LASSO和随机森林的统计算法以选择最佳封闭式问题(限制为5个)。我们发现,相比于使用所有问题产生的指数,由五个问题产生的指数与定性访谈的相关性与之相同。这种基于与统计定性访谈之间的统计对应关系来选择调查问题的方法可用于为许多其他观念的衡量设计简短的调查模块。
一、介绍
女性主体地位,即在生活中做出选择并采取行动的能力,是不可直接可观察到的。它具有多方面的、复杂的内涵,难以定量描述。尽管如此,研究人员依然希望对女性主体地位进行统计分析,如评价主体地位的上升和评估干预措施的效果。对主体地位的准确度量就很重要。
尽管主体地位的复杂性表明它需要一个较长的调查来衡量,但研究人员出于成本考虑,通常会寻求一个简短的模块,尤其当代理机构是其研究的第二重点时。
在这项研究中,我们创建了一个新的有关妇女主体地位的简短调查模块。我们的贡献在于选择调查问题的创新方式。我们从“真正”的主体地位度量出发,根据与“真正”的主体地位度量之间的相关性,选择最佳问题并计算指数。
我们使用的主要“黄金标准”是由训练有素的定性研究人员进行的半结构化访谈。我们还基于经济学游戏的结果,建立了第二个“黄金标准”的度量。我们的第三种衡量女性主体地位的方法是封闭式调查问题。为找出最佳问题,我们使用了LASSO稳定性选择、随机森林选择、倒序选择。
当我们把定性访谈作为“黄金标准”时,所有三种统计算法都产生了一个与访谈得分密切相关的女性主体地位指数,且每个算法选出的最佳问题中有相当大的重叠。此外,与我们随机选择的问题子集相比,五个问题指标与“真相”的相关性要大得多。更引人注目的是,它们比所有63个候选问题构建的指数更有解释力。而实验室游戏在测量主体地位方面是无效的。
我们研究的第一个贡献在于我们引入了一种新的混合方法;根据统计相关性选择调查问题是新颖的,并且有超越女性主体地位研究的应用。第二个贡献在于我们开发的关于女性主导地位的简短调查模块和指数。
二、研究地点与样本描述
因为人员和交通的原因,我们选择了印度哈里亚纳邦的Kurukshetra区作为研究地点。我们最终样本大小为443名女性,其中有209名接受了半结构化采访(定性访谈)。描述性统计结果如下:
 变量    全样本    定性访谈受访者  
 受访者数量    443    209  
 年龄    29.720    29.512  

 [4.953]    [4.778]  
 结婚年龄    20.377    20.316  

 [2.584]    [2.708]  
 丈夫与妻子年龄差    2.946    2.914  
 [2.821]    [2.702]  
 最年轻的孩子的年龄    4.989    5.019  
 [2.765]    [2.792]  
 是否能读写    0.986    0.986  
 [0.116]    [0.119]  
 受教育年龄    9.916    10.024  

 [3.258]    [3.175]  
 丈夫与妻子教育差距    0.853    0.660  

 [3.070]    [3.313]  
 就业状况    0.165    0.182  

 [0.371]    [0.387]  
 印度教徒    0.840    0.837  

 [0.367]    [0.370]  
 锡克教徒    0.151    0.144  

 [0.359]    [0.351]  
 贱民种姓    0.341    0.335  

 [0.475]    [0.473]  
 其他低等种姓    0.501    0.502  

 [0.501]    [0.501]  
 水泥/石头/砖头房屋    0.386    0.373  
 (与茅草屋等相对)    [0.487]    [0.485]  
三、三个对女性主体地位的衡量
1. 定量调查
我们对443名研究参与者的完整样本进行了45分钟的调查,调查问题均为封闭式的。在询问了一些关于年龄、宗教等人口特征的问题之后,调查表着重于衡量妇女在其家庭中的作用。这些问题包括人口和健康调查、相对自主权指数(Ryan and Deci, 2000; Vaz et al., 2016)、一个近期研究(Glennerster et al., 2018)所使用的衡量妇女主体地位的J-PAL的工具包和性关系权力量表(Pulerwitz et al., 2000)。我们还包括了一些我们自己提出的问题。
我们将每个调查结果转换成一个数值变量。为了简单起见,我们在主索引中为每个调查问题使用了一个变量,但请注意,我们使用的一种统计算法(随机森林)考虑了所有可能的记录。
2. 定性访谈:
面试官接受了培训,要求他们遵循面试指南,涵盖所有六个领域的问题(子女的教育与健康、家庭支出、自身生育、流动性、就业)。他们用不同的措辞提问、追问,以求获得更好的信息。我们对访谈结果进行编码,主体地位最弱为1,最强记为4。分布如下:

3. 实验室游戏
该实验衡量了女性在家庭中为了亲自得到资金所愿意付出的代价(WTP, willingness to pay)。在这个实验中,女性可以选择给自己300元,或者给丈夫X元。如果女性选择给自己300元,实验停止。如果女性选择给丈夫X元(从700元)开始,我们就让X减少100,让女性选择给自己300元或给丈夫600元,以此类推。我们跟女性说明,游戏中给她的钱会私下给他,不会通知她的丈夫。如果她选择让丈夫拿钱,并告诉他丈夫这笔钱与其妻子的实验有关。正如Almas et al. (2018) 所写,在一个平等的家庭,如果丈夫和妻子有相同的偏好或者对对方完全无私,女性会试图使得到的资金总量更大,而不是不惜一切代价亲自收到资金。在一个不平等的家庭,女性主体地位地位越低,她越倾向于付出更多以亲自获得资金(WTP较高)。
然而,这项措施并没有如理论上预期的那样起作用。许多妇女总是希望她们的丈夫得到那笔钱,即使那笔钱少于300镑。这与她们较低的主体地位有关,她们认为女性不应该插手家庭财务,或者她们担心丈夫会发现她们收了钱。

四、选择调查问题的统计算法
1. LASSO选择
我们使用50%的子样本,运行LASSO回归 1000次:①抽取50%的观察样本,不进行替换。②进行套索回归,注意选择了哪些预测因子(即系数没有缩小到0)③完成步骤1和步骤2的1000次迭代。
于是,我们得到了在迭代中被LASSO最频繁地选出的5个调查问题。我们对它们进行正态化从而将它们结合为一个指数。
2.随机森林
 该算法步骤如下:①使用所有可用的预测因子建立100个随机森林。计算每个变量的变量重要性(VI)在森林中的平均值。如果变量的VI在100个森林中的标准偏差超过阈值,则保留该变量。②使用步骤1中最重要的变量创建100个随机森林,然后使用最重要的两个变量创建100个随机森林,直到使用步骤1中保留的所有变量继续创建100个随机森林。从袋外错误率(OOB)低于某一阈值的模型种,选择一个变量数最少的。③构建另一套随机森林模型,按重要性顺序引入第二步得到的变量。创建和平均化100个包括引入的变量的随机森林。如果能降低袋外错误率(OOB),则将该变量保留在模型中。
3.序列向后选择
第一步是将所有候选问题组合成一个指数。然后迭代地删除变量,如下:①丢弃一个可用的变量,并将剩下的k个变量标准化之后组合成一个索引。②回归并计算R平方。③对所有剩余的变量重复步骤1和2。④从集合中去掉导致R平方损失最小的变量⑤重复步骤1到4,直到达到索引所需的变量数量。
4.对三种算法的比较
我们之所以用三种不同的算法,是为了更好理解我们所提出的总体方法(即结合机器学习和定量访谈)对于具体算法选择的敏感性。
我们认为LASSO选择是首选算法,因为它能处理过拟合,并且透明直观。逆向序列选择是一个有用的替代选择,因为它只涉及普通线性回归的循环。随机森林可以从5个变量中提取更多的信息,所以它可能适合掌握复杂算法的研究人员。
五、结果:经证实的对于妇女主体地位的调查模块
三种算法选择结果如下:
     LASSO    随机森林    序列向后  
 当购买像自行车或牛这样昂贵的物品时,你的意见是否被征询?    1    3    2  
 为自己购买衣服时,你是否需要征得其他家庭成员同意?   2  
 1  
 在市场上消费时,是否需要询问配偶?   3    2  
 你是否被允许与其他社区的妇女见面和交谈?   4    4    4  
 关于孩子的健康问题,你征询谁的意见?   5  

 你被允许乘坐公共交通前往其他地区吗? 
 1  
 在你的家庭中,谁决定为亲戚支付学杂费? 
 5    5  
 你被允许以任何理由与朋友见面吗? 

 3  
 五个问题标准化指数的R平方    0.289    0.251    0.287  
 五个问题模型预测的R平方    0.290    0.615    0.287  
*表内数字1-5代表重要性顺序。
我们将包含5个问题的LASSO模型与其他模型进行了比较。①与随机选择相比,我们的方法有明显优势。②与选择15个问题的LASSO模型相比,虽然15个问题的模型R平方略高(为0.38),但问卷明显更长。③与使用所有63个问题的模型相比,包含5个问题的LASSO模型的R平方甚至更高,使用所有问题的模型的R平方只有0.21。此外,经过检验,该模型用于小样本时虽然有一定的不稳定性,但依然表现很好。
六、结论
本文最大的贡献在于我们对于妇女主导地位指数的衡量构建了一个新的模型。我们还发现,实验室游戏所得到的结果不能作为衡量女性主体地位的“黄金标准”。本文更大的贡献在于介绍了一种衡量某种观念的新方法,即MASI。它不仅可以衡量妇女主体地位,还可以有许多其他应用。
关于机器学习
1.机器学习之KNN分类算法介绍: Stata和R同步实现(附数据和代码),2.机器学习对经济学研究的影响研究进展综述,3.陈硕: 回顾与展望经济学研究中的机器学习,4.最新: 运用机器学习和合成控制法研究武汉封城对空气污染和健康的影响! 5.Top, 机器学习是一种应用的计量经济学方法, 不懂将来面临淘汰危险!6.Top前沿: 农业和应用经济学中的机器学习, 其与计量经济学的比较, 不读不懂你就out了!7.前沿: 机器学习在金融和能源经济领域的应用分类总结,8.机器学习方法出现在AER, JPE, QJE等顶刊上了!9.机器学习第一书, 数据挖掘, 推理和预测,10.从线性回归到机器学习, 一张图帮你文献综述,11.11种与机器学习相关的多元变量分析方法汇总,12.机器学习和大数据计量经济学, 你必须阅读一下这篇,13.机器学习与Econometrics的书籍推荐, 值得拥有的经典,14.机器学习在微观计量的应用最新趋势: 大数据和因果推断,15.R语言函数最全总结, 机器学习从这里出发,16.机器学习在微观计量的应用最新趋势: 回归模型,17.机器学习对计量经济学的影响, AEA年会独家报道,18.回归、分类与聚类:三大方向剖解机器学习算法的优缺点(附Python和R实现),19.关于机器学习的领悟与反思,20.机器学习,可异于数理统计,21.前沿: 比特币, 多少罪恶假汝之手? 机器学习测算加密货币资助的非法活动金额! 22.利用机器学习进行实证资产定价, 金融投资的前沿科学技术! 23.全面比较和概述运用机器学习模型进行时间序列预测的方法优劣!

下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

2.5年,计量经济圈近1000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 | 官员方言  | 微观数据 | 内部数据计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存