IZA DP No. 14221: Using Machine Learning and Qualitative Interviews to Design a Five-Question Women's Agency IndexWe propose a new method to design a short survey measure of a complex concept such as women's agency. The approach combines mixed-methods data collection and machine learning. We select the best survey questions based on how strongly correlated they are with a "gold standard" measure of the concept derived from qualitative interviews. In our application, we measure agency for 209 women in Haryana, India, first, through a semi-structured interview and, second, through a large set of close-ended questions. We use qualitative coding methods to score each woman's agency based on the interview, which we treat as her true agency. To identify the close-ended questions most predictive of the "truth," we apply statistical algorithms that build on LASSO and random forest but constrain how many variables are selected for the model (five in our case). The resulting five-question index is as strongly correlated with the coded qualitative interview as is an index that uses all of the candidate questions. This approach of selecting survey questions based on their statistical correspondence to coded qualitative interviews could be used to design short survey modules for many other latent constructs.
运用机器学习和定性访谈(MASI)设计女性主导地位指数(包含五个问题)我们提出了一种针对诸如女性主体之类的复杂问题进行简短调查的新方法(MASI, MAchine learning and Semi-structured Interviews)。该方法结合了多种方法的数据收集与机器学习。我们基于定性访谈的结果,根据与“黄金标准”度量之间的相关性,来选择最佳调查问题。我们通过半结构化访谈和大量封闭式问题,对印度哈里亚纳邦的209名妇女进行评估。我们使用对每位女性的主体地位进行评分,并将其作为她主体地位的真实值。我们根据封闭式问题来预测女性主体地位,应用了基于LASSO和随机森林的统计算法以选择最佳封闭式问题(限制为5个)。我们发现,相比于使用所有问题产生的指数,由五个问题产生的指数与定性访谈的相关性与之相同。这种基于与统计定性访谈之间的统计对应关系来选择调查问题的方法可用于为许多其他观念的衡量设计简短的调查模块。一、介绍女性主体地位,即在生活中做出选择并采取行动的能力,是不可直接可观察到的。它具有多方面的、复杂的内涵,难以定量描述。尽管如此,研究人员依然希望对女性主体地位进行统计分析,如评价主体地位的上升和评估干预措施的效果。对主体地位的准确度量就很重要。尽管主体地位的复杂性表明它需要一个较长的调查来衡量,但研究人员出于成本考虑,通常会寻求一个简短的模块,尤其当代理机构是其研究的第二重点时。在这项研究中,我们创建了一个新的有关妇女主体地位的简短调查模块。我们的贡献在于选择调查问题的创新方式。我们从“真正”的主体地位度量出发,根据与“真正”的主体地位度量之间的相关性,选择最佳问题并计算指数。我们使用的主要“黄金标准”是由训练有素的定性研究人员进行的半结构化访谈。我们还基于经济学游戏的结果,建立了第二个“黄金标准”的度量。我们的第三种衡量女性主体地位的方法是封闭式调查问题。为找出最佳问题,我们使用了LASSO稳定性选择、随机森林选择、倒序选择。当我们把定性访谈作为“黄金标准”时,所有三种统计算法都产生了一个与访谈得分密切相关的女性主体地位指数,且每个算法选出的最佳问题中有相当大的重叠。此外,与我们随机选择的问题子集相比,五个问题指标与“真相”的相关性要大得多。更引人注目的是,它们比所有63个候选问题构建的指数更有解释力。而实验室游戏在测量主体地位方面是无效的。我们研究的第一个贡献在于我们引入了一种新的混合方法;根据统计相关性选择调查问题是新颖的,并且有超越女性主体地位研究的应用。第二个贡献在于我们开发的关于女性主导地位的简短调查模块和指数。二、研究地点与样本描述因为人员和交通的原因,我们选择了印度哈里亚纳邦的Kurukshetra区作为研究地点。我们最终样本大小为443名女性,其中有209名接受了半结构化采访(定性访谈)。描述性统计结果如下:
变量
全样本
定性访谈受访者
受访者数量
443
209
年龄
29.720
29.512
[4.953]
[4.778]
结婚年龄
20.377
20.316
[2.584]
[2.708]
丈夫与妻子年龄差
2.946
2.914
[2.821]
[2.702]
最年轻的孩子的年龄
4.989
5.019
[2.765]
[2.792]
是否能读写
0.986
0.986
[0.116]
[0.119]
受教育年龄
9.916
10.024
[3.258]
[3.175]
丈夫与妻子教育差距
0.853
0.660
[3.070]
[3.313]
就业状况
0.165
0.182
[0.371]
[0.387]
印度教徒
0.840
0.837
[0.367]
[0.370]
锡克教徒
0.151
0.144
[0.359]
[0.351]
贱民种姓
0.341
0.335
[0.475]
[0.473]
其他低等种姓
0.501
0.502
[0.501]
[0.501]
水泥/石头/砖头房屋
0.386
0.373
(与茅草屋等相对)
[0.487]
[0.485]
三、三个对女性主体地位的衡量1. 定量调查我们对443名研究参与者的完整样本进行了45分钟的调查,调查问题均为封闭式的。在询问了一些关于年龄、宗教等人口特征的问题之后,调查表着重于衡量妇女在其家庭中的作用。这些问题包括人口和健康调查、相对自主权指数(Ryan and Deci, 2000; Vaz et al., 2016)、一个近期研究(Glennerster et al., 2018)所使用的衡量妇女主体地位的J-PAL的工具包和性关系权力量表(Pulerwitz et al., 2000)。我们还包括了一些我们自己提出的问题。我们将每个调查结果转换成一个数值变量。为了简单起见,我们在主索引中为每个调查问题使用了一个变量,但请注意,我们使用的一种统计算法(随机森林)考虑了所有可能的记录。2. 定性访谈:面试官接受了培训,要求他们遵循面试指南,涵盖所有六个领域的问题(子女的教育与健康、家庭支出、自身生育、流动性、就业)。他们用不同的措辞提问、追问,以求获得更好的信息。我们对访谈结果进行编码,主体地位最弱为1,最强记为4。分布如下:
3. 实验室游戏该实验衡量了女性在家庭中为了亲自得到资金所愿意付出的代价(WTP, willingness to pay)。在这个实验中,女性可以选择给自己300元,或者给丈夫X元。如果女性选择给自己300元,实验停止。如果女性选择给丈夫X元(从700元)开始,我们就让X减少100,让女性选择给自己300元或给丈夫600元,以此类推。我们跟女性说明,游戏中给她的钱会私下给他,不会通知她的丈夫。如果她选择让丈夫拿钱,并告诉他丈夫这笔钱与其妻子的实验有关。正如Almas et al. (2018) 所写,在一个平等的家庭,如果丈夫和妻子有相同的偏好或者对对方完全无私,女性会试图使得到的资金总量更大,而不是不惜一切代价亲自收到资金。在一个不平等的家庭,女性主体地位地位越低,她越倾向于付出更多以亲自获得资金(WTP较高)。然而,这项措施并没有如理论上预期的那样起作用。许多妇女总是希望她们的丈夫得到那笔钱,即使那笔钱少于300镑。这与她们较低的主体地位有关,她们认为女性不应该插手家庭财务,或者她们担心丈夫会发现她们收了钱。