陈硕:机器学习在社会科学中的应用:优势与局限
机器学习
机器学习 (Machine Learning,简称ML) 指的是从数据中识别出规律并以此完成预测、分类及聚类等任务的算法总称。随着数据的可得及计算机处理能力的提高,该技术在业界及自然科学领域已经得到广泛地应用。在社会科学领域,机器学习的使用虽然起步较晚,但发展也非常迅速。
本文作者:陈硕
复旦大学经济学院教授
复旦大学-金光集团思想库专家
机器学习是指从数据中识别出规律并以此完成预测、分类及聚类的算法总称。目前机器学习技术在社会科学研究中的应用分成三类:
第一,数据生成 (Data Generating Process):机器学习可以帮助学者获得以前很难或无法获得的数据;
第二,预测 (Prediction):机器学习可以更有效地探索变量之间的相关性,进而做出较为精准的预测;
第三,因果识别 (Causal Inference):社会科学、特别是经济学实证研究的核心是因果识别,而机器学习在这方面也具有一定优势。
优势一
可以完成复杂的数据生成工作
传统社会科学实证研究基于的数据大都来自官方、问卷调查、实地调查、田野或实验室实验。最新一些研究试图利用机器学习技术拓展数据可得性。通过机器学习获得数据的主要方式是文本挖据及图像识别。就文本信息来说,研究者关心的是文本主题。为了在海量文本数据中提取主题,学者一般使用Latent Dirichlet Allocation(LDA) 方法。除了文本,机器学习也可以从图像中提取变量。卫星图像就是一个被经济学家广泛研究的图像信息。
上述研究主要涉及变量的“绝对”值,机器学习还可以为研究者生成“相对”意义上的变量。比较不同文本相似度是该领域的典型应用。除了对海量文本进行归类和比较外,机器学习技术还可以测量文字背后的情感。
优势二
预测能力强过了计量经济学传统方法
在使用机器学习之前,社会科学研究者主要依赖最小二乘回归 (OLS) 进行预测。如果从“无偏性”和“可解释性”两方面评价传统计量经济学方法和机器学习方法在预测方面的优劣。任何预测方法都是在偏差和误差间进行权衡取舍。社会科学实证研究,特别是经济学研究,特别强调因果推论。基于这种考虑,计量经济学回归模型都致力于获得一致的估计系数。这意味着在这一方差–偏差权衡中,计量经济学方法宁愿付出方差较大的代价,也不能放弃无偏这一性质。比方说上面所提到的OLS的估计系数正体现这一思路。而机器学习的目的就是进行预测——它并不在乎用以做出预测的估计系数是否具有一致无偏性特点。这就意味着在无偏性上,机器学习做出了“让步”:选择用偏差来换取更小的方差以提高预测性能。
“可解释性”指的是从模型估计出的结果能够容易地被解释。计量经济学的目的不仅是预测,更在于解释现实中的现象以找到背后规律。从这个意义上来说,用来预测的函数形式越简单越好。因为复杂模型需要廓清模型拟合好坏的原因及解释变量与被解释变量间的互动关系等诸多问题。机器学习则恰恰相反,只要这个函数能够很好地模拟现实,哪怕函数形式再复杂也无所谓。在这一点上,机器学习不拘泥于“可解释性”,灵活地选择函数形式进行拟合数据,这使得其预测能力强过了计量经济学传统方法。
在实际研究中机器学习的预测工作体现在个体和宏观经济层面。在个体层面上,机器学习可以帮我们更好地预测个人信息、决策或未来行为。在社会经济层面,机器学习能够帮助研究者预测经济指标。
优势三
有助于识别和推断因果关系
社会科学,尤其是经济学实证研究的核心目标是获得因果推论,以探究干预(Treatment) 措施是否导致预期结果并廓清作用发生机制。机器学习技术在这方面的应用依然基于著名的Neyman-Rubin反事实框架(Neyman-Rubin Counterfactual Framework)给出“因果效应”的定义;目前已有学者将机器学习技术和应用微观计量经济学广泛使用的两种因果推论方法双重差分(Difference-in-Differences, DID) 及断点回归(Regression Discontinuity, RD)结合起来为因果分析提供帮助。
局限一
难以突破传统社会科学的分析框架
和业界及自然科学领域中机器学习技术的应用相比,社会科学中该技术的应用近几年也获得了长足发展,但整体来说仍然处于较为初步的阶段。不管数据生成、预测还是因果识别,我们都认为机器学习技术的引入对整个社会科学研究范式的冲击有限。就数据生成来说,机器学习仅提高了数据搜集和整理的生产率,将以前通过人力难以获得的数据变为可得。但这些由机器学习生成的数据依然以变量形式进入到传统社会科学研究框架内,本质上没有改变社会科学的研究方法;就预测来说,目前社会科学在该领域的应用在很大程度上是对业界已经成果的复制。引领这一领域发展的驱动力依然是商业应用;就最有可能产生颠覆意义的因果识别来说,虽然利用机器学习的预测优势构建处理组的反事实在方法论上行得通,但目前并没有被研究者所广泛接受和使用。本文认为其原因有两个:
第一,很大程度上在于社会科学,特别是经济学在识别因果上已经发展出非常成熟的范式。除非能够带来颠覆性的边际贡献,研究没有理由抛弃传统因果识别方法。我们认为目前一个较为务实的做法是将机器学习识别因果的相关证据作为稳健性检验方式放入原有框架;
第二,充分发挥机器学习的预测能力依赖于海量数据,当前社会科学研究的样本量远没有达到能够让其获得精准预测的下限。
局限二
潜在的数据资源壁垒
机器学习使得研究者获得了以前通过人工投入无法获得的海量数据,检验了一些依靠传统方法无法有效的假设,这在一定程度上拓展了社会科学研究的边界。我们相信未来几年会有越来越多的学者会在研究中尝试机器学习技术。但我们也必须对该技术在应用过程中可能带来的问题也要有清醒的认识,这主要涉及学者间不平等及数据可复制性问题。机器学习依赖海量数据,这些数据的产生者主要来自业界和政府组织。可以想象,获得这些数据的主要方式并不是团队劳动投入,而是学者通过个人和组织的网络关系获得使用许可。这无疑给大部分学者设置了进入障碍,进而造成赢者通吃并可能加剧学界内部的不平等。
机器学习带来的另外一个问题是研究的可复制性。学者通过公布数据及程序代码可以让其他学者和学生复制论文结论。但基于大数据的研究,学者虽然可以公布代码,但数据的公开必须获得数据提供方的许可。和一般数据相比,业界和政府可能更不情愿公布这些海量数据。这可能导致基于大数据研究的可复制性降低。我们对此的建议是,学者在获得数据的同时一并争取获得在未来公布其中的若干部分 (比如数据量的万分之一) 的权利:随机取样的子样本依然具有重复复制的价值。
排版 | 赵聪悦
往期回顾