查看原文
其他

大数据与数据科学方法对实证研究的挑战, 一项10000字的TOP刊综述

计量经济圈 计量经济圈 2022-12-13

凡是搞计量经济的,都关注这个号了

稿件:econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

1.文本分析方法在政策评估研究中的应用, 从描述性推论向因果推断的最新发展,2.文本分析的步骤, 工具, 途径和可视化如何做?3.文本大数据分析在经济学和金融学中的应用, 最全文献综述,4.文本函数和正则表达式, 文本分析事无巨细,5.环境大数据在实证研究应用的最新进展与趋势,6.经济金融学研究中的大数据革命, 将来的实证研究该何去何从?7.大数据给经济学和社会学研究带来了什么挑战?8.世界计量经济学院士新作“大数据和机器学习对计量建模与统计推断的挑战与机遇”,9.前沿: 大数据对经济金融研究的致命影响, 那又该如何推动这些领域的前沿研究呢?10.洪永淼教授履新后首次讲座"大数据革命和中国经济学研究范式", 附送一份PPT供参阅!11.金融学文本大数据挖掘方法与研究进展, 金融学者看过来!12.权威前沿: 大数据时代经济学和金融学中的预测方法和实践, 不看就不要提前沿!13.大数据时代计量经济学若干重要发展方向,14.机器学习和大数据计量经济学, 你必须阅读一下这篇,15.高维数据计量经济学是什么? 未来研究大趋势,16.大数据推动计算社会科学发展,17.机器学习在微观计量的应用最新趋势: 大数据和因果推断

正文
关于下方文字内容,作者:王立艳, 暨南大学产业经济研究院,通信邮箱:wangliyan1998@163.com
大数据与数据科学的挑战
Henry E. Brady, 2019, The Challenge of Big Data and Data Science, Annual Review of Political Science Vol. 22:297-323.
Big data and data science are transforming the world in ways that spawn new concerns for social scientists, such as the impacts of the internet on citizens and the media, the repercussions of smart cities, the possibilities of cyber-warfare and cyber-terrorism, the implications of precision medicine, and the consequences of artificial intelligence and automation. Along with these changes in society, powerful new data science methods support research using administrative, internet, textual, and sensor-audio-video data. Burgeoning data and innovative methods facilitate answering previously hard-to-tackle questions about society by offering new ways to form concepts from data, to do descriptive inference, to make causal inferences, and to generate predictions. They also pose challenges as social scientists must grasp the meaning of concepts and predictions generated by convoluted algorithms, weigh the relative value of prediction versus causal inference, and cope with ethical challenges as their methods, such as algorithms for mobilizing voters or determining bail, are adopted by policy makers.

摘要

大数据和数据科学正在以各种方式改变着世界,引发了社会科学家的新担忧,比如互联网对公民和媒体的影响、智慧城市的影响、网络战和网络恐怖主义的可能性、精准医疗的影响、以及人工智能和自动化的后果。随着社会的变化,强大的新数据科学方法可以使用管理、互联网、文本和传感器音频视频数据进行研究。新兴数据和创新方法通过提供新方法,从数据中形成概念、进行描述性推理、进行因果推断和生成预测,有助于回答以前难以回答的社会问题。但它们也带来了挑战,因为社会学家必须掌握复杂算法产生的概念和预测的含义,权衡预测与因果推理的相对价值,并在决策者采用其方法(如动员选民或确定保释金的算法)时应对道德挑战。

1. 大数据和数据科学

目前大数据和数据科学越来越流行,也成为学术界的研究热点,各国的国家政策也向大数据和数据科学倾斜。2014年至2017年,“大数据”每年在JSTOR上出现约560次,而在2000年之前,“大数据”每年被提及不到一次,在2001年至2010年,平均每年只有8次左右。在过去的五年里,至少有17个数据科学项目在美国主要的研究型大学启动,互联网上充斥着数据科学的书籍和课程广告。
大数据和数据科学带来了社会和政治变革。大数据和数据科学正在创造新的现象,并提出了一些基本问题,包括对人和人口的控制和操纵、未来的隐私、信息的真实性、未来的工作,以及政治学家关心的许多其他话题。所有的科学都受到这些变化的影响。现在,政治学家可以观察和分析人们选择的信息,政治行为者产生的信息,他们所生活的环境,以及人们生活的许多其他方面。政治学家组织工作的新方法。有了数据的冲击,政治科学家可以重新思考他们如何通过熟悉新技术来方便访问、管理、清理、分析和归档数据来从事政治科学。政治学家提出的新问题。政治科学家必须问他们试图通过概念形成、描述、因果推理、预测和对未来的预测来完成什么。在这一过程中,政治行为将发展出新的方法和见解,政治制度将提出新的设计。处理政治科学研究的伦理问题。最后,政治科学家必须思考关于信息获取、使用和传播的复杂伦理问题,以及他们模型和结果的滥用问题。

2. 增加大数据的数量、速度和多样性

社会科学家必须认真研究当前信息传播的急剧变化,这种变化与19世纪交通运输的惊人变化相似。这些变化创造了新的贸易网络、新的移民机会、市郊通勤者的新型城市以及对世界的新理解,对政治、经济和社会产生了巨大影响。
信息技术最根本的创新来自于从模拟设备到数字设备的转变,这些变化带来了:(a)广泛的数字数据,其中无数事件现在被数字记录; (b)广泛的联系,即认定事件和人员,使他们能够相互联系; (c)普遍联网,使人们融入相互作用的用户社区,成为网络中的节点; (d)无处不在的电脑创作,电脑创造的新信息成为社会系统及其文化的一部分。
政治学家引领了研究这些变化的道路。Harold laswell和Karl Deutsch是早期研究交流及其对社会影响的学生。1983年, Thielde sola Pool研究了美国大众媒体和点对点媒体从1960年到1977年的词汇产生情况。
政治学家和其他人的后续研究(Lyman& V arian 2003,Bohn& Short 2012)侧重于信息的数量或存量、流量或速度、信息的种类。他们还以数字字节而不是文字来测量信息,因此这些测量结果反映了图像的扩散,图像每秒传输的字节数比文字或语音传输的字节数多得多(Bohn& Short 2012)。Hilbert& López(2011年)发现,从1986年到2007年,世界人均字节存储容量每40个月翻一番。
四个显著的趋势,导致了大数据革命:广泛的数字数据化、广泛的连通性、网络化和计算机创作。首先,关于社会事件的数据激增,数字通信正在取代模拟通信。这种广泛的数字数据化(Cukier& Mayer Schoenberger,2013年)以计算机易于存储和处理的格式创建数据。其次,存在广泛的连通性,因为原则上,点对点通信比广播更容易跟踪。数据化和连通性意味着曾经短暂的事件现在可以被识别和研究。网络化,这对社会科学家来说尤其重要。然而,一旦通信被归类为人与人之间的通信或从一个来源到多个来源的大众通信,现代通信就涉及结合了这两种模式特征的中介社交网络。最后,尽管传统上信息的交流涉及以最相似的方式发送信息,即使信息在传输过程中被转换,但越来越多的信息是由计算机编写的。计算机使用程序产生新的输出,以新颖的方式组合输入。

3. 大数据和数据科学的定义

3.1 大数据

规模、复杂性和技术挑战为大数据提供了一个定义(国家研究委员会2013),但它们似乎不足以预示我们的数据环境发生巨变,因为数据集规模和计算机能力之间的竞争可以追溯到计算的出现。美国国家标准与技术研究所(National Institute of Standards and T Technology)提出,“从根本上说,大数据范式是数据系统架构的一种转变,从具有垂直扩展功能的单片系统(即向现有机器添加更大的功率,如更快的处理器或磁盘)进入一个并行的“水平扩展”系统(即向可用集合中添加更多机器,以处理数量、种类和速度),该系统并行使用松散耦合的一组资源”(NIST 2015)。但统计学家David Donoho (2017年)认为,“吸引如此多媒体关注的新技能,并不是能够更好地解决数据推断实际问题的技能;它们是应对大规模集群计算的组织构件的技能。”
除了庞大的数据量,大数据革命真正与众不同的特点是记录、连接、联网和创造信息的新技术。NIST定义的“数据分散”也可能不仅仅是一套处理大型计算问题的技术,但计算和互联网的未来形态仍不清楚。因此,大数据革命的真正影响与其说是数据量,不如说是认知环境的变化(Lugmayr,2016年,Neumann 2016年,Schroeder 2018年),这需要新的视角来处理数据化、连通性、网络化和计算机创作。这些现象源于新技术的发明,包括数据科学中的创新方法。

3.2 数据科学

大数据的伴生理念——数据科学,与其说依赖于数据的规模,不如说依赖于在数据激增并迫切需要分析的时代,如何发现新知识。2001年,统计学家William S. Cleveland提出了一项计划,通过为“数据计算”(Cleveland 2001)提供更多资源,“扩大统计空间技术工作的主要领域”,并将这一新领域称为“数据科学”。2007年,计算机科学家Jim Gray在向国家研究委员会计算机科学和电信委员会发表演讲时,主张将“数据驱动科学”作为一种新的科学范式,利用大量数据进行科学发现。Gray(2009年)提出“需要工具来帮助科学家捕获数据、整理数据,然后将其可视化”,目标是“将所有科学数据与所有文献统一起来,创造一个数据与文献互操作的世界。”
从这些想法出发,NIST(2015)将数据科学描述为“通过发现或假设制定和假设检验的过程,直接从数据中提取可操作的知识。” Conway (2013)将数据科学置于三个领域的交汇处: 计算机编程能力,数学和统计知识,以及在某一研究领域的专业知识。
统计学家David Donoho(2017年)认为,“当今大众媒体对数据科学的比喻甚至经不起基本的审查”,但在Tukey工作的基础上,“有一个坚实的理由可以创造一些被称为‘数据科学’的实体”,提出数据科学应该包括六项活动,本文在其中又增加了一项。表1中,还添加了一些例子:
表1 数据科学的七项活动
活动例子
数据收集、准备和勘探
调查数据、实验数据、基因组数据、文本数据、管理数据、图像数据、网络数据和传感器数据用于检查异常值和数据质量的数据清理和探索性数据分析方法
数据表示与转换
关系数据库和非关系数据库网络和图形用于数据的其他数学结构
数据计算
R和Python编程包,文本操作语言集群和云计算可再生的工作流
数据建模
确定或假设数据生成概率函数,结构和预测建模
数据可视化和表示
可视化和图形的类型标签和显示数据的规则各种展示的心理影响
数据归档、索引、搜索和数据治理
开放数据和再现性的标准在必要时确定访问和隐私保护规则
关于数据科学的科学
人们是如何做数据科学的数据科学和大数据对社会的影响

3.3 真实现象,语言不足

许多与大数据和数据科学相关的发展并不新鲜,但它们已经达到了一定的规模和影响程度,需要用新的方法来描述它们。正确的语言很难找到。信息革命不仅仅是计算机或其他单一的东西。它还涉及传感器、数据库、编程语言、人工智能、电信、机器学习、社交媒体、互联网和其他许多发明。无论是“大数据”、“数据科学”,还是其他任何标签,都不包含所有这些创新。网络基础设施这个术语可能有用,但它并没有流行起来。Jordan (2018)主张使用“智能基础设施”这个词,比“人工智能”更广泛,但也有其局限性。因此我们只剩下了真实的现象,而没有足够的语言。

4. 大数据和数据科学带来的社会和政治变革

许多作者概述了受大数据影响的领域(Chen et al. 2012, Cukier & Mayer-Schoenberger 2013, Mayer-Schönberger & Cukier 2014, Mosco 2014, Evans 2018)。这篇文章无法详尽地评述大数据和数据科学可能产生的社会影响,但列出了几个突出的例子,以表明它们值得政治科学家进行更多的审查:网络战和国土安全、智慧城市、医学、媒体和机器人。
最近有几本书提出网络战是存在的,而且它威胁着国际安全(Clarke & Knake 2011, Kaplan 2017),但持怀疑态度的人(Rid 2012, Libicki 2014)辩称虽然网络站可能是一个问题,但它们不构成像日本偷袭珍珠港那样的经典战争,后者涉及一种有目的的、公开宣称的、为了政治利益的暴力行为。网络战是有目的的,但它们最多只会造成生产力的损失,或许还会造成财产损失。尽管网络战的理由可能不充分,但网络肯定被用于“破坏、间谍和颠覆”(Rid 2012),网络安全成为国际关系和安全政治学研究的核心。
“智慧城市”是一本热门书名,副标题为“大数据、公民黑客和新乌托邦的探索”、“空间化智能”和“物联网、人联网和系统”(Townsend 2013、Picon 2015、Dustdar,2017)。在这一领域,三大数据流汇集在一起。首先,有关于人及其与学校、社会福利机构(Brady et al.2001)、医疗和警察关系的大型数字化行政数据集,也有关于物理结构及其与街道、服务、土地使用和分区关系的类似数据集。其次,传感器、无线网络和摄像机的成本降低,再加上将其与“物联网”连接的能力,使得能够监测并有时远程控制空气污染、交通、停车、电力和水的使用、公用设施、安全、警察和消防员的部署,以及现代城市的许多其他方面。第三,谷歌街景、Zillow、Airbnb或Yelp等互联网数据可以提供有关商业、房地产和城市实体状况的信息(Glaeser,2018年)。这些数据可以通过对每个人的房子(或工作地点)、每个结构或企业以及每个传感器的位置进行地理编码来链接。可以通过识别车辆、人脸或射频识别标签来进一步连接数据,从而可以跟踪整个城市的运动(Hashem et al.2016)。
精准医疗是“根据每个病人的个体特征定制医疗”(国家研究委员会2011年)。为了实施精准医疗,医生会将个人信息与人们对疾病和治疗的不同反应的医学知识结合起来(Dzau & Ginsburg 2016)。个人信息将来自电子医疗记录和基因组数据。这些数据涉及隐私、数据所有权以及与美国种族等问题(Hochschild& Sen 2015)可能成为备受关注的政治问题。
随着机器人越来越擅长感知世界,随着它们学会了模式识别的基本知识,随着它们越来越擅长语音识别和说话,随着它们可以通过无线网络和云与彼此和我们交流,随着它们融入自主机器,拥有自己的轻量级动力源,它们在多大程度上获得了权利和责任? 如果机器人取代了人类的工作,人类还能做什么? 如果大量的财富体现在机器人身上,谁拥有机器人,谁得到他们努力的回报(Albus 1984)? 已经有一些作者提出了普遍基本收入(Manjoo 2016)和保障工作(T ankersley 2018),以应对机器人可能导致的失业。这会引发什么样的政治问题。
以上例子说明了政治科学家可能就大数据和数据科学的影响提出的各种问题。当社会、企业和政府能够获取远远超出人口普查范围的大规模人口数据集时,这意味着什么? 谁将拥有这些数据? 谁来定义收集和使用哪些数据? 当新闻和信息可以在没有同行评议、新闻规范和对其上下文和真实性关注的情况下创作和传播时,会发生什么? 当信息被黑客入侵,数字系统易受病毒攻击时,会产生哪些新的问题? 当医疗诊断或城市运营依赖于有时会失败的算法时? 算法中会包含哪些偏差? 人们怎样才能被带到正确的地方,以确保他们的参与、权利和福利?

5. 包括政治科学家在内的所有科学家都能获得越来越多的数据

在2015年的一份报告中,NIST调查了51个大数据使用案例,涉及政府和商业运营、国防、医疗和生命科学、社交媒体、天文和物理、地球和环境科学以及能源。每个领域都涉及产生或分析许多tb级的数据,其中大约三分之一涉及pb级的数据(NIST 2015,)——有时每年pb级。科学家们现在正在以惊人的速度生成数据,研究涉及从亚原子到宇宙的每一个物理尺度。其中一些数据集可能对政治科学家有用,例如用于研究政治心理学数据(Theodoridis & Nelson 2012)或用于研究气候变化对政治影响的卫星传感器数据(Hsiang et al. 2013)。社会科学家也从许多新的数据来源中受益。在过去的30年里,数据的数量和种类都有了巨大的增长,尤其是由于行政数据、互联网数据、文本数据和传感器音视频数据。

5.1 管理数据

关于投票、游说、竞选捐款、贸易、税收、福利、警察报告、311电话和许多其他领域的大规模行政数据集通常提供有关这些活动的官方数据,但数据集可能包含错误(Luks& Brady 2003)。此外,为了获得代表不同领域并有足够案例进行分析的数据集,研究通常需要跨司法管辖区广泛联系更多的人、组织或事件。广泛的链接通常需要处理使用不同格式和变量组合数据的问题。
这些管理数据研究也受益于强化链接,在强化链接中添加了更多关于个人、组织或事件的数据,如Bonica和Kim的工作。Brady等人(2001年)展示了州政府如何通过链接医疗补助、寄养、食品券、福利和其他领域等八个方案领域,极大地提高了其社会方案数据库的价值。然而,即使有了这种联系,这些数据通常也缺乏有用的辅助信息——不像调查,它们不会自动收集社会经济特征列表,如教育、收入、年龄等,或者公司或组织的财务和历史信息。此外,即使收集了这些信息,也可能是低质量的,除非它是项目商业目的的必要部分。对其他数据集的密集链接通常可以极大地扩展它们的效用,但由于名称、位置和其他标识信息的复杂性,这些匹配通常是不稳定的。使用概率匹配技术或地理编码的链接有助于促进这一过程,但它们仍然涉及不确定性和不完整性的因素。

5.2 互联网数据

网络使跟踪事件成为可能。Tinati等人(2014年)开发了一种工具,用于跟踪推特信息流和网络形成,并将其应用于2011年11月英国的一次大学学费抗议。他们展示了网络是如何通过转发来发展的,并且少数人是关键参与者。除了作为管理数据共享许多相同的问题,互联网数据通常是高度选择性的社会经济特征,他们往往取决于人们的参与平台如Facebook, Twitter,或者谷歌。此外,参与运营平台的公司可能导致微妙的选择效应,从而误导研究者(Lazer等人,2014)。缺乏数据也是一个问题,正如使用Facebook和Twitter数据评估意识形态的研究一样。优点是,互联网数据通常会提供迷人的网络数据,否则这些数据将不可用;可以在事件实时展开时对其进行研究;而且,关于行为的隐藏信息(比如搜索文化上不赞成的主题)也可以被揭示出来。Nagler& Tucker(2015)讨论了可以从Twitter学到什么。

5.3 文本数据

人工分析文本数据是耗时和容易出错的。自动化方法保证了更高的效率、更高的可复制性,并且可能更不容易出错。在我们对政治的分析中,文本数据提供了一个经常缺失的元素:公民和政治家的话语。自动化方法尽管存在复杂性,但这些方法可以完成典型预算和研究团队无法完成的任务。文本缩减和分析已经发展到可以量化大量文本的程度。可以说,如果采取适当的预防措施来检查人类编码人员的结果,并认识到分析的局限性,这些方法将改进人类编码。

5.4 传感器、音频、视频和其他数据

Hsiang等人(2011年)将温度和降雨量传感器数据(来自仪表和卫星观测)与“州际冲突的开始和持续时间”数据集中的冲突信息联系起来,以研究天气对国内冲突的影响。詹妮弗·埃伯哈特和她的同事们利用随身相机采集的加州奥克兰警察查车时的数据,揭示了警察在尊重方面的种族差异。这些例子展示了将传感器、音频、视频和其他类型的数据与事件联系起来的能力,但也揭示了正确使用这些数据必须进行的实质性处理。此外,鉴于视频中面部表情或肢体语言的复杂性以及地理学中可修改的区域单位问题,他们建议我们仍需提高将数据转换为可用形式的能力,以便进行研究,这源于将传感器的地理编码点测量值与不同地理实体(如城市、县、州或国家)进行匹配的困难。

6. 政治学家组织工作的新方法

6.1 新课程

政治学教授必须开发新课程,熟悉数据科学家开发的新技术。新课程应该向两个方向发展。其中一门课程应该处理大数据的社会挑战以及它们对政治的意义。第二门课程必须教授学生数据科学方法。对主要大学政治学系教授的方法课程的检查表明,这项工作正在顺利进行。这些课程包括用R或Python编程,强调理解统计数据的重采样方法,概述上述数据源,仔细讨论预测方法和推断因果关系的方法。

6.2 新的科研管理方法

一些与谷歌、Facebook或超大数据集合作的政治科学家可能必须了解大数据体系结构以及处理大数据集的新分散方法,如Hadoop、Hive、NoSQL和Spark(V arian 2014,Oussous et al.2018)。相反,政治科学家可能会更好地专注于数据清理、数据管理、可再生科学、数据生命周期管理和数据可视化的新软件。数据清理占用了研究的大部分时间,数据准备是乏味和耗时的。可复制科学旨在使第二位研究者能够“在仅给出一组文件和书面说明的情况下,重新创建项目得到最终报告结果,包括关键定量结果、表格和数字”。Kitzes等人(2017年)通过31个不同科学领域(包括社会科学)的案例研究证明了再现性,重点是数据采集、数据处理和数据分析。

7. 政治学家提出的新问题

7.1 数据科学从何而来?

数据科学方法主要来源于计算机科学、统计学和图书馆与信息科学,其中一些来源于生物学家对人脑神经元之间的连接进行建模的努力,以及认知科学家开发人工智能的工作。
数据科学如此受欢迎的一个原因是,机器学习的一个变种,称为深度学习,已经成功地完成了困难的模式识别任务,如语音和图像识别、自然语言处理和生物信息学(LeCun et al. 2015)。

7.2 数据科学能解决什么样的问题?

关于大数据和数据科学有太多夸张的说法,人们可能会认为我们已经解决或避免了实证研究中最基本的四个问题:(a)形成概念并提供措施;(b)提供可靠的描述性推论;(c)根据过去的经验作出因果推断;(d)预测未来。事实上,数据科学在解决每一个问题方面都做出了一些贡献,特别是形成概念和预测未来,但它们仍然是基本和困难的问题(Smith 2018)。
人工智能研究人员使用了无监督的机器学习方法,因此计算机学习概念的方式与政治学家历史上使用因子或聚类分析来识别概念的方式大致相同,正如在上述文本研究中所述。关于概念形成的信息量最大的研究之一(Thagard 1992)使用人工智能模型来理解科学中的“概念革命”。机器学习擅长发现模式,因此它有助于概念的形成,但归纳或演绎、现象学或本体论、语用或理论定义概念之间相互作用的基本问题仍然存在。我们确实有一些更好的工具来处理这些问题,例如基于模型的聚类技术(Ahlquist& Breunig 2012),它允许评估类型学中的不确定性,但原子、物种、民主等概念,或者说主题仍然是基于理论和数据之间的复杂相互作用的非常深刻的想法,而不仅仅是模式检测——这就是为什么科学中的概念革命(如量子理论、板块构造、进化、相对论或主题分析)如此重要的原因。
数据科学方法可以帮助我们探索和描述数据,在数据中发现有趣的模式,并有效地显示它们。大数据的使用有助于我们进行描述性推论,因为它经常提供逮捕、登记选民、食品券领取者等的完整列表。此外,互联网样本尤其成问题,因为很难定义它们代表的宇宙以及它们是如何从宇宙中取样的。拥有大量数据并不能确保它们以统计上可靠的方式(例如,随机样本)代表一个有趣且可定义的宇宙。
一些数据科学的倡导者在一定程度上忽视甚至拒绝因果推理的需要,而专注于一个狭隘的统计预测概念。这种倾向有三个根源。第一个想法是,大量数据的可用性自动解决了推理问题,当然,这是错误的。推理要求我们以正确的方式选择案例(例如,随机样本),可用的变量包括实际原因,并允许我们控制正确的事情,以避免虚假的相关性(Lazer2014年,Titiunik 2015年)。第二个来源是机器学习,尤其是深度学习,产生了原本会被埋没的见解。关于深度学习到底是提供洞察力还是仅仅是拟合曲线的问题,这个想法产生了。Cukier& Mayer Schoenberger(2013年)似乎抓住了这两个想法,他们说“建立在因果关系重要性基础上的世界观正受到相关性优势的挑战”和“我们可以从大量信息中学习到当我们只使用少量信息时无法理解的东西。” 第三个也是更为合理的观点是,做出可靠的因果推断是如此困难,以至于我们应该专注于预测。
当然,对于一些实际和技术问题,使用机器或统计学习实现良好的预测是一个令人满意的、也许是最佳的解决方案。例如从Facebook页面上的“喜欢”推断出“五大”人格特征,并从功能磁共振成像数据推断出人们对面孔记忆的准确性。在研究问题中,好的预测方法可以确保匹配方法中可接受的协变量平衡,根据某些特征对文档进行高质量分类,精确插补缺失值,回归不连续设计中曲线的良好拟合,工具变量估计的强大工具,等等。
政治学家需要更加认真地思考如何将来自高度确定的研究设计(如实验或准实验)的因果机制信息与复杂的预测方法和形式化建模结合起来,以提高我们对未来的预测能力。这些预测应该考虑到行为反应、因果影响的异质性,以及当政策从一个小实验中放大时产生的一般均衡效应。这需要以理论模型运动(Granato& Scioli 2004)的经验含义所设想的方式,以及加入向量自回归并关注因果机制和宏观经济模型的经济学家所采取的方式,将模型、因果估计和预测相结合(Christiano 2012)。
数据科学目前为政治科学家提供了许多有用的工具,但他们的主要贡献是提供自动模式识别和更好的预测方法。在我们能够自信地使用模型预测未来之前,还需要做很多工作。

8. 处理与政治学研究有关的伦理问题

关于大数据和数据科学相关道德问题中,一个有争议的问题是算法不公正的可能性(Noble 2018),特别是在刑事司法领域。许多作家(Harcourt 2007、Mbadiwe 2018、Williams et al.2018)担心,用于分配保释金、判决判刑或将囚犯关押在不同级别的拘留所的算法依赖于非因果性的预测,这些预测再现了刻板印象,加剧了种族偏见。其结果将是加强现有形式的歧视。但问题并不容易,而且“在改善公共安全和满足算法公平的普遍理念之间存在着紧张关系”(Corbett Davies2017年)。就另一个领域而言,政治竞选算法试图动员那些能够被带到投票站的选民,但这通常意味着代表性不足的选民变得更加代表性不足,因为动员他们的成本更高(Brady et al.1999)。
Athey(2018)指出,预测算法不仅不公平,而且可能是可操作的。例如,如果有人知道,当人们在某些商店购物时,信用分数会提高,他们可能会在这些商店购物以提高分数。政治学家必须研究这些伦理问题的政治和规范含义,并在设计算法时予以考虑。

9. 结论

大数据和数据科学为研究提供了非凡的新数据来源和方法。它们也在以产生新的政治问题的方式改变世界。它们拓宽了可以进行的定量研究的范围,并通过政治运动、媒体影响、城市运作、恐怖主义和网络战、投票和政治制度设计以及许多其他领域的研究,以新的方式将政治科学家带入社会事件的中心。在这种情况下,政治科学家肯定会做更多更好的研究,但当他们发现自己或他们的工作被用于创造新的政策或社会机制时,他们还必须考虑作为系统设计师角色的智力和实践价值。正如工程师、律师和越来越多的经济学家利用他们对社会的了解来设计社会制度一样,政治学家现在正在开发重新设计政治制度。如何评价这一角色?它提出了哪些伦理和智力问题?在我看来,参与制定新的政策和社会机制将是对哈罗德·拉斯韦尔(Harold Lasswell,1951;Turnbull,2008)倡导的“政策科学”的有益回归,但毫无疑问,政治学家将发现自己承担着新的角色,这需要在专业界进行辩论和讨论。

关于机器学习,1.机器学习之KNN分类算法介绍: Stata和R同步实现(附数据和代码),2.机器学习对经济学研究的影响研究进展综述,3. 回顾与展望经济学研究中的机器学习,4.最新: 运用机器学习和合成控制法研究武汉封城对空气污染和健康的影响! 5.Top, 机器学习是一种应用的计量经济学方法, 不懂将来面临淘汰危险!6.Top前沿: 农业和应用经济学中的机器学习, 其与计量经济学的比较, 不读不懂你就out了!7.前沿: 机器学习在金融和能源经济领域的应用分类总结,8.机器学习方法出现在AER, JPE, QJE等顶刊上了!9.机器学习第一书, 数据挖掘, 推理和预测,10.从线性回归到机器学习, 一张图帮你文献综述,11.11种与机器学习相关的多元变量分析方法汇总,12.机器学习和大数据计量经济学, 你必须阅读一下这篇,13.机器学习与Econometrics的书籍推荐, 值得拥有的经典,14.机器学习在微观计量的应用最新趋势: 大数据和因果推断,15.R语言函数最全总结, 机器学习从这里出发,16.机器学习在微观计量的应用最新趋势: 回归模型,17.机器学习对计量经济学的影响, AEA年会独家报道,18.回归、分类与聚类:三大方向剖解机器学习算法的优缺点(附Python和R实现),19.关于机器学习的领悟与反思,20.机器学习,可异于数理统计,21.前沿: 比特币, 多少罪恶假汝之手? 机器学习测算加密货币资助的非法活动金额! 22.利用机器学习进行实证资产定价, 金融投资的前沿科学技术! 23.全面比较和概述运用机器学习模型进行时间序列预测的方法优劣!24.如何用机器学习在中国股市赚钱呢? 顶刊文章告诉你方法!

下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

2.5年,计量经济圈近1000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 | 官员方言  | 微观数据 | 内部数据计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存