查看原文
其他

回首过去50年,有哪些重要的统计思想?

刘拓臻、欧帅雷 狗熊会 2023-01-18

引言

今天要跟大家分享的文章发表于2021年7月(online),文章介绍了最近50年最重要的统计学思想以及对这些领域的思考和对未来统计学发展的展望。
Gelman A., and Vehtari A. What are the most important statistical ideas of the past 50 years? [J]. Journal of the American Statistical Association, 2021, ahead-of-print, 1-11.
作者回顾了过去半个世纪最重要的统计思想,并将其归类为:反事实因果推断(Counterfactual causal inference),Bootstrap和基于模拟的推断(Bootstrapping and simulation-based inference),过参数化模型和正则化(Overparameterized models and regularization)、贝叶斯多级模型(Bayesian multilevel models)、通用计算算法(Generic computation algorithms)、自适应决策分析(Adaptive decision analysis)、鲁棒推断(Robust inference)和探索性数据分析(Exploratory data analysis)等。
作者还讨论了在这些领域中的关键贡献、与现代计算和大数据(modern computing and big data)的关系以及在未来几十年这些领域可能会如何发展和拓展。这篇文章也是为了激发关于统计学和数据科学研究的思考和讨论。

过去50年最重要的统计思想

1.1 反事实因果推断(Counterfactual causal inference)
统计学、计量经济学、心理测量学等领域都意识到对观察推论的因果解释过于简单以及相关性并不意味着因果关系,并且在一定假设下可以通过设计和分析进行因果识别。尽管各个领域发展的因果推断方法不同,但共同思想都是根据反事实或潜在结果对因果问题进行建模,不再是早期的描述性推断了。而“因果发现”这一领域并不估计特定的处理效应,而是发现变量间的因果关系。早期常用路径分析方法,即用联立方程模型来构建,而最近有影响力的工作则会运用概率图模型。反事实推理和因果结构的思想和方法在统计学和计算机科学以及应用研究和政策分析中都具有一定的影响力。
1.2 Bootstrap和基于模拟的推断(Bootstrapping and simulation-based inference)
过去五十年的统计趋势是用计算代替数学分析,例如bootstrap方法。其思想是将估计视为数据的近似充分统计量,并将bootstrap分布视为数据抽样分布的近似。尽管之前有刀切法和交叉验证法,但bootstrap的通用性和简单的计算实现使其能够应用于无法进行传统解析近似的案例。在分析复杂模型或算法时,从已知数据采样通常用于创建模拟实验,以补充或替代数学理论。
1.3 过参数化模型和正则化(Overparameterized models and regularization)
自20世纪70年代以来,统计的一个主要变化,是使用一些正则化程序来拟合具有大量参数的模型(有时参数比数据多),以获得稳定的估计和良好的预测。这是为了保证非参数或高度参数化方法的灵活性的同时,避免过度拟合问题。早期高度参数化模型包括神经网络、支持向量机等。而后来的模型都有较大的样本量,且参数并不总有直接的解释,而是作为更大的预测系统的一部分。随着统计方法的激增及应用在更大数据集上,科研人员也发展了更多综合的方法,这些方法的初衷是预测而非建模(prediction rather than modeling)。
1.4 贝叶斯多级模型(Bayesian multilevel models)
分层模型具有因组而异的参数,使模型能够适应集群抽样、纵向研究、时间序列横截面数据和其他结构化模型。多级模型可以被视为贝叶斯模型,因为它们包括未知潜在特征或参数的概率分布。贝叶斯模型具有多级结构,具有给定参数的数据和给定超参数的参数分布。与其将多级建模视为特定的统计模型或计算程序,我们更愿意将其视为组合不同信息源的框架。贝叶斯推理无论是作为一种将先验信息与数据相结合的方式,或是作为一种推理和决策的不确定性的方式,都具有价值。
1.5 通用计算算法(Generic computation algorithms)
我们所讨论的统计模型的进步只有在现代计算体系下才有可能实现,这不仅仅意味着我们需要更强大的计算资源,更重要的是设计高效的统计计算算法。过去五十年的创新统计算法是在统计问题的结构背景下激发和发展的,例如EM算法、Gibbs采样、粒子过滤、变分推断、期望传播算法、Metropolis算法、HMC算法、近似贝叶斯计算等等。纵观统计学发展历史,数据分析、统计建模和计算算法的进步是相辅相成的,新的模型激发计算算法的创新,为更复杂的模型和新的统计推断思想打开了大门。
1.6 自适应决策分析(Adaptive decision analysis)
20世纪60年代以前,决策理论通常通过效用最大化、错误率控制和经验Bayes分析作为统计分析的基础。最近几十年来,贝叶斯决策理论、错误发现率(FDR)分析在前人基础上得到发展。人们也可以将决策视为统计的一个应用领域,统计决策分析领域催生出了贝叶斯优化和强化学习等重要方法,这与工业中A/B测试的实验设计和许多工程应用中的在线学习的复兴有关。计算领域的快速发展使得这些高参数量的模型成为可能,这些工作大部分是在统计学之外完成的,采用了非负矩阵分解、非线性降维、生成性对抗网络和自动编码器等基于结构搜索和分解的无监督学习方法。
1.7 鲁棒推断(Robust inference)
鲁棒性的思想是现代统计学的核心,这意味着即使实际情况违反模型假设,我们仍然可以继续使用模型。例如,经济学和其他社会科学的应用研究人员广泛使用鲁棒标准误差。然而,鲁棒性的研究不在于开发特定方法,而是在一个数据生成过程不属于拟合概率模型的范畴下评估统计建模,Bernardo and Smith (1994) 称这种范畴为the M-open world。对鲁棒性的关注与现代统计模型参数密集化有关,使得评估模型时需要考虑其是否能够泛化,统计方法对模型假定的鲁棒性与模型诊断、模型改进的工作流之间存在很强的联系。
1.8 探索性数据分析(Exploratory data analysis)
除了统计理论和统计计算的进步,从一个完全不同的方向来看,还出现了一场有影响力的回归本源的运动,避开概率模型,专注于数据的图形化可视化。探索性数据分析的支持者强调了渐近理论的局限性和开放式探索与交流的相应好处。计算技术的进步使从业者能够快速建立大型复杂模型,在这个过程中,统计图表有助于理解数据、拟合模型和预测。Tukey和Tufte在著作中有力地论证了统计图表的优点,其中许多思想通过在S语言(R语言的前身)进入了统计实践,它也成为了目前许多领域的主要统计软件。

这些思想之间的联系

2.1 思想引领方法和流程(Ideas lead to methods and workflows)
统计理论可以帮助理解统计方法的工作原理,数学逻辑可以激发数据分析的新模型和方法。上述的八种统计思想都不是解决现存问题的方法,而是开启了对统计和数据分析方法的一种新的思维方式。例如反事实框架将因果推断纳入统计或预测框架内,在此框架中可以根据统计模型中未观察到的数据精确定义和表达因果估计。这与调查抽样和缺失数据插补中的思想联系了起来。过参数化模型和正则化基于从数据中估计其参数的能力来形式化和泛化了现有的限制模型大小的做法,这与交叉验证和信息准则有关。探索性数据分析将图形技术和探索发现纳入统计实践的主流,使用这些工具可以更好地理解和选择适合数据的概率模型。
2.2 计算能力的进步(Advances in computing)
元算法和迭代计算是统计学的重要发展,原因其一是组合来自多个来源的信息或通过组合弱学习器创建强学习器的一般思想可以广泛应用,其二是自适应算法在在线学习中发挥了很好的作用,最终可以被视为代表了一种数据和计算分散的现代统计观点。随着计算速度和范围的提升,统计学家不再局限于具有解析解的简单模型和简单的封闭形式估计(如最小二乘法)。而现在的统计模型更将利用到现代计算能力。例如bootstrap、超参数化模型和机器学习元分析的想法极大利用了计算能力,这在前计算机时代是难以想象的。例如只有在引入高效的GPU和云计算之后,神经网络的普及程度才大幅提高;而探索性数据分析始于简单的纸笔图形,但也随着计算机图形学的发展而完全改变。
2.3 大数据(Big data)
随着现代计算的发展,还激发产生了大数据的应用和发展,例如基因阵列、流式图像和文本数据,以及自动驾驶汽车等在线控制问题。本文讨论的所有新统计方法也有着一个共同特点,它们有助于利用海量的数据,例如,自助法(Bootstrap)可用于复杂统计建模的偏差校正和方差估计,正则化(Regularization)允许用户在模型中使用更多参数,而无需关注过拟合问题。
2.4 这些思想之间的联系(Connections and interactions among these ideas)
上述提到的一些属于不同领域的统计方法,在本质上也可能存在一定的联系。例如,在鲁棒性方面,正则化通过对模型参数增加惩罚项来起到防止过拟合的效果,稳健回归可视为多模型的混合分布,并且可以使用贝叶斯推断来拟合这些模型。又例如,基于因果推断的方法允许对人群中的每一单位进行不同的对照实验,自然适用于元分析方法(meta-analytic),使得我们可以在实验中使用多水平回归建模,并利用自助法(Bootstrap)将多水平经验贝叶斯作为一种非参数方法进行统计推断。
2.5 与统计领域其他新进展的联系(Links to other new and useful developments in statistics)
上述提到的统计思想被应用到了统计学的各个领域,如风险回归、广义线性模型、结构方程模型、高斯过程、深度学习,以及各种结构化数据模型,如时间序列、空间过程、网络数据。这些模型及其相关的应用成功可以看作是本文第一部分中提出的思想的演化,也可以看作是推动这些思想发展的因素。例如,具有许多解释变量的广义线性模型促进正则化方法的发展,高斯过程模型促进近似计算的进步和向预测评估的转变。或作为不同统计思想之间的桥梁,例如,连接图模型和因果推断的结构方程模型,或连接贝叶斯多层次模型和通用计算算法的深度学习。统计不可能将模型、方法、应用程序或原理完全分开去研究。

未来几十年的重要统计思想会是什么?

3.1 回顾(Looking backward)
回顾过去诞生的重要统计思想,在1920-1970年间,主要包括抽样理论、试验设计等,而在1870-1920年间,则是均值回归等。而对于最近50年的重要思想,本文并非通过引用数量或其他定量数据来对论文进行排名,我们更关心的是影响统计实践模型发展的思想,我们更关心这些最有影响力的统计思想是如何联系起来去影响统计学和科学学习的实践。
3.2 展望(Looking forward)
我们不能预测未来所有的科学发展,但是我们可以推断现有的发展趋势。例如现有方法的组合将继续得到发展(利用正则化估计的因果推断、过参数化模型的探索性分析等)、计算能力的进步(计算能力的提升彻底改变了许多应用领域,并且我们似乎还未达到算法效率的理论极限)、模型理解或者可解释机器学习的发展等。统计学家面临的最大挑战和机遇是什么?三个相关趋势是大数据、杂乱数据以及复杂问题。
但这并不意味随着样本量的增加,统计推理将变得越来越不重要且仅限于“小数据”的应用,因为我们总是需要考虑到统计问题中的不确定性和变化。这表明未来50年一些最重要的统计研究将共同面临高维、非参数建模以及因果推断和决策等问题。
另外是统计领域之外的统计思想的发展,统计学的发展大部分都是与外部思想的结合,我们的优势是思想与应用相联系,并且我们应该继续对来自其他领域的想法持开放态度。
最后,随着统计方法变得更加先进,我们仍需要继续理解数据、模型和理论之间的联系。

校对:小辰、张妍

- END -

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存