再抽样和刀切法:计算资源有限条件下大规模数据集分析的一种方法
伍书缘,上海财经大学统计与管理学院新聘研究员。主要研究方向为再抽样方法、统计优化算法、大规模数据统计建模等。目前已在Journal of Business and Economic Statistics, Statistica Sinica, Journal of the Royal Statistical Society. Series C等国际权威期刊上发表多篇论文。
今天要跟大家分享Shuyuan Wu, Xuening Zhu Hansheng Wang于2023年发表在Statistica Sinica上的一篇文章:“Subsampling and Jackknifing: A Practically Convenient Solution for Large Data Analysis with Limited Computational Resources”。全文信息详见文章链接:https://www3.stat.sinica.edu.tw/statistica/J33N3/J33N312/J33N312.html或arxiv链接:https://arxiv.org/abs/2304.06231。
1引言
现代统计分析常常需要处理规模庞大的数据集。与此同时,许多研究者只拥有非常有限的计算资源,他们无法构建庞大的分布式计算系统,例如Hadoop或Spark分布式计算系统,只能依靠有限的计算资源(例如个人笔记本电脑)进行数据分析。因此,如何在这种情况下进行可行的大规模数据分析就是一个至关重要的问题。
为了解决这个问题,多种再抽样方法被提出 (Drineas et al., 2011; Ma et al., 2015, 2020; Mahoney, 2011; Wang, 2019; Wang et al., 2018; Yu et al., 2022)。已有文献的核心思想是设计一种新颖的抽样策略,使得估计量在较小的样本量下能够达到较优的统计效率。例如,Ma et al. (2015)提出根据杠杆得分来选择最优样本的方法;而Wang et al. (2018) 针对逻辑回归问题,提出一种-最优准则来挑选样本;Yu et al. (2022)提出一种最优的泊松抽样方法;Ma et al. (2020) 针针对线性回归,研究了再抽样估计量的渐近分布。
虽然这些再抽样方法都很有效,但这些方法存在两个主要缺点。首先,这些方法不具有普适性,针对不同的分析目标,需要精心设计对应的特定抽样策略。其次,这些方法的计算复杂度较高,在具体的实施过程中会消耗大量时间。对于绝大多数方法,抽样成本至少为,这里代表全样本量。
因此,本文提出一种新颖的再抽样方法以解决已有文献存在的问题。我们所提出的方法有如下的独特特点:首先,方法非常简单,因此能够在几乎所有计算设备上轻易实现。其次,本文使用了刀切法,和其他方法相比,估计量得到了明显的修偏。因此,只要抽样次数足够,我们提出的方法能够在更小的样本量下,达到和其他方法相同的统计效率。除此以外,我们所提出的方法支持全自动且一致的统计推断。实际上,对于大多数实际应用而言,有效的统计推断(例如,置信区间)是不可避免的。然而,当估计量的渐近分布较为复杂时,其解析形式将难以获得。在这里,全自动代表各式各样的统计的标准误差可以被自动计算,而无需参考其渐近分布的解析形式,而一致代表方法可以很容易地应用于许多不同的统计量。
具体而言,本文提出一种基于刀切法的再抽样方法,首先实施多次简单有放回随机抽样,随后,对于每一个再抽样子集,针对目标参数,计算一个刀切法修偏估计量,并将所有子集的刀切法估计量取平均,这形成了最终的估计。我们从理论上证明,估计量具有相合性和渐近正态性。在非常温和的假设下,估计量的统计效率能够渐近与全样本估计量相同。这个性质在子样本量很小的时候仍然成立。这样良好的性质主要归功于刀切法。在得到刀切法修偏估计的同时,还可以获得该估计的标准误差的刀切估计量,由此实现了自动统计推断。为了实际应用的可行性,我们进一步提出了一种基于图形处理器(graphics processing unit,GPU)的算法。经实验表明,该方法非常高效。大量的数值研究被实施以验证方法在有限样本下的表现。
需要指出的是,本文所提出的方法也有明显的局限性:与采用分布式方法计算的全样本均值估计 (Suresh et al., 2017)相比,其计算效率较低。然而,所提出的方法仍然具有独特的价值,因为在以下两种重要情况下,它可能是一种更方便可行的选择。第一种情况是全样本量非常大时,在这种情况下,需要计算所有样本的方法(例如,基于分布式的全样本均值估计)的计算复杂度高,时间成本昂贵。这个问题在没有强大的分布式计算系统作为支撑时尤其明显。然而,对于大多数实际数据分析而言,其对估计精度的实际需求是有限的,但时间支出预算是极其宝贵的。因此,在某种程度上牺牲统计效率以换取更少的时间成本对研究者而言可能更具吸引力。第二种情况是需要自动统计推断时。在这种情况下,如果使用基于分布式的全样本均值估计,则必须显示计算出估计量渐近分布的解析形式。此时最佳方案是存在一种全自动且一致的统计推断方法。而我们所提出的方法在这种情况下同样具有独特的优势。
2方法论
2.1模型和设定
首先给出符号说明和模型介绍。令为第个观测到的独立随机变量,其中且代表全样本量。令为全样本的指标集。令为的某个特定矩。简单起见,这里假设。本文的理论能够被容易地推广到多维矩以及估计等更一般的情形。令为目标参数,其中是一个已知的非线性函数,这里假设充分光滑。为估计,可采用一个简单的矩估计量 = ,其中。
方面起见,定义为全样本(whole sample,WS)估计量,因此代表该估计是基于全样本计算得出的。WS估计量的优势是它具有最优的统计效率。然而,当过大时,的计算较为困难,尤其是在研究者的计算资源非常有限的情况下。因此,亟需提出一种计算可行的方法。在这方面,大量卓越且可行的再抽样方法相继提出(Drineas et al., 2011; Ma et al., 2015, 2020; Mahoney, 2011; Wang, 2019; Wang et al., 2018; Yu et al., 2022)。
令为子样本量,通常远小于。令为抽取子样本的次数。记 为第个抽取到的子样本集,其中 (对任意 , )通过简单有放回随机抽样,独立地从中抽取。换言之,给定的条件下,独立同分布,选中概率为 (对任意 )。因此,基于的矩估计量能够被如下计算出:,其中。将所有的再抽样估计量取平均,我们就能得到一个更精确的估计量:。称 为再抽样单轮(subsample one-shot,SOS)估计。SOS估计量和分布式计算文献中提及的单轮(one-shot)估计 (Mcdonald et al., 2009; Zhang et al., 2013; Zinkevich et al., 2011)具有类似的思想。但二者最核心的区别是,分布式文献中的标准单轮估计涉及的子样本之间互不重叠。相反,在所提出的再抽样方法中,由于采用有放回抽样,不同子样本之间允许部分重叠。
2.2SOS估计的方差以及偏差分析
为阐述提出方法的动机,我们首先给出关于SOS估计量偏差以及方差的非正式分析。正式的理论结果将于2.4节中给出。具体而言,通过泰勒展式,可以对作如下近似展开
其中和分别是在处的一阶导和二阶导。随后可得如下式子由式(1) 可得,随后,我们研究
当使用分布式系统时 (Huang and Huo, 2019; Jordan et al., 2019),假设
2.3刀切法估计量
这一节的目标有两个。首先我们提出估计
首先,给出能够修正SOS估计量偏差的JDS估计方法。为此,对第
除了能够进行偏差修正,刀切法还能够用于得到标准误估计,也就是JDS估计量
2.4理论结果
在这一小节中,我们将研究并给出文中提到的三种估计量(SOS,JDS和JSE估计量)。为此,首先给出如下的标准技术性假设。
(C1)(亚高斯分布假设) 假设
(C2)(光滑性假设) 定义
(C3)(再抽样条件) 随着
条件(C1)是关于协变量的经典假设 (Jordan et al., 2019; Zhu et al., 2022)。。条件(C2) 要求
接下来考虑在有限矩不存在的情况下,如何分析各再抽样估计量的渐近行为。受Shao (2003)的渐近理论启发,这里我们采用一种泰勒展开方法来处理有限矩不存在的情况。具体而言,以
Theorem 1.假设条件(C1)--(C3)成立,则有如下式子:
根据定理1可得如下结论。首先,高阶项
Theorem 2.假设条件(C1)--(C3)成立,则有
Theorem 3.定义
最后,为了进行有效的渐近推断,需要研究JDS估计量
Theorem 4.假设条件(C1)--(C3)成立,则JDS估计量
3数值模拟及实际数据分析
3.1使用有放回抽样的原因
这一小节旨在设计一个基于GPU的算法,用于处理存放在硬盘上的数据,以实现前文介绍的再抽样方法。为此,首先需要明确硬盘上的抽样机制。具体而言,本小节将通过以下步骤详细说明不同抽样机制(即有放回和不放回简单随机抽样)之间的计算效率差异。
(1)首先,假设硬盘上有
(2)其次,为了进行随机抽样,可以在
(3)第三步将介绍如何进行无放回随机抽样。为此,从
(4)假设需要生成
(5)最后,如果进行有放回随机抽样,则可以\textbf{避免}:(a)不断更新
综上所述,与有放回抽样相比,大规模数据下的无放回抽样在实际操作上实现起来更加困难。因此,对于硬盘上的大规模数据集,更适合使用有放回的抽样方法。在这种情况下,整个过程不需要进行记录和比较操作。接下来,为了进一步说明这一点,我们开展了一项数值实验,比较了硬盘上有放回和无放回抽样的效果。为此,首先从标准二元正态分布中独立地生成
从表1中可得出以下结论。首先,两种抽样策略的均方误差(MSE)值是可比的,且随着
3.2基于GPU的算法实现
接下来本小节提出一个基于GPU的快速计算算法。需要注意的是,前文所提出的方法在理论上和实际上都非常有用。从理论上而言,它保证了子样本的样本量较小时,所得到的的估计量的统计效率。从实际应用上讲,它是简单、自动且灵活的。然而,该方法的计算成本很高,因为它不仅需要进行
一个标准的GPU系统应该具有两个独特的特征。为充分利用GPU的计算性能,需要将它们都纳入到考虑中。
图 1: GPU 系统中的两类通讯成本GPU系统的第一个独特的特征是它存在两类通讯成本(communication cost)。见图1。第一类通讯成本是将硬盘(hard disk,HD)上的数据传输到CPU内存(CPU memory,CM)上的时间消耗。这个时间消耗是任意计算系统都存在的标准通讯成本。在我们所提出的算法中,这一类成本主要是由于再抽样而产生的。第二类通讯成本代表将CM上的数据传到GPU内存(GPU memory ,GM)上的时间成本。将数据从CM传输到GM的主要目的是为了准备数据,以便能够并行计算刀切法。因此,这部分通讯成本主要是由于刀切法造成的。需要注意的是,当前的GPU架构不允许GPU直接从HD中读取数据。因此,一个好的算法应同时尽量减少这两种类型的通讯成本,从而避免数据在HD、CM和GM之间进行多次通讯。
图 2: 基于 GPU 的算法流程图GPU系统的第二个独特特性是,它非常适合进行张量类型的并行计算。通过这种类型的计算,GPU系统的并行计算能力可得到充分利用。这表明,刀切法计算应被制定成一个张量类型的计算问题。具体而言,在这里,我们提出了一个三步算法来实现所提出的再抽样刀切法。该过程如图2所示。首先,从硬盘中获取第
3.3通讯成本和计算成本
为评估所提出方法的有限样本下表现,本节将给出丰富的数值模拟。首先,生成
该参数是关于
本小节关注时间成本的表现。具体而言,本节分析算法的通讯成本和计算成本。为此,进一步将通讯成本分为两部分。第一部分是从HD到CM的数据传输所需的时间成本。第二部分是从CM到GM所需的时间成本。接下来,将
图3中给出了详细结果。从图3可以看出,所有类型的时间成本都随子样本数量
接下来,我们展示GPU系统的计算优势。为此,首先定义
3.4JSE估计量的模拟结果
本小节主要关注JSE估计量
从图5的左图中可以看出,SOS 和 JDS 估计量的
3.5JDS估计量的模拟结果
这一小节,我们评估了JDS估计量
从表2 中可得,SOS和JDS两个估计量在不同的
3.6实际数据分析
本小节中,我们研究一个真实数据集:美国航空公司数据集。该数据集可在美国统计协会(ASA)的官方网站上获取。航空公司数据集包含大约1.2亿条记录,占据硬盘大约12GB的空间。每个记录包含了美国国内从1987年10月到2008年4月所有商业航班的详细信息。数据集包含13个连续变量和16个分类变量。为方便起见,我们聚焦于13个连续变量。但部分连续变量的记录缺失率较高,因此仅考虑其中缺失率小于10%的变量,具体包括:实际飞行时间(
接下来对原始数据进行预处理。具体而言,首先对每个变量进行符号对数变换:
从表4中,可以得到如下结论。首先,注意到样本均值是均值的无偏估计。因此,SOS和JDS估计量都是无偏的。实际上,在这种情况下,这两个估计量完全相同。因此,它们在实验中表现出相近的模拟结果,对于所有五个变量,ECP值都非常接近95%。其次,对于其他两个参数(即标准差和峰度),样本估计量不再是无偏的。因此,SOS和JDS估计量不再相同。正如预期,两个估计量的标准误差(SE)相似。然而,它们的偏差结果显著不同。所有情况下,SOS估计量的偏差均显著大于JDS估计量的偏差。因此,SOS估计量的ECP值显著偏离其名义水平95%。相比之下,JDS估计量的ECP值仍非常接近95%。例如,考虑
图 3: 两类通讯成本的随机模拟结果。不同 (n, K) 组合的时间成本取对数后呈现在图中,其中
K =两类通讯成本的随机模拟结果]{两类通讯成本的随机模拟结果。不同
图 4: GPU系统和CPU系统的计算效率比较]{ GPU系统和CPU系统的计算效率比较。其中,AR值以log尺度汇报,抽取的子样本数固定为
图 5: JDS(浅箱子)和SOS(深箱子)估计量RAE值的箱线图。左图对应
表 2: SOS估计量
表 3: 使用符号对数变换后,基于整个航空数据集的5个连续变量的描述性统计。包括样本均值 (Mean)、样本标准差 (SD) 和样本峰度 (Kurt) 。
图 6: 在硬盘上实现无放回抽样的流程图表 4: 航空数据集的模拟结果。模拟重复
参考文献
Cameron, A. C. and Trivedi, P. K. (2005), Microeconometrics: methods and applications, Cambridge university press.
Drineas, P., Mahoney, M. W., Muthukrishnan, S., and Sarlós, T. (2011), “Faster least squares approximation,” Numerische mathematik, 117, 219–249.
Efron, B. and Stein, C. (1981), “The jackknife estimate of variance,” The Annals of Statistics, 586–596.
Huang, C. and Huo, X. (2019), “A distributed one-step estimator,” Mathematical Programming, 174, 41–76.
Jordan, M. I., Lee, J. D., and Yang, Y. (2019), “Communication-efficient distributed statistical inference,” Journal of the American Statistical Association, 114, 668–681.
Lehmann, E. L. and Casella, G. (2006), Theory of point estimation, Springer Science & Business Media.
Ma, P., Mahoney, M. W., and Yu, B. (2015), “A statistical perspective on algorithmic leveraging,” The Journal of Machine Learning Research, 16, 861–911.
Ma, P., Zhang, X., Xing, X., Ma, J., and Mahoney, M. (2020), “Asymptotic analysis of sampling estimators for randomized numerical linear algebra algorithms,” in International Conference on Artificial Intelligence and Statistics, PMLR, pp. 1026–1035.
Mahoney, M. W. (2011), “Randomized algorithms for matrices and data,” Foundations and Trends® in Machine Learning, 3, 123–224.
Mcdonald, R., Mohri, M., Silberman, N., Walker, D., and Mann, G. S. (2009), “Efficient largescale distributed training of conditional maximum entropy models,” in Advances in neural information processing systems, pp. 1231–1239.
Shao, J. (2003), Mathematical statistics, Springer Science & Business Media.
Suresh, A. T., Felix, X. Y., Kumar, S., and McMahan, H. B. (2017), “Distributed mean estimation with limited communication,” in International Conference on Machine Learning, PMLR, pp. 3329–3337.
Wang, F., Zhu, Y., Huang, D., Qi, H., and Wang, H. (2021), “Distributed one-step upgraded estimation for non-uniformly and non-randomly distributed data,” Computational Statistics & Data Analysis, 162, 107265.
Wang, H. (2019), “More efficient estimation for logistic regression with optimal subsamples,” Journal of Machine Learning Research, 20, 1–59.
Wang, H., Zhu, R., and Ma, P. (2018), “Optimal subsampling for large sample logistic regression,” Journal of the American Statistical Association, 113, 829–844.
Wu, C.-F. J. (1986), “Jackknife, bootstrap and other resampling methods in regression analysis,” the Annals of Statistics, 14, 1261–1295.
Yu, J., Wang, H., Ai, M., and Zhang, H. (2022), “Optimal distributed subsampling for maximum quasi-likelihood estimators with massive data,” Journal of the American Statistical Association, 117, 265–276.
Zhang, Y., Duchi, J. C., and Wainwright, M. J. (2013), “Communication-efficient algorithms for statistical optimization,” The Journal of Machine Learning Research, 14, 3321–3363.
Zhu, X., Pan, R., Wu, S., and Wang, H. (2022), “Feature screening for massive data analysis by subsampling,” Journal of Business & Economic Statistics, 40, 1892–1903.
Zinkevich, M., Weimer, M., Smola, A. J., and Li, L. (2011), “Parallelized Stochastic Gradient Descent,” in Advances in Neural Information Processing Systems 23: Conference on Neural Information Processing Systems A Meeting Held December.