中国数字经济规模预测模型构建

Original 统计与决策湖北长江传媒统计与决策学术传播 2023-08-28

原载《统计与决策》2022年第10期

本刊推介

RECOMMENDATIONS

摘要：数字经济规模是衡量数字经济发展状况的量化指标，通过准确预测可以帮助政府科学制定数字经济相关政策，正确规划数字经济发展战略。文章综合运用了Pearson相关分析、主成分分析、多元线性回归以及平衡优化器等多种方法，构建了中国数字经济规模预测模型，为了检验模型的准确性，实验对比了所提模型与自回归滑动平均模型、多元线性回归模型等6个常用模型的预测效果，结果显示，本文提出的模型在RMSE、R2以及MAPE上均表现最好。

关键词：数字经济规模预测模型；Pearson相关分析；主成分分析；多元线性回归模型；平衡优化器

中图分类号：F201

文献标识码：A

0 引言

“数字经济”概念源于 20 世纪 90 年代美国经济学家唐·塔普斯科特出版的《数字经济：网络智能时代的希望和危险》，他在书中首次提出了“数字经济”这一概念^[1]。随后，国内外学者逐渐开始关注“数字经济”问题，并进行了一系列探讨，形成了较为丰富的研究成果。这些研究围绕三个方面展开：一是数字经济的概念与内涵^[2—4]；二是随着数字技术的飞速发展，数字经济对各国经济的贡献占比越来越高，学者们试图通过研究数字经济发展模式来为本国数字经济发展指明方向^[5，6]；三是对数字经济理论方面的研究^[7，8]。通过对上述国内外相关文献的梳理可以发现，目前关于数字经济的研究主要集中在内涵研究、经验总结、发展策略设计以及内在逻辑分析等定性研究方面，而对数字经济进行量化研究较少，尤其是在规模预测方面。本文综合运用了Pearson相关分析、主成分分析、多元线性回归以及平衡优化器等多个方法，构建了一个中国数字经济规模预测模型，为了验证预测模型的有效性，本文收集整理了2013—2019 年中国数字经济的相关数据，通过实验对比了本文提出的模型与其他几种常用模型的预测效果，结果显示本文模型具有更好的预测精度。

1 方法介绍

1.1 单因素分析

单因素分析就是对自变量（数字经济影响因素）和因变量（数字经济规模）进行Pearson相关分析，并根据其相关性系数来判断自变量和因变量之间的关联强度，从而确定在数字经济规模预测模型中是否需要使用该自变量。

假设有 X（自变量）、Y（因变量）两个变量，则变量X、Y 之间的Pearson相关系数可通过式（1）计算得到[9]：

其中，E 表示数学期望，cov 表示协方差，σ_X 、σ_Y分别表示 X、Y 的标准差。相关性强弱与相关系数的绝对值有关，|ρ_X，Y | 越接近 1，相关性就越强；反之，|ρ_X，Y | 越接近0，相关性就越弱。

1.2 主成分分析

主成分分析是一种常见的数据降维方法，使用它的目的就是在“信息量”损失较少的情况下，将高维数据转换为低维数据，降低预测模型的复杂度。主成分分析的本质是将原始自变量通过线性组合生成新的自变量，这些新生成的变量就是成分。根据这些成分的方差从大到小进行排序，预测模型可依据排序选取其中 n 个主成分作为预测模型的输入。主成分分析基本步骤如下[10]：

（1）数据标准化处理。数据标准化常用的方法有两种：“最小-最大标准化”和“Z-score标准化”。本文采用的是“Z-score标准化”方法，其计算公式如下：

（2）根据标准化矩阵求出自变量的相关系数矩阵（或协方差矩阵）。假设有样本 x、y ，其协方差的计算公式如下：

其中，cov(x，y) > 0 表示 x 和 y 正相关，cov(x，y) < 0表示 x 和 y 负相关，cov(x，y) = 0 表示不相关，即 x 和 y相互独立。

（3）计算相关系数矩阵的特征值和特征向量。

（4）对特征值进行降序排序，保留最大的特征向量，并将原自变量数据转换到由特征向量构建的新空间中。

1.3 多元线性回归

在实际研究中，因变量通常都会受到多个自变量的影响，如果能够找到这些自变量与因变量之间存在的某种线性关系，就可构建多元线性回归方程进行预测。用多元线性回归模型来描述变量 y 和 x 之间的线性关系：

y = β₀ + β₁x₁ + … + β_k x_k + ε （2）

其中，x₁，…，x_k 是自变量，y 是因变量，β₀，…，β_k 是回归系数，ε 是随机误差项，k 为自变量个数。当 k = 1时，为一元线性回归模型；当 k≥2时，为多元线性回归模型。

观察式（2）可以发现，多元线性回归方程建立的关键在于确定 β₀、β₁、…、β_n 以及 ε 的值，在计算这些回归系数和随机误差项时多采用最小二乘法或最大似然估计法。这两种方法在计算时涉及大量矩阵的计算，不仅计算方法复杂、计算量大，而且不易编程实现。为了简化β₀、β₁、…、β_n 以及 ε 的计算，提高多元线性回归方程数据拟合精度，本文使用平衡优化器来计算这些待估参数。

1.4 平衡优化器

平衡优化器（Equilibrium Optimizer，EO）是一种源于物理领域的、以动态控制体积质量平衡方法为基础的启发式优化算法^[11]。EO 算法的思想核心是质量平衡方程，该方程中展示了控制容积内质量的进入、离开以及反应生成过程^[12]。具体形式如下：

其中，t₀ 和 C₀ 表示积分初始时间和浓度。

平衡优化器在迭代时以式（6）为基础。其中的 C 表示当前迭代中产生的解，而 C₀ 表示前一轮迭代得到的解， C_eq 表示到目前为止找到的最优解。与粒子群优化算法、果蝇优化算法、蚁群优化算法类似，式（6）为解的更新公式，它既可以对当前最优解附近开展局部搜索，也可以在寻优空间内开展全局随机搜索。平衡优化器算法的具体操作过程如下：

（1）初始化。具体初始化方法为：

1.5 数字经济预测方法设计

本文综合运用之前介绍的几种方法构建了一个中国数字经济规模预测模型，模型处理数据的流程如图 1 所示。

在数字经济规模预测模型数据处理流程中有一个重要步骤，就是计算每个解（个体）的适应度，而计算适应度则需要设计一个具有针对性的适应度函数。预测模型中EO算法的主要目的是优化多元线性回归方程的参数，使回归方程得到的拟合值与实际值的误差达到目标。本文设计的适应度函数如下：

2 模型应用及比较

2.1 数据来源

为了避免因为缺少某些自变量而导致预测结果有偏差，本文在建立模型时尽量将所有可能的因素都纳入预测模型中。通过对相关文献梳理和分析之后初步选择了以下因素：中国网民数量（x₁），网站数量（x₂），网页数量（x₃），搜索引擎规模（x₄），网络广告规模（x₅），网络教育规模（x₆），网络出行规模（x₇），网络游戏规模（x₈），网络视频规模（x₉），电子商务交易额（x₁₀），电子政务规模（x₁₁），大数据规模（x₁₂），人工智能规模（x₁₃），云计算规模（x₁₄），信息传输、软件、信息技术服务业规模（x₁₅）。

数字经济在国内的相关统计数据较少，本文收集整理了2013—2019年共7组数据，这些数据分别来自《中国统计年鉴》《中国互联网发展报告》《中国新经济白皮书》。由于本文建立模型是为了用本年度的各项影响因素数据预测下一年度的数字经济规模，因此先要对因变量数据与自变量进行错位排列，经排列之后最终得到了6组数据。

2.2 数据处理

2.2.1 单因素分析结果

为了减少不显著因素对回归结果的影响，先对每个自变量和因变量进行Pearson分析来确定自变量与因变量之间的关联强度，进而确定将哪些自变量纳入预测模型。本文采用EViews软件对各变量的数据进行相关性分析，结果如表1和表2所示。由表1可知，选取的所有自变量均与数字经济规模具有高度相关性。由表2可知，自变量之间也存在极强的相关性，说明解释变量之间具有多重共线性。因此，需要对数据进行降维处理。

2.2.2 主成分分析结果

对自变量进行相关性分析时发现，在本文选取的变量中，不仅因变量与自变量之间存在较强的相关性，而且多个自变量之间也存在着极强的相关性。为了减少相互之间存在相关性的自变量的数量，本文采用主成分分析法对数据进行降维，计算结果如表3所示。根据总方差解释可得，第一主成分的特征根值为14.492，解释了总变量的96.614%，第二主成分特征根值为0.363，解释了总变量的2.420%，第三主成分特征根值为0.113，从第六主成分开始，其特征根值已经小于1.0E-13，贡献率过小。因此本文从15个因素中提取出5个主成分，作为多元线性回归模型的自变量。

2.2.3 数字经济规模多元线性预测模型

为了预测数字经济规模的未来走势，本文设计了多元线性预测模型：

为了检验预测模型的效果，将上文分析得到的主成分数据代入预测模型，并对预测值进行反归一化，进而得到最终的预测结果。为了直观展示模型的预测效果，本文通过绘图将预测值与实际值进行对比，结果如图2所示。可以看出，预测值除了在2014—2016年的误差稍明显外，在其余年份均能够紧随实际值的走势，总体拟合情况良好。

2.2.4 预测模型对比分析

为了进一步检验模型的预测效果，本文将提出的预测模型与两种线性预测模型和四种机器学习预测模型进行比较。两种线性预测模型分别是自回归滑动平均模型（ARMA）和多元线性回归模型（MLR），MLR 模型使用Least Quare Method进行参数估计。四种机器学习预测模型分别是BP神经网络模型（BPNN）、径向基神经网络模型（RBFNN）、支持向量机回归模型（SVR）以及长短期记忆网络模型（LSTM）。由于这六个模型在数据适用性上存在差异，因此各模型使用的数据有所区别。其中，ARMA模型使用的是单一中国数字经济规模数据；MLR 模型使用的是主成分分析结果数据；BPNN 模型、RBFNN 模型、LSTM模型均使用的是原始数据，即未经主成分分析的数据；SVR模型原定采用原始数据，但经试验后发现，原始数据训练效果较差，因此改为使用主成分分析结果数据。各模型预测结果如图 3 所示。可以看出，除 SVR 模型、BPNN 模型以及 RBFNN 模型在 2019 年的预测结果与实际值误差明显外，其他模型的预测结果走势与实际值差异较小。

为了进一步比较模型预测的准确性，表4列出了各个模型在RMSE、R²和MAPE这三个指标上的计算结果。

从RMSE指标来看，SVR的误差最大，其RMSE值达到2.57万亿元，BPNN排名倒数第二，相较于SVR，BPNN提升了约54%。表现较好的三个模型分别是本文模型（排名第一）、MLR和ARMA。

从R²指标来看，排名第一的依然是本文模型，其值达到0.99以上，说明本文模型预测结果与实际值走势几乎完全一致。MLR的R2排在第二名，也达到了0.99以上，第三名是ARMA。排名最后的依然是SVR，其R²值约为倒数第二名BPNN的50%。

从MAPE指标来看，排在前两名的模型与之前两个指标完全相同，第三名的情况有所变化，由 RBFNN 替代了ARMA的位置。MAPE指标中排名最差的依然是SVR，其值约为最优模型MAPE值的5.75倍。

综合以上三个指标的结果可以得出，本文模型明显优于ARMA、MLR、BPNN、RBFNN、SVR以及LSTM模型。

3 结论

（1）通过实证分析发现，当数据样本较少，且数据呈现明显规律时，简单的数学模型预测效果大概率优于复杂的机器学习模型。本文共实验了七种模型，线性模型有ARMA和MLR。本文模型本质上也是MLR，只是在参数寻优时使用了EO算法，其余四个模型均为机器学习模型。从实验结果可以发现，线性模型的预测效果在三个指标中明显优于机器学习模型，在RMSE和R²两个指标上，排名前三位的均为线性模型。

（2）主成分分析不仅能够减少相互之间存在相关性的自变量数量，达到降维目的，而且能在维度较高且样本数量较少时，使构建线性回归方程成为可能。本文的初始影响因子为15个，而可收集到的数据只有6组，如果直接在初始影响因子的基础上建立线性回归方程，这根本无法做到，原因是样本数量远远小于因子数量。为此，本文先使用主成分分析法将初始的15个因子压缩为5个主成分，再使用这些数据样本建立线性回归方程，进而达到了建立预测模型进行预测的目的。

参考文献：

[1]Tapscott D. The Digital Economy: Promise and Peril in the Age of Networked Intelligence [M].New York: McGrawHill,1996.

[2]Illing G. Understanding the Digital Economy: Facts and Theory Introduction [J].CESifo Economic Studies,2005,(51).

[3]Bagchi-Sen S. The Digital Economy: Business Organization, Production Processes and Regional Developments [J].Economic Geography,2010,(1).

[4]李长江.关于数字经济内涵的初步探讨[J].电子政务,2017,(9).

[5]Carter D. Urban Regeneration, Digital Development Strategies and the Knowledge Economy: Manchester Case Study [J].Journal of the Knowledge Economy,2012,(2).

[6]刘淑春.中国数字经济高质量发展的靶向路径与政策供给[J].经济学家,2019,(6).

[7]易宪容,陈颖颖,位玉双.数字经济中的几个重大理论问题研究——基于现代经济学的一般性分析[J].经济学家,2019,(7).

[8]荆文君,孙宝文.数字经济促进经济高质量发展:一个理论分析框架[J].经济学家,2019,(2).

[9]曹志鹏,袁志玉.基于相关分析的OTC金融衍生品的风险识别[J].统计与决策,2018,(19).

[10]于卓熙,秦璐,赵志文,等.基于主成分分析与广义回归神经网络的股票价格预测[J].统计与决策,2018,(18).

[11]Faramarzi A, Heidarinejad M, Stephens B, et al. Equilibrium Optimizer: A Novel Optimization Algorithm [J].Knowledge-based Systems,2019,(191).

[12]杨蕾,李胜男,黄伟,等.基于平衡优化器的含高比例风光新能源电网无功优化[J].电力系统及其自动化学报,2021,33(4).

作者简介

李栋（1981—），男，陕西咸阳人，博士，副教授，研究方向：机器学习、智能计算。

END

统计与决策

CSSCI来源期刊、中文核心期刊

投稿

请登陆本刊投稿平台http://www.tjyjc.com

订阅&合作

订阅杂志：027-87819376

-----

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

96岁的朱总理

“上海王”柯庆施之死的真相

中国数字经济规模预测模型构建

您可能也对以下帖子感兴趣

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

96岁的朱总理

“上海王”柯庆施之死的真相

生成图片，分享到微信朋友圈

中国数字经济规模预测模型构建

您可能也对以下帖子感兴趣