查看原文
其他

基于百度指数的生态文明关注度时空分析

地理信息世界 慧天地 2021-09-20

点击图片上方蓝色字体“慧天地”即可订阅

文章转载自微信公众号地理信息世界GeomaticsWorld,版权归原作者及刊载媒体所有。



(点击图片即可查看详细信息)

作 者 信 息



李 霖1,2,陈 选1,苏世亮1,2

( 1. 武汉大学 资源与环境科学学院,湖北 武汉 430079;2. 武汉大学 资环-智慧感知与智能计算研究所,湖北 武汉 430079 )


【摘要】网络搜索数据作为一种地理标记信息源被广泛用于揭示社会经济和国家城市研究领域的时空模式。在生态文明概念逐渐深入人心的社会背景下,公众对其关注程度随时间变化并呈现出空间异质性,研究这种时空动态可为中国生态文明建设提供参考。采用百度指数数据,运用向量自回归模型(VAR),误差修正模型(VEC),脉冲响应函数以及面板数据模型对中国31省市生态文明关注度的时空特征、区域性差异及其影响因素进行研究。研究结果表明各省市的生态文明关注度差异明显,大部分省市对国家生态文明政策的响应及其变化趋势相似,而地区人口规模、发展水平、互联网普及率、森林覆盖率、雾霾污染程度等因素对生态文明关注度有显著的积极影响,水资源、受教育程度与性别等因素对其无显著影响。

【关键词】网络搜索数据;生态文明;向量自回归模型;误差修正模型;面板数据模型 

【中图分类号】TP311.12 

【文献标识码】

【文章编号】1672-1586(2020)01-0020-06


引文格式:李 霖,陈 选,苏世亮. 基于百度指数的生态文明关注度时空分析[J].地理信息世界,2020,27(1):20-25.


正文


0 引 言


中国作为最大的发展中国家,存在的生态环境问题主要是水污染、水资源短缺、水土流失、土地退化和森林减少,且我国人均资源不足,低于世界水平,生态环境恶化的情况也日益突出。因此,建设生态文明是实现全面建成小康社会奋斗目标的内在需要,同时也是需要深入勘探的学术疆域。通过对国家生态文明政策给予关注,公众发挥其主观能动性,能更好地理解政策,对政策制定效率与质量、更好地与媒体和政府互动、推动政策的执行具有重要意义,在生态文明建设中发挥着巨大作用。了解大众对生态文明的关注度及其政策的方法多是问卷调查,然而这种方法实施起来比较困难,也难以量化。随着互联网技术的飞速发展,利用社交媒体、网络搜索引擎等互联网产品,人们可以快速大量地获取想要的信息。互联网产品有许多不同的形式,是一个非常庞大的信息源。这些互联网产品是一种新型的传感器,可以捕捉到城市社会中的人类行为,为研究人类在城市社会中的时空与城市社会的规律和特征带来了新的视角。社交媒体多是社会娱乐、科技文化知识等信息的载体,而搜索引擎是人们上网活动最多的一种工具,其保留了大量的网民搜索记录数据,涵盖了各行各业。百度是国内最大的搜索引擎,百度指数是依托于百度搜索引擎用来提供网民搜索数据记录的接口,是以数亿网民的搜索行为数据为基础,通过科学的统计分析量化出大众对某个关键词的关注程度,其数值大小表达了关注度的高低,相比于其他产品,百度指数是更具有科学性和可靠性的网络搜索数据。

到目前为止,已有许多研究调查了网络搜索数据的研究价值和预测能力。Ginsberg J研究发现,网络搜索数据可以衡量大众对某一事物的关注程度,并且与现实社会行为存在一定相关性,这一结论最早在检测流行病中得到印证。Marcucci,Juri发现Google关键字搜索与失业率之间存在很强的相关性。随后,国内外许多学者利用这一方法来进行社会学、经济学等领域的研究。如预测外汇市场的波动性、社会问题预测模型、城市住房价格、旅游目的地与安全等。

目前对生态文明的研究多是关于生态环境政策和生态文明建设水平及其评价体系以及资源环境问题等方面的研究,利用网络搜索数据进行相关的研究尚少。鉴于此,本研究从生态文明政策和中国各个省市的社会特征差异等方面入手,利用网络搜索数据中百度指数来研究生态文明关注度的地区差异及其影响因素,旨在为中国的生态文明建设及网络搜索数据的研究等工作提供参考。


1 研究数据与方法


1.1 政策发布数据

宏观政策的发布会引起公众对政策内容及其问题的关注。从人民网网站上获取2011年1月1日至2016年12月31日以生态文明为关键字的政策数据,得到政策发布的时间序列数据。根据政策发布时间所属月份确定其值,得到政策的月度时间序列数据。自定义规则为若当月无政策发布,则值为0,若有政策发布则值为1。

1.2 百度指数数据

用百度指数来衡量公众对生态文明的关注度有其科学的依据。百度指数是以百度海量网民行为数据为基础的数据分析平台,是当前互联网乃至整个数据时代最重要的统计分析平台之一,自发布之日便成为众多企业营销决策的重要依据。百度指数平台建立了防作弊技术体系,以便不会人为地提高特定关键词的搜索热度,这意味着百度指数数据可以最大程度上代表随机用户在特定时间点搜索特定关键词的可能性,从而保证了数据的真实性、可靠性。数据是从百度指数平台网站全球搜索指数数据中获得关键词搜索词“生态文明”的百度指数,2011年1月至2016年12月得到31个省市关键词“生态文明”的百度指数月度数据及年度数据,其包含了移动搜索指数和PC搜索指数。

1.3 研究方法

1.3.1 VAR和VEC

VAR模型(Vector Autoregressive Model,VAR)可以检查变量之间的动态相互作用,但是其单个方程的系数反映的是局部的动态关系。VEC模型(Vector Error Correction Model,VEC)是VAR模型的延伸,VAR模型适合于平稳的时间序列,对于非平稳且协整的时间序列数据可用VEC模型。故而选用VAR模型或VEC模型研究各个省市大众对生态文明关注度与生态文明政策之间的关系:

式中,Yt是VAR模型的内生变量,Xt是外生变量,p是滞后阶数,通过信息准则来选取,t是样本个数,A1,…,Ap和B是系数矩阵,εt是扰动项。

式中,

。类似地可以定义α2(L),β2(L),滞后阶数通过信息准则来选取。

脉冲响应函数可以充分反映每个变量之间的动态影响,并捕获一个变量到另一个变量的动态影响路径。利用VAR模型和脉冲响应函数分析可以知道政策的发布对各个区域的生态文明关注度的影响程度。

方差分解可以解释一个时间序列变量的波动有多少来自于其自身的冲击,有多少是由模型中其他因素的冲击造成的。利用方差分解可以得到政策冲击对生态文明关注度的贡献程度。

1.3.2 面板数据模型

VAR或VEC模型与脉冲响应只能反映变量间在时间上的趋势关系。面板数据模型是在同一截面单元集上取多个连续的时间观测值所构成的样本。利用面板数据可以分析多个解释变量与因变量在空间方面的相关性及其时间趋势上的特性,提高分析结果的精度和有效性。为了研究各个省市对生态文明的关注程度差异在空间方面的影响因素,可将生态文明的年度百度指数与影响因素建立面板数据模型。协整检验后模型设定检验拒绝建立混合数据模型、个体随机效应模型,故而建立个体固定效应变截距模型:

式中,αi是个体影响,εit是随机扰动项,假定εit的均值为0,方差为,且Xit与εit不相关。

1.4 影响因素指标

梳理已有的文献,发现可能会影响大众对生态文明及其政策关注程度的因素涉及诸多指标,考虑到指标数据的可获取性与完整性,本文确定选取的因素包括选取互联网发展水平、地区经济发展水平、人口规模、自然资源环境以及社会人口统计特征。2011年至2016年,从中国产业信息网网站获得地区互联网普及率数据,从中国统计年鉴、中国统计局网站获得地区人均GDP、地区人口数、自然资源环境以及社会人口统计特征数据。表1描述了影响因素指标及其符号。

解释变量:社会人口统计特征在经济社会中有着举足轻重的地位,主要包括性别、受教育程度、年龄结构。前人已指出两性在网络信息的关注取向和关注程度存在着差异,同时性别与年龄结构及受教育程度也是百度指数人群画像的重要结构,故而选取作为解释变量。张晓梅等人认为人均GDP是网络关注度空间差异的主要影响因素。一般而言,经济发展水平越高,其信息化基础设施越完善,网民进行搜索行为的基础性条件越好。互联网发展水平是信息时代的体现,生态文明关注度是建立在人们利用信息设备进行网络搜索的基础之上。李霞等人认为互联网发展水平是关注度的重要影响因素。关注度是网民搜索行为的量化结果,其基础是大量的网民进行搜索行为,因此认为地区人口规模是生态文明关注度区域性差异的重要影响因素。生态文明与自然资源环境息息相关,核心是人与自然和谐共生,以尊重和维护生态环境为主旨,故考虑自然资源环境作为影响因素。


2 结果与分析


2.1 生态文明关注度的时空特征

图1表示了中国31省市搜索关键词“生态文明”的百度指数的年度时间特征。从图中可以看出东部地区特别是沿海地区较中西部地区生态文明关注度明显较高;几乎所有省市的关注度的数值都是在2012年至2013年突变增加,而在2015年至2016年渐变减小。

2.2 脉冲分析与方差分解

确定最优滞后阶数后分别建立相应的VAR模型和VEC模型。模型的稳定性检验结果表明模型是稳定的。然后对每一个模型做脉冲响应分析,将每个省市的“生态文明”百度指数时间序列数据作为响应变量,将政策发布时间序列数据作为冲击变量,得到各个省市脉冲响应分析的结果。图2的结果表明西藏、宁夏、青海、甘肃、新疆和广西等6个省市对政策的时间序列数据的冲击响应不强烈,大部分省市对冲击的响应会在第三期或第四期达到最高点,而在第八期后趋于平稳。最后进行方差分解,得到各省市生态文明关注度中政策冲击的贡献度,如图3所示可知,所有省市生态文明关注度的波动在第一期只受自身冲击的影响,随后自身的影响减弱。其中陕西省在第十期政策冲击的贡献度最大达到47%,其他省市基本在第六期开始趋于平稳。

图1 各省市年度关注度趋势

Fig.1 Annual attention trends of various provinces and municipalities

图2 利用Cholesky(d.f.调整)因子分析百度指数对政策冲击的响应

Fig.2 Response of Baidu index to policy innovation using Cholesky (d.f.adjusted)

图3 百度指数的方差分解

Fig.3 Variance decomposition of Baidu index

2.3 影响因素分析

2.3.1 区域关注度影响因素分析

将2011年至2016年的“生态文明”百度指数与社会人口统计特征、地区经济发展水平、互联网发展水平、地区人口规模和自然资源环境对数处理后建立个体固定效应变截距模型,得到初步分析结果见表2(表中C是截距项,LNX1~LNX14是X1~X14对数处理后的变量)。

表2 个体固定效应模型后的初步统计结果

Tab.2 Preliminary statistical results using individual fifixed effffect model

由表2可知,模型初步统计结果可决系数较高,且 P值小于0.01。但有几个变量对应的P值大于0.05,且存在影响系数的符号为负的情况。表明可能存在严重的多重共线性,因此计算各个变量的方差扩大因子。LNX2,LNX3,LNX4,LNX5,LNX6,LNX7,LN10,LNX14的方差扩大因子皆大于10,表明确实存在严重的多重共线性问题。采用逐步回归对个体固定效应模型进行参数估计后,剔除变量LNX2,LNX3,LNX5,LNX7, LNX14。

表3的结果表明地区人口规模对生态文明关注度有显著的正向作用。生态文明百度指数是基于网民的搜索行为内容计算得到的数据,与地区的人口规模密不可分。这一结论也印证了人口规模较大的地区如广东、山东、浙江、河南、湖北、江苏等地的生态文明百度指数长居国内前10,而人口规模较小的地区如西藏、青海、宁夏、新疆等地生态文明百度指数则排在末尾。

表3 模型参数估计结果

Tab.3 Results of parameter estimation

互联网发展水平和人均地区生产总值对生态文明关注度有积极的正向影响,一方面,互联网发展水平高的地区公众拥有更优质的互联网使用环境,居民上网更加便捷,网速更快,公众能够更快地获得生态文明政策及其解读的信息,并且信息的传播扩散也更快,大众较为容易地在一个共同的网络空间中引起共鸣。另一方面,经济发展水平高的地区通常其基础设施尤其是基站等互联网设备更加完善,而居民经济状况对其上网行为及上网搜索内容有制约作用。人均GDP越高,地区居民经济状况越好,其上网需求和上网时间相对更多;并且经济基础越好,其上网搜索内容越容易接近国家最新政策。心理学家Maslow提出的需求层次理论阐述了人的不同层次需求对其行为具有指导作用。经济基础是公民进行上网搜索行为的重要基础条件。

森林覆盖率对生态文明关注度有正向影响,随着提倡无纸化办公、植树造林、退耕还林、自然景区保护等措施的实施,人们越来越认识到植被的重要性。水资源对生态文明关注度无显著影响,这可能是因为不同地区水资源储量差别巨大,而人均水资源与地区水资源储量不成正比。

雾霾污染程度对生态文明有正向影响。不同于森林覆盖率与水资源储量,空气质量的好坏是居民能实时接触感受到的,空气质量越差,人们感受越深。

而年龄结构处于15岁至64岁之间的人口数为地区总人数中最大的组成部分,并且此年龄结构中的人群为互联网PC端和移动端的主要使用人群,其影响弹性系数也佐证了上面地区人口规模与互联网发展水平对生态文明关注度的正向影响。

性别与受教育程度对生态文明关注度的影响不显著,这一结果与预期不符。该结果表明,在互联网快速发展的信息化时代,性别差异与受教育程度对公众的网络使用率的影响正在弱化。

2.3.2 区域脉冲响应影响因素分析

为了更进一步分析,试图了解各个省市对政策的响应程度差异的可能因素有哪些,将各个省市脉冲响应分析的峰值与各个省市的互联网发展水平、经济发展水平、人口规模、自然资源环境以及社会特征数据做逐步回归分析。表4的结果表明,只有雾霾污染程度与地区人口规模变量对各个省市对生态文明政策的冲击响应的差异有显著影响,但是其系数较低,相对而言雾霾污染程度的系数较大(表中p值和后续测试不考虑逐步选择。停止条件:p值向前/向后= 0.05/0.05)。

表4 脉冲响应的峰值与影响因素的逐步回归分析结果

Tab.4 Results of stepwise regression analysis of the peak value of impulse


3 结束语


本研究以生态文明关注度为主要研究对象,运用VAR、VEC以及面板数据模型对各个省市生态文明关注度进行了时空特征及其影响因素分析。研究结果表明:

1)各省市的生态文明关注度区域差异较明显,相较于中西部地区,东部地区生态文明关注度明显较高。各省市的生态文明关注度从时间上来看变化趋势相近。

2)除了西藏、宁夏、青海、甘肃、新疆、广西等6个省市对政策的时间序列数据的冲击响应不强烈之外,天津、浙江两地并不同其他较为发达地区一样对政策的冲击响应那么强烈,这说明从时空上看,宏观政策对各地区的影响并非绝对与地区发展情况相关。

3)地区人口数、互联网发展水平、经济发展水平、森林覆盖率与雾霾污染程度对地区的生态文明网络关注度有显著影响,是其主要影响因素,因而在以后的生态文明建设中应从基础信息设备建设、经济发展、人口吸引、植树造林与空气治理这些方面考虑。

考虑到本研究的样本数据,本研究的不足之处在于尺度较单一,研究时间范围较短,且选取的影响因素不够全面,还需更多尺度更全面的研究验证。


(点击图片即可查看详细信息)




内容转载、商务活动、投稿等合作请联系

微信号:huitiandi321

邮箱:geomaticshtd@163.com

欢迎关注慧天地同名新浪微博:

ID:慧天地_geomaticser

往期精彩推荐
《地理信息世界》2020年1期速览
《地理信息世界》被JST 日本科学技术振兴机构数据库(日)(2018)收录
《地理信息世界》2019年第6期速览



《慧天地》敬告

《慧天地》公众号聚焦国内外时空信息科技前沿、行业发展动态、跨界融合趋势,探索企业核心竞争力,传播测绘地理信息文化,为测绘、地信、遥感等相关专业的同学提供日常学习、考研就业一站式服务,旨在打造政产学研用精准对接的平台。《慧天地》高度重视版权,对于原创、委托发布的稿件,会烦请作者、委托方亲自审核通过后才正式推发;对于来自网站、期刊、书籍、微博、微信公众号等媒介的稿件,会在作者栏或者文章开头显著标明出处,以表达对作者和推文引用平台版权的充分尊重和感谢;对于来源于网络作者不明的优质作品,转载时如出现侵权,请后台留言,我们会及时删除。感谢大家一直以来对《慧天地》的关注和支持!


——《慧天地》运营团队

编辑:富裕  审核:安有硕 张自轩
指导:万剑华教授
: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存