大数据时代网络搜索行为与公共关注度:基于2011-2017年百度指数的动态分析
编者按
公共关注度在政策过程中发挥着重要作用,随着互联网和大数据等新兴信息科技的发展,网络空间的海量行为数据为有效测量公共关注度提供了可行路径。此文使用2011-2017年的百度指数作为测量公共关注度的数据源,以日为单位抓取涉及26个政策领域的401个关键词搜索指数,并收集各省的人均GDP、居民消费价格指数、地方财政支出占GDP比重、人口规模、失业率等,从时间和空间两个维度考察公共关注度;运用固定效应模型分析经济和社会发展因素对不同领域政策关注度的影响。此文探究了我国公共政策关注度的变迁和经济社会成因,也从方法论意义上探讨了大数据时代利用搜索引擎大数据对公共关注度测量和分析的可行方法。故,编辑部特推荐此文,以飨读者。
作者简介
孟天广,清华大学社会科学学院政治学系副教授,博士生导师,数据治理研究中心主任;
赵娟,清华大学社会科学学院政治学系博士后。
大数据时代,网络数字痕迹成为彰显公众议题关注及政策偏好的新途径。本文以网络搜索行为为例,基于百度搜索数据采集了2011 - 2017 年26 个政策议题的2 亿余条关键词指数,探索研究公众的搜索行为与公共( 政策) 关注度。这七年间,公众对文化娱乐议题的关注度最高,财政金融、就业、交通等财经和基础设施类议题次之,再次为教育、环保、卫生等民生类议题。同类议题关注度在省级层面具有历年趋同性,而不同议题的关注度存在地域差异性。面板数据分析发现,人口规模、消费物价指数、网民占比、失业率和经济发展水平等经济社会因素可以有效地解释议题显著度的差异,即公众对特定政策的关注度受到地区经济社会条件的显著影响。
一、引言
一个多世纪以来,政治学家们一直致力于探究国家与社会互动以理解政治制度的作用,而在这种互动中最基础因素便是公共关注度(public attentiveness) (Ripberger,2011)。公共关注度呈现政治过程中的公众的政策偏好和注意力分配,在政策过程中发挥重要作用。传统研究通过抽样调查来了解政策议题的关注度,并通过追踪数据来获取公众在特定时间内政策偏好的变化及其对政府回应性的影响。随着学界对调查方法信效度之局限的进一步认知(Mellon,2013),一批学者开始寻求将各类媒体作为测量公共关注度的有效途径,考察特定权威媒体或流行媒体在某时间段内对特定议题的关注和讨论。
然而,媒体关注是否能真正代表公共关注度这一疑问随后被提出,并在议程设置理论(agenda - setting theory)中获得广泛探讨。麦库姆斯认为记者群体可能通过其对感知到的公共利益有所回应而推进了公共议程,进而影响到媒体议程(Mc - Combs, 2004)。苏梅克和里斯(Shoemaker&Reese,2014)进一步以五维概念模型(记者个人、媒体例程、组织因素、社会制度和文化/意识形态) 来解释媒体议程形成的影响因素。在上述探讨媒体关注、议程设置转换(reverse agenda-setting)的诸多研究中,学者们遗漏了媒体关注对政策偏好之主体——“公众”考量的不足。因而,公共关注度的界定及操作化再次成为学者在研究国家社会关系、政府回应性中的关键问题,而智慧治理客观上要求政府利用大数据实时、动态和全面地测量多元化民意及其变化(孟天广、赵娟,2018;Russell et al.,2014)。
互联网与大数据等新兴信息科技在重塑公众生活和政府治理模式的同时,使网络数字足迹的采集和分析成为可能,由此,网络空间的海量行为数据为有效测量公共关注度提供了可行路径。本文提出了利用搜索行为数据对公共关注度进行测量,试图考察特定时空环境下政策关注度的地域分布和时间变化趋势,并运用2011 - 2017 年省级面板数据探究公共关注度的宏观影响因素,以因应大数据时代对公共关注度加以测量与分析的需求,进而提出新的研究方法与分析视角。
二、公共关注度: 概念界定及操作化
(一)公共关注度
网络行为数据不仅反映着公众对某些议题是否关注及关注程度如何,而且反映着公众对某些特定议题的意见。有学者对公众关注与公众意见进行了区分,认为公众关注事关人们想什么,而公众意见是关于人们怎么想,前者需要人们愿意为之付出诸如时间或注意力等稀缺资源(Newig, 2004) 。Ripberger 利用网络数据追踪流感等疾病信息的扩散分析,将网络数据分为基于供给的(supply - based) 和基于需求的(demand - based)两类: 基于供给的数据如脸书、网页等社交媒体上发布的数据,基于需求的数据则是人们主动在网络上搜索的数据(Ripberger,2011) 。基于需求的主动搜索行为反映了人们对某些主题的关注度,通过信息搜索和了解以满足其需求。
运用基于需求搜索数据对公共关注度进行测量已逐步展开,主要体现在运用网络搜索来对热议事件进行整体认知,以预测未来行为。如目前已有使用谷歌趋势(Google Trends) 、I4S以及Yahoo等搜索引擎所获得的大数据,在医学、经济学、传播学等领域进行公共关注度的测量或对相关事件进行预测。譬如,在医疗领域,Ginsberg 等人(2009)提出利用谷歌搜索数据开展流行病预测,Ripberge 等人(2011)运用与流行病学相关的谷歌词汇搜索数据追踪传染病的扩散。
在经济领域,有学者基于I4S搜索工具对诸如零售销售、汽车销售等经济活动或运用与金融相关的98个谷歌搜索词来对股市波动进行预测(Preis et al.,2013) 。国内学者也利用百度指数考察长三角、东北地区城市经济集群和城市网络特征的创新性(熊丽芳等,2013;赵映慧等,2015)。
在传播学领域,陈云松等(2015)使用谷歌图书大数据,测量中国城市国际知名度300年来的变迁及其特征,认为近代大陆城市的国际传播主要是通过媒体报道而进入西方社会。曾凡斌(2018)利用百度指数分析媒体议程显要性与受众议程显要性之间的关系,他以2013 - 2016 年间75个网络热点舆情事件为例,发现二者显要性的相关性受网络热点舆情事件属性的限制: 当网络热点舆情事件属于社会新闻事件或国外政治事件时,媒体与受众两个舆论场显著正相关; 而在社会类网络热点舆情事件中,媒体议程的显要性与受众议程的显要性低度相关。这证明媒体议程所呈现的公众关注与公众实际关注之间具有一定差距。
因此,公众对政策议题的关注及其测量,为大数据时代新兴研究方法提供了机会与土壤。整体而言,目前国内运用大数据对公共关注度测量及解释的探索研究尚较匮乏。本文正是在此基础上,借助对网络信息汲取行为影响甚广的百度指数的时间序列大数据弥补这一研究空白。
( 二) 公共关注度的测量
公共关注度是基于个体对某公共议题的兴趣,出于好奇而产生的搜索行为。互联网搜索行为是在线大数据中较有代表的信息(刘涛雄等,2015),基于搜索行为而得的百度指数,是公众在某段时间内对该议题主观探索和注意力分配的体现。Pelc(2013)不仅利用搜索数据衡量了公众的政策情绪,还从信息政治的角度探讨了信息探求行为可以成为政治动员的重要机制来推动国际规则的变化。简言之,如果我们认为人们如何以及何时搜索公共议题信息准确地反映了个体关注模式,那么汇聚这些行为以评估公共关注度就是合理和恰当的(Ripberger,2011)。
由此,通过搜索方式获取信息,则是公众对某一议题直接关注的主动行为,可以成为社会科学研究中映射人们经济和社会行为的重要方式(Scheitle,2011)。以百度搜索网民为对象的分析显示,截至2017年12月,百度搜索的日均请求已达70亿次(中国科协,2017)。对网民搜索行为的挖掘和分析,可准确了解规模庞大的网民的实时需求,为政府精准决策提供依据。截至2017年12月,我国搜索引擎的用户规模达6.40亿,网民使用率83.8% (CNNIC,2018)。百度无疑在中国搜索引擎市场中占据绝对领先地位。截至2016年12月,百度的品牌渗透率已达82.9%,远远高于排名其后的搜狗和360搜索(CNNIC,2016)。百度在用户搜索行为中的渗透使其成为分析公众搜索行为的重要数据源。与此同时,百度推出的百度指数服务则是对庞大用户群体搜索行为的大数据汇集。
百度指数是百度以网民海量搜索数据形成的数据分享平台。自2006年开始提供PC端搜索指数,2011年1月开始提供移动端搜索指数。使用百度指数测量公共关注度的合理性主要基于以下考虑: 一方面,互联网现已成为国人感知社会、获取信息以及社交互动的重要场所,其中百度指数最能反映网民对未知信息和焦点事件的探索行为。另一方面,百度指数是关键词搜索规模和搜索频次的加权,对关键词及来源相关词和去向相关词的分析,可从中寻得网民对焦点关注及相关议题的关联度,从而分析公共关注议题之间的关系。积累长时段百度指数,实际上建立了不同时期网民对社会议题的关注程度、变化趋势、区域分布以及焦点议题相关性的知识库。
本文运用26个政策领域的主题词进行分类,将百度指数关键词与之对应分析,透视各政策议题在时间和地域维度的公众关注度,并总结其时空特征,分析议题关注差异影响因素。百度指数反映了所有网民在网络环境中的主动搜索行为,是其对所关注问题的最直接需求的体现,但在深层次需求表达中,则受到更多宏观影响因素。基于此,本文进一步将区域经济发展水平、网民占比等宏观因素纳入考量,来探讨公共关注度呈现地域差异的原因所在。
三、数据来源和研究方法
鉴于百度自2011年始提供移动端搜索指数,本文使用2011-2017年的百度指数作为测量公共关注度的数据源,包含移动端和PC端,以全面利用网络搜索行为反映公共关注度。对每天关键词搜索进行聚类分析,可获得网民在特定议题上的关注热度、变化趋势和空间分布,进而分析其缘由。本研究涉及26个政策领域的401个关键词,运用爬虫技术将关键词搜索指数进行抓取。目前共采集到31个省级单位、336个地级市层面26个政策领域的日度搜索指数2亿余条。以日为单位可以获取政策关注度的历时动态,可对比由于公众的各类感知而导致的时空差异,在此基础上对其进行颗粒度较高的时空差异分析。
政策领域来源于2017年国务院各部委分类,分别为财政、城建、反腐败、公共交通、国防、国土、环境保护、教育、金融、经济发展、就业与劳动、科技、民族事务、企业事务、三农问题、商务议题、社会保障、社会救济、社会治安、水利、司法、外交、卫生、文化娱乐、质量安全、住房与拆迁。各议题通过不同的关键词予以聚类,关键词的筛选具有两大依据,一是根据各部委官网对其职能范围的界定形成测量特定政策领域的关键词库,二是根据专家研讨和爬虫测试来确定最终关键词列表。表1呈现了2017年全国议题热度排名前十的政策议题的关键词列表。
由于关键词体量较大,本文基于议题将特定政策领域的关键词进行汇总,获取每一政策议题综合指数,作为当年公共关注度测度,以获得时间轴上具有一致性和可比性的测量。本文所使用的政策领域平均日指数是议题下所有关键词平均日指数的平均值,月指数是议题日指数的月平均值;以比较不同时空特定议题的公共关注度。
此外,为考察公共关注度的宏观影响因素,以评价利用搜索行为测量公共关注度的效度,本文收集了2011 - 2017 年省级经济社会发展的变量,数据来源于国家统计局官方网站。具体而言,地区经济发展通过人均GDP、居民消费价格指数、地方财政支出占GDP比重进行测量; 网民规模运用国家统计局公布的我国各省6岁以上互联网上网人数占总人口比例进行衡量; 人口规模和登记失业率也来自相应年份的《中国统计年鉴》。
四、政策议题公共关注度的时空分析
本部分从七年间各省公众最关注的议题入手,从时间和空间两个维度考察了公共关注度,以此来考察政策议题的空间集聚和空间异质性。考察政策关注度的时空差异有助于理解其测量效度。
首先,综合考察全国2011 - 2017 年公共关注度。我国公众最关注的议题领域在七年间基本稳定,主要涉及文化娱乐、财政金融、司法、社会民生类和经济企业类。随着经济发展和生活水平的提高,公众对旅游、影视等文化娱乐需求逐步上升,对该类信息的搜索量长期居于首位。文化娱乐关注度是排名第二的财政议题的2.1 - 2.6倍,远高于其他议题。其次,公众对涉及财政收支、税收类信息的财税议题关注度较高,且对涉及货币、期货、股票、贷款等金融议题亦较关注。再次,司法类议题在七年间均位列十大议题,凸显人们较多地关注裁决、法制等信息; 最后,公众对民生政策的关注主要涉及就业与劳动、教育、公共交通、住房与拆迁等议题,累计关注度很高。
从议题类型而言,七年间公共关注度议题稳中有变。2011年最关注的十大政策是文化娱乐、财政、金融、就业与劳动、教育、公共交通、社会保障、企业事务、经济发展和司法议题(如图1)。七年间,公众持续关注财政、金融类议题,2014年司法议题上升至第三位,反映了公众对司法改革的重视以及法律意识的增强。在民生领域,七年间公众持续关注就业与劳动、教育、公共交通与社会保障等议题。2011年 - 2014年更关注就业、教育、交通与社保; 2015年,环境保护上升为最受关注的十大议题,公众对污染、雾霾、粉尘等关键词的搜索量陡增。2016和2017年,公众分别对卫生和住房议题关注度凸显。
从省份差异来看,各议题在不同时间段呈现出空间差异。2011 - 2017年各政策关注度最集中的省份是北京和广东。北京居民对公共交通的关注度居全国之首; 广东居民更关注文化娱乐、社会治安、社会保障等议题。金融、就业与劳动、企业事务、社会救济、司法等议题于2011 - 2012年在北京关注度最高,2013年以后广东超越北京。从区域分布来看,东中西部议题关注度同异并存。东部地区公众更关注与企业发展有关的工商、税务、合同、专利等事务; 中部地区公众更关注看病、医疗等卫生事务; 西部地区公众相对更为关注民族团结、民族文化等民族事务。就关注强度而言,呈现显著区域不均衡趋势,即东部关注程度最强、西部最弱,中部居中。
五、公共关注度的宏观影响因素:基于省级面板数据分析
百度搜索行为数据体现了其在一定时空范围内的注意力分配和政策偏好。然而,仅仅针对搜索行为映射的公共关注度开展相关性分析不足以理解公共关注度的成因,因此迫切需要基于大数据开展因果性分析(孟天广,2018)。简言之,人们在网络空间的关注度和政策偏好可能受到宏观环境的影响,而使其呈现显著的时空差异。本部分对不同地域公众在十个主要政策领域的关注度展开实证分析,采用2011 - 2017年我国省级面板数据考察公众在经济发展、民生福利、司法和文化政策之关注度的经济社会成因。
( 一) 变量界定
本文通过面板数据模型进行分析。因变量是十个政策领域的公共关注度,主要包括七年来公众最为关注的三大类议题,即经济发展类议题(财税、金融、交通和就业)、社会民生类议题(卫生、教育、环保和住房)和其他议题( 文化和司法)。自变量包括各省经济发展水平、消费物价指数、财政支出水平和登记失业率等经济因素,以及人口规模、网民规模等社会因素。根据上文,上述事项议题基本上覆盖了全国范围内公共关注度的主要维度,而公共决策的既有文献发现,宏观经济条件和社会发展决定着特定时代人们的政策偏好及其变化(Hall,1993)。经济波动或经济困难通常引起公众政策偏好的快速演变,如果政府未能及时捕捉并回应这种偏好变化,就可能酿成信任赤字( Fernándezalbertos and Kuo,2016)。为了呈现搜索行为反映公共关注度的外部效度,本文重点考察了经济和社会发展因素对不同领域政策关注度的影响。表3呈现了自变量的描述性统计分析。
(二)面板模型的发现
面板数据(panel data)是研究对象在时间和空间两个维度上变化的记录,是在时间序列上取多个截面,在这些截面上选取一致样本所构成的数据。因此,从横截面看,面板数据是若干个体在某一时刻构成的截面观测值,从纵剖面看是一个时间序列。面板数据结合了横截面数据和时间序列数据的优势,在方法论意义上有诸多优势:首先扩展了样本量,为统计检验提供了更高的自由度;其次提供了更多个体(或单位)层面跨时变化或跨时不变变量的丰富信息;再次可以有效地解决遗漏变量(尤其是跨时不变遗漏变量)问题(Wooldridge,2002)。因此,面板数据模型成为探究宏观经济社会现象的常见计量模型,主要估计方法包括混合回归分析、随机效应模型和固定效应模型。
具体到本文,我们同时开展了随机效应估计和固定效应估计,豪斯曼检验建议选择固定效应模型。本文考察的截面单位是省份,而各省特定的发展阶段对于因变量的区域差异具有重要影响,因此采用固定效应模型来拟合数据更为合理。考虑到各省人口基数(尤其是网民规模)的巨大差异,因此直接比较省份间百度搜索指数的差异并不具有可比性。因此,本文的因变量依据各省当年人口规模进行加权,以每万人搜索指数作为因变量。表4呈现了10项政策关注度的固定效应模型估计结果。
尽管表4呈现了非常丰富的研究发现,但我们仍然可以总结出若干个基本规律,这为我们深入理解不同政策领域公共关注度的形成及其变化有重要价值。首先,就经济发展类议题的关注度而言,本文所假设的理论模型具有较好解释力,财税、金融、就业和交通等政策关注度的面板模型的解释力均超过50%。经济发展类议题关注度受到经济发展水平、政府财政开支规模、经济波动等因素的重要影响,而人口规模和网民占比也有一定影响。具体而言,财税政策关注度主要受到网民占比、人口规模和居民消费物价指数的正向影响; 金融关注度主要受到经济发展水平和财政支出占比的积极影响,而体现经济波动的消费物价指数和登记失业率也带来人们对金融政策的更多关注; 就业政策关注度的影响因素比较多元,人口规模、经济发展水平等结构性因素导致更多的就业关注度,而消费物价指数和登记失业率的增长也如预期一样引起更多关注; 交通关注度主要受到人口规模、网民比例等社会性因素的正向影响,而财政支出占比导致更少的交通关注度。
其次,就民生福利类议题而言,本文构建的模型解释力最好,环保、教育、卫生和住房等政策关注度的面板模型的解释力约在70%。民生福利类议题关注度同时受到经济因素和社会因素的影响,总体上人口规模、网民占比显著地提升了人们对民生福利政策的关注度,经济越发达的省份人们越关注民生福利政策,而涉及民生水平的消费物价指数、登记失业率等均与民生政策关注度显著正相关。具体而言,环保和卫生政策关注度主要受到人口规模、网民占比、经济发展水平的正向影响,而较高水平的物价变动和失业率导致人们更关注环保和卫生政策; 教育政策关注度除了受到人口规模、网民占比和经济发展水平的正向影响外,登记失业率也引起人们更关注与人力资本培育相关的教育政策; 住房政策关注度受到人口规模、人均GDP、物价指数和登记失业率的显著影响,但网民占比不影响人们对住房政策的关注度,这显示住房政策受到更广泛群体的关注。
最后,本文模型对司法议题的关注度具有较强解释力,但对文化议题关注度解释力较弱。与民生政策类似,司法议题关注度主要受到人口规模、网民占比、人均GDP、物价指数和失业率的显著影响,而人均GDP 与消费物价指数对司法议题关注度的互相抵消效应更强; 文化议题关注度并不受经济发展和社会因素的影响,仅有消费物价指数对其有负向影响,即物价上涨导致人们更不关注文化议题。除了交通、教育等少数政策关注度,经济发展水平与消费物价指数始终互相削弱着彼此对各类政策关注度的影响,这表明在经济越发达的地区,物价上涨会带来人们注意力分配的转移,即对私人( 经济) 事务的关注度超过公共关注度,进而削弱其政策偏好的形成。
六、结论与讨论
以大数据及相关技术为引领的治理能力建设,正在对人类社会发展、公共治理和生产生活方式带来巨大影响(孟天广、张小劲,2018)。尽管搜索引擎具有大数据分析的局限性,如原始搜索频次不可获得、搜索样本在人群中是非随机样本;甚至可能如谷歌趋势由于算法不稳定而产生信度问题(Lazer et al,2014)等。仍不可否认地,网络搜索行为反映了公众对感兴趣政策议题的强烈关注和行动倾向,“人们搜索某一术语并不必然完美地代表全体人群,但其兴趣动态可近距离反映全体公众的行为痕迹”(Mellon,2014) 。伴随着互联网及其应用的不断扩展,网民成为世界各国公众的主要构成,也日益成为影响政策变迁的重要群体,而网络参与逐步成为公众参与治理的关键途径(Jiang,Meng and Zhang,2018)。大数据技术的蓬勃发展,以及公众对网络搜索引擎的日益依赖,网络搜索行为将成为感知公共关注度及其变化的一种有效路径,未来亦可成为政府利用民情民意数据把握和预测政策偏好、政策情绪的主要数据源和有效机制。
本文利用百度搜索行为大数据,对全国31个省市2011-2017年间26个政策议题的公共关注度展开分析,以探究我国公众政策关注度的变迁及其经济社会成因。本文从省级层面,对不同省市公众在跨时空场景下对不同议题的关注变化趋势进行了以年、月、日为单位的分析,并运用空间分析呈现了政策关注度的地域特征及其变化。总体上,网络搜索数据可以有效地测量特定地区和时间场景下公众的政策偏好和情绪。相比民调等传统方式,搜索行为测量公共关注度具有下列优势: 首先,搜索行为数据覆盖面广泛、体量巨大、维度丰富,涉及绝大多数网民群体,具有较好的数据代表性; 其次,网络搜索行为具有非常丰富的时间特性,当我们以年、月、日等不同时间颗粒度来观察公共关注度时,既可以获得公共管理迫切需要的高时效性数据,也可以获得政策决策和评估所需要的长效性数据; 再次,与传统调查和访谈等自报数据相比,网络搜索行为属于消极数据,本质上是人们真实社会行为的投射,因而可以避免社会意愿偏差、自选择缺失和偏好隐藏等方法论困惑。
在此基础上,本文利用面板模型解释了2011 - 2017年各省公共关注度的成因,推动了我们对不同政策关注度的形成及其变化的理解。经济发展类政策关注度主要受到经济发展水平、政府财政开支等宏观经济条件和物价变化、失业率等经济波动的影响; 民生福利类政策关注度同时受到人口规模、网民比例等社会因素和经济发展水平、物价变动、失业率等经济因素的影响; 文化议题关注度并不受经济发展和社会因素的影响,仅有物价变化对其有负向影响,物价上涨导致人们更不关注文化议题。此外,经济发展与消费变动对政策关注度的影响存在条件性关系,即二者对经济发展、民生福利政策关注度的影响均存在互相抵消关系,在经济发达地区,物价上涨会带来人们注意力分配的转移,即对私人(经济)事务的关注度超过公共关注度,进而削弱其政策偏好的形成。
最后,本文从方法论意义上探讨了从搜索引擎大数据测量公共关注度的可行方法,拓展了目前关于大数据应用于社会科学研究的方法集。其次,对百度指数以日、月、年为单位的精细分析,可发现搜索行为与社会现象高度关联的客观规律,可为政府运用大数据提升治理能力、实现精准治理和高效回应提供科学依据。当然,由于采集搜索数据的体量庞大、维度多样,本文对公共关注度的时空模式和宏观规律的分析尚未穷尽,可能挂一漏万。这需要未来进一步有效利用海量搜索行为数据,进行更为深入和系统的研究。
责任编辑:张潇丹 审校:吉先生
文章来源:《学海》2019年第3期
相关阅读:公众网络反腐败参与研究——以全国网络问政平台的大数据分析为例