社计文库 | 有迹可寻:以“互联网新闻参与”研究为例
The following article is from 定量群学 Author 任奕飞
在传统的实证研究中,调查数据往往源于自我报告。它们大多是脱离事件发生情境的回溯性作答,受主观记忆选择和印象衰退等的影响较大,未必能完全反映真实状况。在数字时代,大量数字化场景为信息收集的“非侵入”测量提供了便利,这使得大数据与社会调查结合的研究方法可更好地收集即时的在线行为,以降低传统社会调查带来的偏差。本期给大家推荐的是去年刊于《Social Science Computer Review》的《Explaining Online News Engagement Based on Browsing Behavior: Creatures of Habit?》。该研究将在线追踪数据与调查数据相结合,考察了三种新闻参与模式的偏好差异,不仅将新闻参与理解为互联网浏览的一部分,实现了超出传统方法的精确曝光(precise exposure)测量,还通过补充调查数据丰富了人们对新闻参与及其社会背景的整体理解。
”研究背景
一般来说,公民获取新闻的途径会影响其时事知晓和政治态度形成的方式。随着互联网获取新闻的普及,追踪用户数字痕迹愈加受到学界的关注。此前,学者通常采用日志、调查问卷等自我报告法来收集信息。虽然该方法可以捕捉到与个人有关的媒体行为,但前提是参与者要能够回忆起他们所接触的媒体和内容的全部经历。Prior(2009)曾利用收视记录数据(people meter data)对自我报告的有效性进行评估,发现新闻用户在结构上会高估他们花在浏览新闻上的时间。因此,仅仅依靠自我报告去评估互联网新闻参与的程度具有一定的挑战。
研究设计
该研究首先区分了三种互联网新闻参与模式。1)常规模式,即新闻的常规参与。如访问一家新闻机构的主页。这种新闻使用模式多是习惯化的,并由情境和语境线索所触发;2)搜索模式,即由搜索触发的新闻参与。在一般信息搜索过程中可能会遇到新闻,新闻可以是搜索信息的一部分。基于对用户确切信息需求的算法推断,新闻被呈现在主动提供给用户的信息卡或信息框中;3)社交媒体模式,即社交媒体引发的新闻参与。这种新闻使用可被视为偶然曝光。在多数情况下,它并非事先计划好,而是用户与社交媒体互动的一个可接受部分。
为了有效区分不同用户的互联网新闻参与偏好模式,研究者从荷兰的一家数据公司(CentERdata)中招募了712名参与者。参与者被告知该项目的目标、方法、数据收集范围和隐私保护协议,并被询问是否同意安装流量监控插件。根据预先确定的317个白名单域名,该插件将跟踪所有传入和传出的流量。研究另有一个额外的黑名单,黑名单指出了白名单例外的网址模式,如银行交易页面和个人信息页面等。在2017年1月至2018年2月期间,参与者访问的所有网页内容、外部库、图像和横幅以及所有用户提供的信息(如搜索词)都会被插件捕获。在存储之前,作者在删除敏感信息基础上进行了匿名化脚本处理。
在研究中,受访者访问的网址是记录的重点。根据前述的三种互联网新闻参与模式,研究定义了四种网页访问类型,分别是:1)新闻网站访问,即参与者对一个新闻网站的访问,或者是对该网站域名的首页抑或是另一个页面的访问;2)社交媒体访问,即参与者访问社交媒体网站,如脸书、推特、领英或Instagram;3)通用搜索,即参与者访问搜索页面,包括荷兰最流行的搜索引擎,如谷歌、雅虎和DuckDuckGo;4)其他,即参与者访问任何其他类型的网站,与研究没有直接关系。
接下来,为找到用户特征与互联网新闻参与模式之间的关联,研究者考虑了一系列互联网新闻参与的影响因素,包括政治兴趣、政治效能、政治意识形态和对新闻媒体的信任,以及一系列社会人口统计学变量。在安装了插件的参与者中,有573人(80.5%)在2016年11月完成了在线调查问卷。该调查不仅通过多种经典量表测量了参与者的政治兴趣、政治效能感、政治意识形态(政治极端主义)和对新闻媒体的信任等变量,还收集了参与者在离线状态中或在未被跟踪的移动设备上新闻参与的自我报告,以探索不同方法之间的评估差异。此外,性别、年龄和教育水平等研究中的控制变量信息由合作的数据公司所提供。
在获取互联网在线的数字痕迹数据和自我报告的问卷调查数据后,研究者计算了在互联网行为追踪期间,访问过至少一个新闻页面并完成调查问卷的所有用户,共得到302个有效样本。由于许多参与者没有特定的参与模式,而其他人则在不同的水平上遵循泊松分布,因此每种新闻参与模式的相对百分比结果可以被定性为具有强零通胀的计数数据。为了解释观测值的零膨胀性质,研究者使用零膨胀泊松模型来分析序列出现情况,在具体操作中结合了两种预测模型,既进行了二进制零或非零预测(零模型),又估计了大于0的出现次数(计数模型)。
最后,该研究的主要发现包括:1)利用个人特征预测人们是否参与特定模式较困难,只有性别能显著预测常规和搜索模式;2)政治热情较高的群体更可能通过社交媒体接触新闻;3)个人的政治效能越高,常规模式偏好越高,而社交媒体模式和搜索模式偏好越低;4)个人政治极端主义与新闻模式偏好无关,但政治光谱中的左派更喜欢通过社交媒体收集新闻;5)个人的新闻媒体信任越高,越偏好常规模式,但越不偏好社交媒体模式;6)线下和移动新闻的使用与各种互联网新闻参与模式间存在负向关联。
小结与讨论
本期所介绍的论文将社交平台的痕迹数据与调查数据结合,主要探究了不同使用者对三种不同新闻参与模式(常规模式、搜索模式和社交媒体模式)的偏好差异。我们认为,这种新的研究设计在弥补自我报告的调查偏差上具有重要意义,尤其是在研究涉及一些人们自身难以清晰判断,但可被设备精确记录的行为时。一方面,这些大数据是实时记录的,来源于当事人所经历的社会情境,而非来自他们在填写问卷时的事后回忆或受各种潜在偏见影响下的主观判断,且不会受到传统问卷的问题措辞和问题顺序的影响,更具真实性和客观性。另一方面,在痕迹数据中补充来自调查的其他关键变量,使我们可更深刻地了解到行动者行为偏好背后的深层次原因。
在学习和借鉴该新设计的同时,我们也应看到研究存在的可思考和待提升的空间。1)任何用户并非按照某些特定模式去产生行为,因此研究者在归纳不同类型时(如三种新闻参与模式)要经过仔细考虑,可在做好扎实的文献研究基础上进行个案访谈。2)研究者在追踪数字痕迹时要尽可能了解清楚其发生的所有情境,否则要谨慎地推广结论。譬如,手机和平板电脑等移动设备上的新闻参与实际上被本研究排除在外。3)考虑到研究伦理,研究开展需事先征得参与者同意,进而获取追踪数据。但需注意,对线上的数字痕迹的监控可能存在着“霍桑效应”,即被调查者可能已经调整了他们的行为模式,以适应他们因为社会需要而被观察的事实。为解决该问题,该研究跟踪了一段相对较长的时间,让参与者有时间进行调整,但这并不能完全消除。4)为提升研究的准确性和可推广性,样本应具有一定的规模,因为相对较小的用户样本会限制其模型的泛化能力。(范晓光、闫堃 校对)
参考文献
Judith Möller, Robbert Nicolai van de Velde, Lisa Merten and Cornelius Puschmann. 2020. "Explaining Online News Engagement Based on Browsing Behavior: Creatures of Habit?" Social Science Computer Review
https://doi.org/10.1177/0894439319828012.
Markus Prior. 2015. "The immensely inflated news audience: Assessing bias in self-reported news exposure." Opinion Quarterly 73(1):130-143.
作者 | 任奕飞(浙江大学社会学系硕士研究生)
校对 | 范晓光(浙江大学社会学系副教授);闫 堃(浙江大学社会学系博士研究生)
编辑 | 谭 欢 周 航