查看原文
其他

文本分析方法在公共管理与公共政策研究中的应用

The following article is from 公共管理评论 Author 黄萃 吕立远

编者按文本分析法是指对文本的表示及其特征项的选取;是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。随着数据时代的来临,社会科学的研究范式迎来新一轮“大淘洗”。社会问题背后的社会信息充斥着整个网络,为文本分析方法提供全新舞台的同时也存在着潜在的、缺乏创新的威胁。本篇文章基于“研究语料—研究逻辑”的类型学分析框架对文本分析在公共管理与公共政策研究领域的研究方法应用进行了研究综述,为数据时代公共管理学科领域如何更好的运用文本分析方法提出了客观合理的建议。作者简介黄萃,浙江大学公共管理学院教授,研究方向为公共政策量化分析、信息资源管理、数字治理;吕立远,清华大学公共管理学院博士研究生,研究方向为科技政策、社会计算。文章结构一、引言二、分析框架 (一)“研究语料”维度:文本的形式特征/内容特征 (二)“研究逻辑”维度:描述性推论/因果推论三、文本分析在公共管理与公共政策研究中的应用规律 (一)基于形式特征的描述性文本分析 (二)基于形式特征的因果性文本分析 (三)基于内容特征的描述性文本分析 (四)基于内容特征的因果性文本分析四、文本分析的发展趋势 (一)从描述性推论到因果推论 (二)从结构化特征分析到非结构化特征分析 (三)从低频文本信息到高频文本信息 (四)从单模分析到多源、多模态数据分析五、总结与展望
摘要

数据时代的来临深刻影响了社会科学的研究范式。在不断增长的社会数据中,文本数据扮演着重要的角色,公共管理与公共政策领域开始越来越多地应用文本分析。本文基于“研究语料—研究逻辑”的类型学分析框架对文本分析在公共管理与公共政策研究领域的研究方法应用进行了研究综述。探讨了公共管理与公共政策领域涉及的文本分析研究在不同维度的分布情况,展望本领域发展文本分析方法的潜在路径。本文指出,文本分析将逐渐从分析文本的结构化特征向非结构化特征发展从开展描述性推论向因果推论发展;为更好地实现上述发展进程,研究者应收集更为高频的文本数据,并尝试将文本数据与更加丰富的数据源相结合

关键词:文本分析;公共管理;公共政策;研究综述




一、引言数据时代的来临深刻影响了社会科学的研究范式,基于数据驱动的研究已经成为科学发展的重要趋势之一。在不断增长的社会数据中,文本数据扮演着重要的角色。得益于数据技术的迅猛发展以及数字设备的广泛应用,政策文献、社交媒体、法律文书、档案史料、访谈资料、宣传文案、消费者评论等多样化的文本数据逐渐得到发掘,为研究者提供了更加丰富的实证素材和更为多元的研究视角。公共管理与公共政策领域也开始越来越多地应用文本分析。截至2019年12月,Web of Science核心合集中公共管理与公共政策相关学科收录的以“text analysis”(文本分析)为主题的研究超过8000篇,CNKI数据库中CSSCI和核心期刊的相关文献总量也已超过1000篇。如图1所示,2005年以后文本分析开始在本领域的英文文献中逐步推广,2012年以后相关的中文文献也越来越多地使用文本分析方法。此后,文本分析的学术关注度迅速增长,2016年以后一直维持在较高水平,已经在本领域的方法论体系中占有一席之地。

公共管理及其相关领域已经广泛地应用文本分析,但与经济学、管理学、政治学等公共管理的母学科相比,公共管理领域的文本分析深度还较为欠缺。上述学科在意识形态挖掘、投资者情绪、消费者意见等领域已形成了较为系统的文本挖掘策略,并结合文本挖掘开展了一系列因果推论研究。但在公共管理领域,绝大多数研究仍然停留在简单分类基于手工编码的观点提取层面,越来越不能够适应大数据时代的社会科学发展需要。大部分公共管理学者仍没有充分理解哪些文本挖掘工具能够进一步拓展经典理论问题的研究视野。Hollibaugh在Journal of Public Administration Research and Theory(《公共行政理论与研究杂志》)发表的文章中尝试对公共管理领域的文本分析进行总结,但该文主要侧重结合案例阐释文本分析流程,较少涉及对于文本分析应用规律和发展趋势的探讨。

因此,本研究以公共管理与公共政策研究者的视角对文本分析方法进行梳理。首先构建“研究语料—研究逻辑”的2×2类型学分析,并以此为基础探讨本领域应用文本分析的相关研究在不同象限的分布情况;然后结合文本分析的发展趋势,讨论本学科发展文本分析的潜在路径和需要关注的问题。本文讨论的“公共管理与公共政策”包含一切以公共事务为对象的管理和政策研究。为反映大数据时代的学术发展趋势,综述以定量文本分析为主。

二、 分析框架

文本分析与公共管理与公共政策研究的结合是本文关注的核心议题。本文基于“研究语料—研究逻辑”的类型学分析框架对文本分析在公共管理与公共政策研究领域的研究方法应用进行了研究综述(表1)。这一框架的构建有以下考虑:第一,方法论体系综述应当体现对于方法论核心要素的关注。对于文本分析研究方法而言,“研究逻辑”和“研究语料”分别回答了“为了研究什么”和“利用什么进行研究”两个方法论体系中的核心问题。特别地,在文本分析中“研究语料”较为集中地以语料的形式呈现,故本文选取“研究语料”及“研究逻辑”作为分析的基础维度。第二,该分析框架满足类型学研究“独立且穷尽”的基本原则。“研究逻辑”维度被划分为描述性推论和因果推论,“研究语料”维度被划分为形式特征和内容特征,理论上构成了所有文本分析研究的完备划分。第三,选择“研究逻辑”和“研究语料”两个维度进行分类,可以更好地呈现文本分析方法的发展趋势。以下对不同维度进行简要论述。

(一)“研究语料”维度:文本的形式特征/内容特征

语料是经过科学抽样和处理生成的数字化文本,构建高质量的语料库是进一步挖掘文本隐含知识的基础和前提。本文选取“研究语料”作为分析框架的一个维度,将其分为文本的形式特征和内容特征两个方面,主要回答了文本分析“利用什么进行研究”的问题。所谓“研究语料”的形式特征,主要指文本的发布时间、发布主体等外在特征;“研究语料”的内容特征,主要指文本的词语搭配结构、句式结构和语义特征等内在特征。上述语料的形式特征与内容特征对研究者理解文本起到不同作用,文本内容特征可以帮助研究者更好地理解文本“生产者”微妙的情绪和态度变化,文本形式特征差异可以帮助研究者更好地在海量文本间进行比较,理解不同角色“生产者”的立场差异。

(二)“研究逻辑”维度:描述性推论/因果推论

“研究逻辑”是本文分析框架的另一个维度,主要回答了文本分析“为了研究什么”的问题。在本研究分析框架中,“研究逻辑”维度被分为描述性推论因果推论。从方法论体系来看,推论是科学研究的基本目的,科学推论可以分为描述性推论和因果推论。描述性推论侧重于利用观察值推理难以直接得出的结论,侧重于挖掘“是什么”。因果推论则更加深入,关注挖掘“为什么”,也更受到研究者关注。随着时间的推移,发展更加精确的因果推论已成为社会科学发展的重要趋势,文本分析作为一种新兴的社会研究方法也不例外。

三、 文本分析在公共管理与公共政策研究中的应用规律

文本分析在社会科学中有着悠久历史。早期文本分析以质性解读为主。在结合社会历史背景的基础上,研究者可以通过分析文本中词句表述的变化,探究文本蕴含的态度与立场。上述分析主要针对文本的内容特征,侧重于因果性推论。但随着数据时代的来临,这一模式越来越受到真实世界的挑战。在数据时代,文本数据的来源日趋多元,规模也显著增加,依赖研究者先验知识的文本解读在操作成本、可重复性等问题上都越来越不可持续,研究者亟须发展适应大规模文本数据的分析方式。

由于文本形式特征的提取远远简单于内容特征,形式特征也成了数据时代文本分析的起点。本研究沿着由形式特征到内容特征、由描述性推论到因果推论的逻辑,对于文本分析在本领域中的应用场景进行综述。需要说明的是,上述研究范式的转变并不是一蹴而就的,早期研究也或多或少地存在着一些质性文本解读的色彩。

(一)基于形式特征的描述性文本分析

形式特征是文本数据中结构化程度较高的特征,不同类型文本数据的结构特征有一定的差异。在常见的文本数据类型中,社交媒体数据的结构化程度往往较低,其形式特征包括发文时间、发文地点以及发文人在社交媒体平台登记的部分人口统计学特征等。政策文本数据的结构化程度往往更高,其形式特征包括发文主体、发文时间、文件标题、文件主题词、文件参照关系等。通过对上述特征的分析,研究者可以挖掘丰富的公共管理与公共政策规律。

文本的形式特征很大程度上独立于内容特征而存在。某些关键的形式特征,例如发文主体、发文地点等,为公共管理与公共政策中的比较分析提供了一个天然的基准。研究者可以借助上述特征,对不同类型主体的态度立场行为规律进行时空比较。首先,特定时期内政府在不同领域内的发文数量直接反映了政府对于特定领域的关注度,研究者可以利用政策文献的颁布数量和颁布时间来测量特定时期内政府政策注意力的分配。其次,类似于科技论文中的关键词,主题词是揭示政策文本主要内容的规范化词组,研究者可以利用不同时期政策主题词的差异来反映政策变迁。例如,黄萃等通过对于主题词的聚类分析,呈现了1949—2010年中国科技政策体系的变迁路径。魏伟等拓展了主题词分析,给出了“高频词”“热词”和“新词”的操作化方式。该研究还计算了政府工作报告中三类关键词的时间序列变化趋势,分别对应不同时期中国公共政策的共性问题、热点问题和新生问题。此外,还有研究者通过对发文人的性别、党派等数据指标进行比较来了解不同类型主体间观点的差异。

此外,公共管理与公共政策活动涉及政府、市场和社会等不同主体的互动,形成了错综复杂的网络关系。借助文本的形式特征,研究者可以在一定范围内还原互动网络的结构形态,厘清不同主体间的互动关系,挖掘传统数据条件下无法呈现的社会互动模式。研究者可以利用文本数据确定互动关系网络的范围和边界。通过对于文本“生产者”的分布特征进行描述性统计,研究者可以直接确定哪些主体进入了互动网络。在此基础上,研究者可以利用文本的合著、引用、联合发文等特殊现象将文本数据转化为不同主体间的关系网络。通过计算网络的参数特征,研究者可以了解不同主体间互动模式的差异。例如,黄萃等以1978—2013年中国中央政府部门联合行文的1298份科技政策文本为基础,绘制中央政府各部门在科技领域的合作关系网络,并从责任和利益两个维度对不同部门的角色进行分类,挖掘科技合作中的府际关系模式。研究者还可以利用得到的网络结构,生成新的概念测度,丰富已有文献的理论内涵。例如,Huang et al基于政策参照关系绘制中国科技金融政策扩散的网络结构,基于网络结构测算了政策扩散的强度、广度、速度和方向,并对不同类型政策的扩散特点进行比较

(二)基于形式特征的因果性文本分析

与描述性分析相比,直接利用文本的形式特征开展因果性推断要更加困难。这主要受两方面因素的影响。首先,文本形式特征的结构化程度要远高于内容特征,这意味着形式特征往往更加离散化,能够提供的“变差”也相对有限。其次,文本的形式特征往往具有较强的外生性,很大程度上独立于文本“生产者”而存在,这意味着仅在形式特征层面解释不同主体的差异可能并未触及问题的深层机制。上述因素表明,直接利用文本的形式特征进行组间比较并不是开展因果性推断的可取思路。

一种兼顾实际意义和可操作性的研究路径是利用文本的形式特征,挖掘不同主体间相互合作、信息传递等社会互动关系,并解释这些互动关系的形成与演化规律。在利用联合行文、合著、引用、参照等关系构建网络的基础上,研究者可以利用网络动力学模型探究不同节点的属性特征、局部的网络结构与整体网络特征如何影响不同类型社会互动关系的形成。例如,Zhang et al.利用Web of Science中“情报检索”领域发表量前500名作者发表的期刊论文构建合作网络,利用指数随机图模型探究了同质性、传递性和优先连接逻辑在科学合作网络形成中的作用。

利用时间特征,研究者可以构建纵贯性的社会互动关系集合,从而更好地控制内生性,提供更高质量的因果推断环境。此时,研究者需引入动态网络动力学模型。例如,徐国冲和霍龙霞基于中央政府发布的190余份政策文本,构建了中央层面的食品安全监管合作网络,并利用随机行动者导向模型研究了2000—2017年中国食品安全监管网络演化的驱动因素,发现权威性逻辑是驱动网络演化的主要机制。总体来看,关注文本数据背后社会互动关系的形成机制尚属较为前沿的议题,公共管理与公共政策研究者对于起源于物理学的网络动力学分析范式了解相对不足,未来值得进一步探索。

(三)基于内容特征的描述性文本分析

内容特征是文本数据中非结构化程度较高的部分。与形式特征相比,文本的内容特征要更加复杂,话题、语气与遣词造句等诸多因素都可能直接导致文本的语义差异。这既给研究者带来了广阔的研究空间,也伴随着诸多挑战。通过对文本内容特征的描述性分析,研究者可以进一步了解文本背后反映的复杂语义与倾向性,也可以进一步了解不同文本(语义结构)间的相互关系。

对于单一语义结构的倾向性研究,研究者经历了一个逐步深入的过程。早期的内容语义研究带有一定程度的文本解读色彩。研究者往往在确定先验规则的基础上,基于对规则的理解对文本进行主观编码,通过编码结果的统计分析挖掘文本的语义特征。一个典型案例是对于政策工具及其组合的研究。例如,范梓腾和谭海波通过自动编码的方式分析了不同地区发展大数据产业过程中政策工具的运用偏好以及政策工具与目标的匹配性。由于上述方法具有简便易行的特点,研究者基于政策工具的不同分类方法,已将其推广到科技成果转化政策、区域合作政策、少数民族文化遗产保护政策、智慧城市政策、气候变化政策以及食品安全监管政策等多个政策领域。除此之外,还有若干研究基于类似逻辑探索了政策工具的组合特征,例如政策工具组合的协同性、平衡性等。

随着数据规模的提升,基于先验规则的文本分析难以为继,面向大规模文本的自动信息提取研究逐步兴起。这很大程度上依赖机器学习的引入,其可以分为基于词典的无监督学习和基于标注样本的有监督学习两类。其中,基于词典的无监督学习方法相对运用得更加广泛。研究者可以通过KNN模型、隐含主题模型等算法对于大规模文本数据进行聚类降维,利用词典所蕴含的先验知识对于文本主题进行定性判断。例如,已有文献通常认为威权政府倾向于通过信息审查的方式来排除异己。King et al.系统地收集了2011年上半年中国1382个主要网站的发帖数据,通过主题模型对于文本进行聚类,检验什么样的帖子更容易被政府删除。结果表明,中国政府并没有更加倾向于删除那些批评政府的发言,而是重点审查试图煽动社会运动的发言,大大增进了学界对于政府信息监控动机的理解。此外,上述方法还被广泛地应用于舆情观点、政策感知与反馈等不同的研究领域。

在对于主题内容进行定性判断的基础上,研究者还可以借助字典对文本进行定量的情感计算,从而建立起文本与理论概念间的连续映射关系,从而提升理论的概念化程度。例如,意识形态是政治学与公共政策研究中的重要议题,但传统情况下研究者很难在个体行为和意识形态倾向间建立起连续的映射关系。基于政治学专业词典的构建,诸多学者开始尝试对意识形态进行定量计算。例如,Slapin and Proksch构建了一个左右翼政治倾向性词典,利用政党宣言文本,通过词频分析,构造了1990—2005年德国不同政党的政治倾向性指数。Gentzkow and Shapiro利用媒体语言中的常用词汇和政党议员发言文本的相似性构建了美国媒体的政治倾向性指数,发现上述结果与专家分类结果接近。

基于标注样本的有监督学习则相对少见,这很大程度上源于本领域高质量标注数据的稀缺。本领域关注的语义概念往往不局限于喜悦、愤怒等简单的感情类型,有时涉及意识形态、模糊性、平衡性、冲突性等人为建构的概念。此时,获取高质量标注数据的难度就大大增加。相对而言,标注政策议程、政策工具类型等客观性更强的概念要更具有可操作性。

对于多语义结构间关系的研究,研究者主要关注语义结构的相似性和关联性。相似性层面,研究者可以借助词嵌入等技术构建语义向量,通过不同向量间的距离来表征不同语义结构间的相似性。前文已经谈到,研究者可以通过政策文本的参照关系绘制政策扩散的网络结构图,从而描述政策扩散的差异化特征。然而,上述方法也存在着将政策扩散的不同阶段给予同质化处理的缺陷,政策扩散中还存在不同程度的“再生产”现象。例如,郁建兴筛选出中国各省29份具有代表性的“最多跑一次”政策文本,运用文本相似度计算方法,定量地刻画了“最多跑一次”政策扩散过程中再生产现象的空间分布规律。此外,亦有学者创新性地将文本相似度计算方法运用到新经济业态的分类上。该研究基于公司公开披露信息中的产品描述文本进行计算,将提供相似产品的公司划分为一个行业,发现上述划分方式能够提供更好的组内一致性。在关联性层面,研究者可以通过并列、转折、共现等特殊关系构建不同语义结构间的关系网络,从而挖掘出具有关联性的语义结构。例如,Yang et al.改进了传统的SAO框架,提出一种基于SAO链路的网络分析方法。该方法将构建语义网络与复杂网络分析方法相结合,基于石墨烯领域的专利文本数据,通过计算不同议题节点的Burt约束、节点度和网络中心度分布随时间的变化趋势,挖掘不同技术概念中的“结构洞”,以此来预测技术演化方向。

(四)基于内容特征的因果性文本分析

随着提取复杂语义的技术日趋成熟,研究者开始将通过文本内容获取的复杂语义特征变量与因果推论相结合,更加深入地挖掘社会现象背后的因果关系。本质上,利用文本内容特征开展因果性分析并不是孤立的,而是在提取非结构化语义基础上的再发展。上述尝试大大拓展了文本分析研究者的研究视野,也是目前发展文本分析方法的前沿所在。

当利用文本分析进行因果推论时,研究者往往可以从两个维度出发。一是将文本作为“生产者”观点、特质与策略的反映。二是将文本作为“接受者”态度和行为的反映。通常情况下,两个维度是相辅相成的,即研究者关注文本“生产者”的观点与特质如何影响“接受者”的态度与行为的研究。该研究基于中国地方政府领导留言板和地方政府工作报告文本,利用隐含主题模型对民众留言和政府工作报告进行聚类,发现公众关注点的变化能够显著地正向影响该地区第二年政府工作报告的主题变化。这一研究同时从“生产者”(民众)和“接受者”(政府)两个维度收集具有代表性的文本数据,从而系统地回答了“生产者”观点如何影响“接受者”的行为变化,对于未来的文本分析研究具有很强的参考价值。

除此之外,要更好地利用文本分析进行因果推论,研究者还需要跳出具体的文本内容,在更加广阔的时空范围内考察研究对象的社会历史背景,发掘重大社会经济事件背后文本集合语义与主题分布的变化。例如,已有文献指出,政治家选举中面临的党内竞争越大,往往越倾向于减弱对普惠性物品的承诺。1994年,日本进行了选举制度改革,降低了议员选举过程中的党内竞争。Catalinac以此次改革作为外生冲击,对上述理论进行实证检验。该研究基于1986—2009年日本众议院7497名候选人的竞选文本,利用隐含主题模型生成了最常涉及的69个主题,发现1994年以后议员对于普惠性物品的承诺总体上有所增强,证实了已有文献对于政治家策略性行为的理解。

四、文本分析的发展趋势

结合文本分析的方法体系,本章根据文本分析的发展趋势,从4个方面论述其与公共管理与公共政策研究结合的潜在路径。首先,“研究逻辑”维度需进一步发展结合文本的因果推论,拓展文本分析的研究深度。其次,“研究语料”维度需进一步发展对文本非结构化特征的分析,拓展文本分析的研究广度。此外,还需要收集更加高频的文本信息,并尝试将文本数据与多源、多模态的数据类型相结合,为实现更加广泛的高质量因果推论奠定基础。

上述4项趋势并不是孤立存在的。首先,“研究逻辑”的深化是进一步发展文本分析的核心,通过发展结合文本的因果推论,文本分析将进一步融入社会科学的主流方法论体系。其次,“研究语料”的丰富将进一步拓宽文本分析对象,从而为“研究逻辑”的深化提供更加多元的路径。最后,高频率文本数据收集与多源多模态信息融合是进一步深化“研究逻辑”的保障。通过采集更高频率文本构建纵贯性数据集,并融入更加丰富的情境与社会背景信息,将进一步提升基于文本的因果分析质量。

(一)从描述性推论到因果推论

文本分析的核心发展趋势是进一步拓展结合文本的因果推论,从而进一步融入社会科学的主流方法论体系。前文已经提到,推论是科学研究的基本目的,科学推论可以分为描述性推论和因果推论。随着文本分析的发展,研究者不再满足开展简单的描述性推论,而越来越关注如何利用文本数据挖掘复杂社会现象背后的因果关系。这些研究可以横跨政府、市场乃至个人等不同层次。例如,以金融市场分析师作为研究报告的“生产者”,研究者可以挖掘分析师的表达策略如何影响公司股票收益率。以CEO作为公开演讲的“生产者”,研究者可以挖掘领导人性格特质如何影响公司经营绩效。

相比较而言,目前公共管理与公共政策领域的文本分析还是更多立足描述性推论。例如,通过联合行文网络分析政策扩散过程的速度、广度,测算政策文本的相似度等,只有少数论文尝试挖掘政策问题中的因果效应。这些工作的切入点也较为单一,集中于将文本聚类后利用不同类别文本数量反映特定主题的“强度”属性。例如,政策工具组合强度、公众对于特定问题的关注强度、政府对于特定问题的回应强度。未来,本领域研究者应进一步考虑将非结构化语义提取与因果推论相结合,以提升文本分析在公共管理与公共政策研究中的应用深度。

(二)从结构化特征分析到非结构化特征分析

在“研究语料”层面,文本分析需从结构化特征分析进一步向非结构化特征分析发展,从而进一步扩大文本分析的对象范围,拓展应用广度。所谓结构化特征,既包括高度结构化的形式特征,也包括部分结构化程度很高的内容特征,这些特征提取相对容易。越来越多的研究者开始不满足于此,尝试探究一些无法按固定规则直接从文本中提取的非结构化特征。对于非结构化语义的挖掘可以从词语、语句乃至篇章等不同层次开展,本质上是在标注样本、分词、实体识别等工作的基础上,结合多样化的统计和机器学习方法,对于信息进行加权处理。

首先,词语尺度的非结构化语义提取发展最为成熟。基于成熟的情感字典和实体识别技术,研究者尝试提取了语言的模糊性、情感积极性、态度分歧性、信息复杂性、信息翔实性等一系列复杂的非结构化语义。其次,语句层面的非结构化语义提取相对而言更加复杂。研究者可以直接根据先验知识进行专家样本标注,利用标注样本进行机器学习。研究者也可以利用先验知识制定匹配规则,利用正则表达式技术匹配特定的语义结构,按照类似于词语尺度非结构化语义提取的思路生成相应的语义变量。最后,篇章尺度的非结构化语义绝大多数情况下依赖机器学习技术的运用。研究者可以利用无监督学习技术对海量文本进行降维,从而提取每一段文本的主题信息。监督学习方法在这一类研究中相对少见,高质量的标注数据可能是制约这一问题的关键因素。要解决这一问题,研究者往往需要依赖成熟的理论量表。

上述三种方法各有优劣。词语尺度的分析技术路线最为成熟,但可能忽略词语间不同的排列组合方式;篇章尺度的分析能够把握文本的宏观结构,但操作过程中非常依赖专家样本,操作难度更大;语句尺度的分析则介于两者之间。具体到公共管理与公共政策研究中,研究者应注意根据场景需要选择合适的语义提取方式。本领域研究所需提取的语义与其他学科相比往往更加复杂,且存在较高的情境依赖性,涉及谐音、隐喻等现象。此时,词语尺度的分析未必能够准确把握宏观语义结构以及文本背后的真实情感,篇章尺度的标注也未必能够清晰地在模糊的理论概念间做出区分。一种可行的思路是开展理论驱动的半监督学习,从而在先验知识与文本的复杂性间寻求平衡。

五、总结与展望

作为一种可观测的公共事务信息的物化载体,日益增长的文本信息为公共管理与公共政策研究者提供了一条可以依托的分析路径,补充和丰富了公共管理与公共政策学科的研究范式。基于高频率、多样化的社会文本数据,公共管理与公共政策研究者可以开展不同类型的研究工作。通过引用、参照、共同发文等,研究者可以结合网络分析,深入挖掘公共管理与公共政策活动中不同主体间互动模式的差异性及其历史演化进程。通过对文本的聚类分析,研究者可以实现对复杂社会信息的降维,理解主体注意力在不同问题间的分配,发掘不同群体对于特定问题认知逻辑的差异,找出问题解决中的“关键少数”和实践发展中的“新生事物”。通过对特定词组、语句乃至篇章的语义计算,研究者可以将文本特征融入因果推论过程中,既可以挖掘公共管理活动如何影响大众情绪感知的变化,又可以探究各方微妙的态度变化如何影响公共管理活动的绩效和结果。此外,文本分析还能够与不同类型的数据相整合,解决传统研究中面临的诸多难点。

未来,文本分析将立足进一步发展结合文本的因果推论,从而更好地融入社会科学的主流方法论体系。在实际操作中,大数据时代的公共管理研究者可以关注包括但不局限于以下的研究路径,开展更高质量的文本分析。第一,结合文本长度、文本结构等因素,采用长短期记忆网络等更加先进的分类技术,对于海量的政策文本、社会舆情文本进行更加精准的分类降维,更高质量地描绘特定问题背后的政策倾向与社情民意分布。第二,结合传统的手工编码过程,标注一批质量较高且具有公共管理理论价值的文本数据集合,运用(半)监督学习思路挖掘特定的非结构化语义特征。第三,基于纵贯性的文本数据集合,结合社会经济背景信息,在前两条路径的基础上,挖掘政策或社会事件冲击背后文本语义及主题分布的变化趋势,探讨变化背后的公共管理与公共政策意涵。

此外,在发展文本分析的过程中,研究者还有一系列问题需要关注。首先,研究者应关注文本数据的生成环境。存在偏向性的社会环境将生成偏向的数据集合,从而导致偏向的分析结果。其中,算法的运用程度越高,偏向性会被放大得越明显。例如,审判文书可以帮助研究者理解特定领域的法治状况,但如果文书上网概率存在系统性偏误,分析结果就可能有偏差。社交媒体文本也可能存在类似问题。Barberand Rivero指出,Tweet用户存在明显的性别差异、城乡差异和活跃频率差异,Tweet文本分析可能导致某些群体被过度代表。针对这一问题,苏毓淞和姚雨凌指出,对原始数据进行事后的分层加权处理可能是有益的。其次,研究者应关注文本收集过程中的合规性。爬虫技术大大拓展了研究者可以利用的数据源,但网络空间的数据权问题正越发引起公众的担忧。尽管现行法律尚未对收集公开数据做出明确限制,上述行为仍可能带来日益增长的合规风险。研究者需确保数据收集过程中没有侵害相关主体的数据权利。最后,研究者还应拓展适用于公共活动场景的专业词典。专业词典是先验知识的结晶,是发展文本分析的“基础设施”。目前,西方研究者已建立起一些成熟的公共管理语料库。例如,德国柏林社会科学研究中心比较政见项目开放了1945年以来超过50个西方国家的政策语料库,其中包含近80万条特定政策术语。但面向中国背景开展的类似工作还相对罕见。

需要说明的是,本文所综述的文本分析研究进展主要集中于定量文本分析。这更多反映出大数据时代学术焦点的变化,并没有否认传统质性文本分析的价值。基于计算方法的定量文本分析在可重复性和操作成本上具有突出优势,能够将一套确定性较高的流程应用到更大规模的文本上,对于每个“点”而言,结论的可重复性更强,成本也相对较低。但很多时候,对于文本特征的计算并不能绝对地反映文本本身的意蕴和内涵。对于政治活动与公共管理而言,研究者也不能跳出时代背景孤立地理解文本。此时,质性文本分析往往能在更大范围内将时代的基本“面”纳入考虑,弥补计算方法的不足。因此,大数据时代公共管理公共政策领域的文本分析更要点面结合,更好地发挥现代计算方法与传统质性方法的优势,推进本领域研究的不断深入。



往期推荐:

1.容错纠错机制为何难以操作?——基于政策文本的实证分析

2.一线行政人员身份建构的策略及其作用机理——基于工作现场的会话分析

3.网络舆论是如何形塑公共政策的?一个“两阶段多源流”理论框架——以顺风车安全管理政策为例

4.社区治理研究方法百年:议题变化下的理论主轴与实证增进




文章来源:《公共管理评论》2020年第4期
本期编辑:胡学湉

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存