从文本到社会知识:
基于文本的社会科学研究综述
来源 | 社会研究方法评论第一卷
作者 | 陈金燕
责任编辑 | 刘媛渊
摘要:
基于文本的社会科学研究本质是使用特定方法将文本转换为知识;本文将综述相关方法及其在社会科学中的应用。首先,本文将简要回顾从文本中获得社会知识的思想基础,讨论为何文本能用于研究社会现象;然后,本文系统梳理文本分析方法,包括作为语言符号和作为数学表示的两类方法,回应已有研究“偏数学而轻语言”的现状;接着,本文根据分析方法总结出不同的分析任务,并进一步整理与分析任务对应的学科研究议题,包括社会学、政治学、公共管理、新闻传播、经济学、金融学和公共卫生七个学科。
关键词:
文本分析;语言符号;数学表示;计算社会科学
一、引言
用文本研究社会现象的本质是将文本转换为社会知识。研究开始前需要思考三个问题:一是为何文本能用于研究社会现象;二是有哪些文本分析方法;三是怎么将分析方法与学科研究对象结合起来。
文本之所以能够用于研究社会现象,是因为文本是人类知识和记载人类社会进程的最主要的载体之一,记录了个体和集体的观念、行为和互动过程,呈现了广泛而细致的社会生活景象。文本既存在于呈现线上社会生活的社交媒体、即时通信中,又存在于为方便传播和存档而电子化的新闻报道、法律政策文本、电子书籍、转录的视频文本、医疗记录中。在当前计算机和互联网的发展浪潮中,文本数据量出现了爆炸式增长,为学者提供了丰富的观察社会现象的经验材料。
为了从文本中挖掘出知识,学界发展了许多分析方法;除了质性研究法中的文献阅读法、内容分析法等,目前主要发展的是文本的数学表示及其模型,例如词频—逆文档频率(term frequency - inverse document frequency,tf-idf)、主题模型(topic model)、词嵌入(word embedding)等。但较少研究关注文本的语言符号意义,事实上它们也具有丰富的社会科学价值,已经发展出语义场、词类、词组、句法分析等方法。这些方法将文本中的社会痕迹(traces)转化为有价值的数据(Grimmer & Stewart,2013),呈现了不同类型、不同细粒度的社会信息,形成了社会科学研究的分析基础。
分析方法与学科结合的方式是,将文本转换得到的数据,通过某种应用思路来回答研究议题。已有综述主要从两方面总结应用思路——社会科学整体和单一学科。整体上,James & Aceves(2016)依据社会世界的层次(layers)提出“集体注意力和推理(内容层次)、社会互动(过程层次)、社会状态/角色/变迁(信号层次)”的应用思路。Berger等(2020) 区分了文本生产者和文本接收者,并在此基础上依据学科特点提出了4类主体——消费者、公司、投资者、机构/社会之间的互动分析思路。单一学科方面,Gentzko等(2019)总结了政治学的应用思路——划分已知/未知文本类型、获得政策文本主题、预测文本生产者、测量行动者的政治空间位置等。沈艳等(2019)提出经济学和金融学的分析思路,前者主要用于刻画经济政策不确定性、对行业进行分类、预测经济周期、度量媒体报道偏差、量化央行政策沟通内容等,后者用于建构投资者/媒体关注度、测量投资者/媒体/管理层情绪、度量文本可读性/复杂性、测量金融市场不确定性、构建投资者分歧指数等。但这些总结要么过于抽象,难以应用到各个学科来启发新的研究议题;要么过于具体,较难启发其他学科的研究路径;同时较少提及与分析方法间的联结。
本文将尝试在方法上总结数学表示和语言符号表示两类方法,回应已有研究“偏数学而轻语言”的现状;在应用方面,总结与方法直接对应的分析任务,及其对应的各学科研究议题,从而缩短方法与研究议题间的思考距离;在此之前,也会简要回顾文本用于社会科学分析的思想基础。具体而言,本文分为四个部分:第一部分简要回顾从文本中获得社会知识的思想基础,包括文本为何能够呈现社会世界、文本为何能够作为语言符号系统和数学表示进行分析。第二部分系统回顾文本分析方法,一是文本作为语言符号系统的分析方法,包括词语层次和句子层次,涉及词类、词法范畴、句法分析、会话分析等;二是文本作为数学表示的分析方法,包括数值特征类、分类/聚类、网络、矩阵/向量空间四种主要类型。第三部分讨论如何在具体研究议题中运用分析方法,首先根据分析方法总结出不同的分析任务,再整理与分析任务对应的学科研究议题。第四部分是讨论和反思。
二、从文本到社会知识的思想基础
(一) 文本中的社会世界
文本能够呈现社会世界。“语言是存在之屋”(Heidegger,1946),即事物的“存在”呈现在人们所缔造出来的语言或文字之中,最后人们所建构的“实在”,变成了“实在自身”。而建构的实在,既包括“生活世界”(life world),又包括科学家建构的“微世界”(microworld)(Wallner,1994;黄光国, 2006)。文本能捕捉社会世界的变化,这是因为文本的诞生是为了方便记录和传播,与社会关联密切,使得社会生活的变化或多或少能够反映在语言中(陈原,1983)。
文本能够反映不同颗粒度的社会信息。维特根斯坦(1996)提出,世界与语言间的关系是一一对应的,它们中的层级关系也是一一对应的。文本既呈现了现实世界粗粒度的内容,例如新闻报道的社会事件文本、社交媒体文本反映的情绪,又能捕捉细粒度的信息,如美国社会语言学家Nessa Wolfson(1983)所说的,文本呈现了“说话人对听话人,在什么时候,以怎样的方式,说了什么”(Who says what to whom,when and how) 的微观互动情况。
(二) 社会世界的表示:语言符号和数学表示
社会世界在文本中主要有三种呈现形式,本综述主要讨论后两种。第一种是非结构的、直接呈现的文本;第二种是带有社会意义的语言符号,例如表达人和事物的名词、表现说话人情绪的句子类型(陈述句、疑问句、祈使句、感叹句等);第三种是抽象表示的数学符号,例如呈现人们认知空间的词嵌入(Garg et al.,2018)、呈现人们关注内容的主题概率分布(Farrell,2016)等。
从发展缘起看,文本、语言和数学三者具有天然的相通性。虽然它们在人类历史的发展中曾经一度分道扬镳,但随着自然语言处理和计算社会科学的发展,最终仍然走到了一起(吴军,2012)。具体而言,文本 (文字)、语言和数学的本质目的在于传递信息。其中,文本是语言的书写符号系统,具有语言的词义、句法等属性,而数学能够表示和度量文本和语言中的信息,建立起可计算的信息系统(即香农信息论的思想)。
与呈现形式相对应,学者主要采用三种方式来挖掘文本背后的社会世界。一是将自己作为方法的定性研究法,研究者自身对文献资料、网络民族志文本进行阅读、理解和分析;二是将其作为人类语言,分析其形式、含义和语境等,沿着语言学的思路来理解社会;三是将其转换为数学表示,试图通过计算和统计等方法来挖掘背后的社会知识。
文本能够呈现社会世界,并且除了非结构化文本以外,主要有语言符号和数学符号两种表示,那么下面将总结两种表示相关的文本分析方法。
三、作为语言符号的文本方法
文字是记录语言的书写符号系统,其背后具有丰富的社会属性。作为语言符号的文本分析方法主要分为两类:词语层面和句子层面,后者较前者的信息更为丰富。
(一) 基于词语层面的语言符号
词语层面包括词语的指代对象、语义场、词类和词组等方法。指代对象是词义所指代的具有意义的对象,例如人、事件、工作名称、性别等,使用命名实体识别(Named Entity Recognition,NER)等方法,将指代对象组合起来,计算词频或构建指标,进而做统计分析。例如 Elizaveta Sivaka 和 Ivan Smirnov(2018)用网络帖子中不同群组提到“儿子”或“女儿”的比例,以及提到孩子的平均次数、帖子获得的“喜欢”数量等信息,分析社交网络环境是否会通过奖励带有性别、孩子的帖子来强化性别偏见,发现男性和女性在微博中提到儿子的频率都高于女儿,一定程度上表明性别不平等可能在人生早期就开始了。
语义场采用了义素分析法,通过不同词语间基本语义单位——义素的共性和差异性来呈现语义空间中的结构。主要的常用义素/义原知识库包括知网的HowNet,呈现了“义素/义原—词义—单词”的三层语义结构关系;语义场的分析既需要义素分析法,也需要网络分析法。基于“共词化”(colexification),即同一词表达不同含义的现象的假设,Joshua Conrad Jackson等(2019)通过词语背后的情绪概念网络,分析不同语系在情绪网络上的共性。
词类是语言的语法分类,即根据语法特征 (包括句法功能和形态变化) 为主要依据,兼顾词汇意义对词进行划分的结果,主要运用词性标注法(Part-of-Speech tagging,POS tagging)。中文词类可分为两大类,实体和虚词;实体又包括名词、动词、形容词、数词、量词、代词、区别词等,虚词则包括副词、介词、连词、助词、叹词、语气词、拟声词等。研究者可根据词类特征构建指标,用于测量社会特征或理论概念。例如 Kayla N. Jordan 等(2019)用虚词建构了分析性思维和自信的测量指标,前者为“冠词+介词-代词-助动词-副词-连词-否定句”并标准化,后者为“我们+你/你们-社会类词-我-脏话-否定词-区别词 (differentiation words) ”并标准化;他们发现,在过去一个世纪里,在与公众的互动中,领导人分析性思维下降,自信力上升。
词组是由两个或多个词组成的语言片段,相较词语本身有更丰富的信息。例如龚为纲等(2019)计算了与“of China”相关的词组频数,发现“rise of China”“against China”“threat of China”是出现频数最大的词组;他们认为,这说明当前美国涉华公共舆情的总体特征是“中国崛起和应对中国崛起的中国威胁论”。
(二) 基于句子层面的语言符号
句子层面的分析方法包括句法分析、句子功能及语气和会话分析等方法,相较词语层面的分析方法有更丰富的信息。
句法分析指的是从句子层面对词语的语法功能进行分析,包括分析句法结构 (如主谓宾结构) 和词汇间的依存关系 (dependency parsing)(如并列、从属等)。例如 Cristian Danescu-Niculescu-Mizil等(2013)用语义和句法特征建构礼貌分类器,如以“你”开头的句子结构是不礼貌的,表现为“你应该”(You need to)。PhilipBramsen 等(2011)使用了词义和句法特征等,建构权力关系分类器(向上级、向下级、平级)。丘心颖等(2016)用完整句子(含有主谓结构)的占比、基础词汇占比和汉字笔画数等构建年报文本的可读性指数。句法中的语序也能够进行分析。如Michael Hahn等(2020)分析了51种语言的实际语序和反事实语序,用模型衡量它们的交际效率和认知效率,发现人类语言语法的共通部分似乎找到二者间的平衡:既要简单到让说话者能够轻松地造出句子,又要复杂到让听者能够清楚地理解。
句子功能和语气的分析是以意义为基础、以语气为标准进行句子分类,可呈现句子背后的逻辑认知和情感态度,使用语气词识别或分类算法。例如Xiaoying Wang和Xiaonan Zhu(2017)基于句子的语言风格反映了作者特有的逻辑认知和态度的假设,提取和分析语言特征,包括陈述句、疑问句、感叹句的比例,来预测文本作者。
会话分析基于常人方法学(ethnomethodology)(Garfinkel,1967)和符号互动理论(Goffman,1967)发展而来,用于研究语言的交际互动,分析对象包括日常生活会话和机构会话,后者包括医患会话、法庭控辩双方会话等。例如Gabriel Doyle等(2016)用文本测量推特互动中的语言协同(linguistic alighment),即一个人的语言使用多大程度受另一人影响,呈现了日常会话中权力的作用过程。
四、作为数学表示的文本方法
数学表示的文本分析方法分为四种类型:一是数值特征,通过计算方法将文本转换为频数/频率、特殊指标和文本表示等;二是分类和聚类,用分类和聚类算法获得文本类别;三是网络方法,又分为网络建构和分析,网络类型 (包括基于词性、依存句法等的网络) 用一种或多种类型的节点建构一模或多模网络和呈现知识和事件关系的知识图谱和事理图谱,而分析方法包括基于节点/边的分析和基于子图的分析;四是矩阵/向量空间,包括主题模型及其扩展模型、词嵌入等。
(一) 数值特征类方法
频数指某对象在文本中出现的频数,其对象可以是特定属性的词语、特定词类(如名词) 等;相对频数则是该对象频数占文本词语总数的比例,用于描述属性或词类等对应社会特征的基本情况。其中有两种主要应用思路:一是社会特征随时间的变化。例如Jean Baptiste Michel 等 (2011) 用谷歌图书语料库分析关键词的使用频率变化,呈现了 1800 年到 2000 年英语世界中的语言和文化现象,并将这类工作称为“文化组学”(culturomics)。陈云松(2015)沿着这一思路研究了 19 世纪中期以来社会学的发展历程,包括学科轨迹、名家大师、理论流派、领域热点、分析方法和中国社会学的文化影响力。二是使用字典,计算文本中每一类词汇的出现次数,从而获得文本不同类别的得分,可根据文本情况加权处理,又被称为字典法(dictionary methods)。研究者既可以根据研究目的整理字典,也可以用公开的发展较为成熟的字典。字典法常被用于测量情绪 、 价值取向等 。例 如 Elizabeth E. Bruch 和 M. E. J. Newman(2018)、Scott A. Golder 和 Michael W. Macy(2011)和 Karthik Sheshadri 和 Munindar P. Singh(2019)等学者从语料库中提取情感词汇,并用其出现频率测量个体情绪或新闻框架的极化指标。Koen van Bommel(2014)用社会学价值(sociology of worth,SOW)字典测量了工业、市场、市民、绿色领域的价值取向。较常使用的分析工具是语言获得和词汇计数 (Linguistic Inquiry and Word Count,LIWC) 方法,能够将词汇归类到多个预设类别中,例如语言类(人称代词、连词等)、心理类 (生气、焦虑等)(Pennebaker et al.,2001)。Ashlee Humphreys 和 Rebecca Jen-Hui Wang(2018)尝试整理了部分标准字典,包括通用类、消费类、心理类、情感类、社会类字典。
特殊指标指根据特定计算方法获得的指标。本文主要介绍政策立场和可读性。政策立场可用词语得分(wordscores)和词语缩放(wordfish)方法,一定程度上前者是有监督的,后者是无监督的。词语得分由 Laver 等(2003)提出。其基本思想是:每个词语反映了不同程度的政策立场,即权重得分;通过计算词语权重得分的平均值,获得文本的政策立场。基本步骤是:将文本分为参考文本(reference text)和待处理文本(virgin text),并分词;给参考文本设置政策得分;基于词语的条件概率分布,用参考文本的政策得分计算词语的权重得分;用词语的权重得分计算待处理文本的立场得分。词语缩放(Slapin & Proksch,2008)则是假设各政党在各文本中词语的相对频率能够反映他们在政策空间中的位置。如果在经济政策中,一个政党使用“发展”(词语) 的频率高于“稳定”(词语),而另一个政党使用“稳定”(词语) 的频率高于“发展”(词语),那么这两个词语一定程度上反映了经济政策维度的政党立场。例如许鑫等(2013)用wordscores计算政策文本在经济价值、科技价值和社会价值3个维度的得分。Sven Oliver Proksc和Jonathan B.Slapin(2009) 用wordfish分析德国各党派的竞选文本,呈现了各党派的政策立场从 1969年到 2005年的变化,发现所有党派位置的变化趋势相似,体现了较强的政策议程效应。Gentzkow 和 Shapiro(2010)的思路与wordfish类似,先从文本中获得与政策立场高度相关的 1000 个短语,根据这些短语的文本分布和文本的立场标签,回归得到最能预测立场标签的短语及其回归系数,由此计算报纸的政策立场。可读性(readability)指标表明文本的阅读难度,由词语数、句子数、句子长度、图表数和文本大小、复杂词语占比等特征计算获得。Gunning(1952)提出迷雾指数,即用平均词语长度和复杂词语占比测量,后被金融学用于分析上市公司的年报;John S. Caylor 和 Thomas G. Sticht(1973)专门提出了工作阅读材料的可读性指标,这启发我们可以根据不同的研究需求或自己设定可读性指标,探讨与文本信息传达效率相关的研究问题。
文本表示,指的是将文本转换成计算机可理解的表达,单篇文档表示为向量,整个语料库表示为矩阵。它较少直接用来分析问题,而是作为其他分析方法(分类/聚类算法、主题模型、神经网络等)的基础。主要包括独热表示 (one-hot)、词袋表示 (bag of words,BOW)、n-gram 表示、标准化频率表示和特征权重表示等。One-hot只表示术语出现或不出现在文本中;BOW提供了术语在单个文本中的出现次数,可以进行标准化;n-gram是按长度n从文本中切分得到的词段。特征权重一般有布尔权重 (即独热表示)、tfidf 型权重和基于熵概念权重等。Tf-idf 为词频-逆文档频率(term frequency–inverse document frequency);其主要思想是:如果某个词或短语在一篇文章的出现频率高,在其他文章的出现频率低,那么这个词或短语具有很好的类别区分能力。基于熵的权重将出现在同一文档的特征赋予较高权重。这些表示方法对分类、聚类等算法的表现有重要影响,因而文本预处理时应注意哪一种表示更适合。
(二) 分类/聚类方法
由于分类和聚类方法都是用于获得类别信息,因此本文归为一类;区别在于分类方法是有监督的,聚类方法是无监督的。
分类方法的目的是根据给定文本的类别标签推断其他文本的类别,核心方法思想是提取分类数据的特征,然后选择最优匹配实现分类。方法包括浅层学习模型和深度学习模型两种。浅层学习是基于统计的模型,包括朴素贝叶斯(naive bayes,NB)、k 近邻(knearest neighbor, KNN)、支持向量机(support vector machine,SVM)、决策树(decision trees,DT)、随机森林(random forest,RF)等。深层学习模型则包括 FastText、TextCNN、TextRNN 等,它避免了人工特征工程的工作。
文本分类的主要流程为:预处理文本数据,将文本转换成向量表示,例如词袋表示、n-gram表示等;如果用浅层学习模型,需人工进行特征工程,再用SVM和NB等经典算法分类,分类效果很大程度受特征工程的质量影响,如果用深度学习模型,则通过学习一组非线性变换将特征直接集成到输出中,从而将特征工程集成到模型拟合过程,这一过程需根据数据情况选择模型和使用交叉验证等方法调优;用准确率(accuracy)、精确率(precision)、召回率(recall)、F1 分数、微 F1 分数(micro-F1)等评估模型效果;将训练好的模型用于预测分类标签,包括情绪、主题和其他分类变量(Li et al.,2020)。
聚类方法在预先不知道类别的情况下,对比若干文本的相似度,最后将相似度高的归为一类,其本质是以无监督的方式基于一定规则获得文本的类别。目前聚类算法主要分为六类:基于划分(partition)的聚类算法、基于层次(hierarchy)的聚类算法、基于密度(density)的聚类算法、基于网格(grid)的聚类算法、基于图论(graph theory)的聚类算法和基于模糊(fuzzy)的聚类算法等(Saxena et al.,2017)。其中,基于划分的聚类目标是类内数据尽可能相似,类间尽可能不同,其代表方法是k均值(k-means)算法。k-means的基本思想是:根据一定策略选择k个点作为每一类的初始中心。然后将剩余数据划分到距离这k个点最近的类中,然后在新生成的类中重新计算每一类的中心点,再重新划分,直到每次划分的结果保持不变(如果很多次迭代仍无法保持不变,则设置最大迭代次数)。基于层次的算法根据聚类的方向分为凝聚式和分裂式,前者“自底向上”,后者“自顶向下”。各类算法在鲁棒性、精确度和计算量等方面存在差异,需根据文本情况和算法效果来选择合适的算法。聚类算法常见的评价指标有纯度(purity)、兰德系数(Rand index,RI)、 F值(F-score) 和调整兰德系数(adjustedRand index,ARI)等。
在实证研究中,研究者可用分类和聚类方法获得文本类别,然后进一步对每一类别做描述性分析,或者作为分类变量使用等。分类和聚类算法也可以用来识别情绪和政治立场类别。Eytan Bakshy等(2015)用SVM分类器基于文本的一元表示(unigram)、二元表示(bigram) 和三元表示(trigram)来分类“硬性”内容(国家新闻、政治、全球事务等)和“软性”内容(运动、娱乐、旅游等)。Meysam Alizadeh等(2020)用分类算法基于n-gram、URL等文本特征实现了5个分类任务。Marlon Mooijman等(2018)人工编码了4800个推文的道德标签(“道德”和“不道德”),训练深度神经网络,然后用它预测1800万推文的道德标签。Hoberg和Phillips(2016)用聚类算法基于上市公司的产品介绍文本提出新的行业分类法,最终得到300个行业分类;而且,这个分类与标准行业分类体系(SIC)和北美行业分类系统(NAICS)数量一致。
(三) 基于网络的方法
1. 网络类型
(1) 基于词类、句法等的网络
基于词类、句法的网络是通过分析句子成分间的关系建构起来的;其方法包括词性标注、命名实体识别、依存句法分析和指代消解(Coreference Resolution)等。词性标注法赋予句子中每个词语其词类标签,例如名词、代词等;其中主要有基于规则的、基于统计模型的、基于统计方法与规则方法结合的、基于深度学习的四类标注方法。命名实体识别用于识别文本中具有特定意义的实体,包括人名、地名、机构名、专有名词,以及时间、数量等;主要有基于规则的、基于统计模型的、基于深度学习的、基于 attention的四类方法。依存句法分析能够分析句子的句法结构;其基本假设是:句法结构本质上包含词和词之间的依存/修饰关系,依存关系连接核心词(head)和依存词(dependent);依存关系可以分为不同类型,反映两个词之间的具体句法关系,例如主谓关系(subjectverb)反映名词和动作间的关系、动宾关系(verb-object)反映动词和宾语之间的关系。指代消解能够在文本中确定代词指向哪个名词短语。例如在句子“小明和他同学出去打篮球”中识别出“他”指代“小明”。
基于词类、句法等的网络能够通过细粒度的信息分析社会知识。例如John W. Mohr等(2013)用词语间的依存关系网络来识别国家安全战略中的动机结构,采用的语料库为1990年到2010年美国国家安全战略文本,基于文本中的行动主体(国家/地区/组织等)、行动、行动对象、情境间的网络结构及其随时间的变迁来观察战略动机。
(2) 一模或多模网络
一模或多模网络指的是一种或多种类型的节点形成的网络,使用共现分析等方法进行构建。一模网络是最为普遍的网络类型,例如人与人之间的社交网络、词与词之间的共现网络。多模网络在研究中应用较少,却能够很好地呈现某类型的节点与其他类型节点间的联系,如人—主题网络,分析时能够涵盖多个类型的节点信息及捕捉它们之间的关联信息;某种程度上,多模网络更能够呈现社会现象和关系的复杂性。例如 Alix Rule 等(2015)用与“宪法”(constitution) 词汇共同出现的其他词汇建构词共现网络,考察了从1790 年到 2014 年美国国家话语的变迁。王戈等(2017)建构了“参与者—事件”二模网络,分析了线上意见领袖的网络结构及信息流动情况。
(3)知识图谱和事理图谱
事理图谱和知识图谱分别用事件和实体概念的网络呈现社会世界的事件知识和概念知识,能够直接刻画社会的知识网络,涉及命名实体识别、实体关系抽取等方法。事理图谱(event logic graph,ELG)是一个描述事件之间顺承、因果等关系的事理演化逻辑有向有环图,被用于揭示社会现象中事件的演化规律和逻辑, 刻画和记录人类行为活动(刘挺, 2017;Ding et al.,2019)。节点表示抽象、泛化的事件,一般为谓词短语,例如“吃火锅”“去机场”;有向边表示事件间的逻辑关系,一般包括顺承关系、因果关系,复杂情况下还包括条件关系、上下位关系等。知识图谱由Google在2012年提出,其本质是语义网络的知识库;节点是现实中的事物实体,例如人、地名、概念、公司等,连边是不同实体间的联系,例如“性格”是“人”的属性、“社会互动”是“人”的行为等(A.Singhal,2012)。已有学者尝试用图谱进行社会科学研究,例如单晓红等(2019)用事理图谱建构医疗舆情图谱,抽象出“疫苗问题→监管监督→医闹”演化路径,由此提出有效的市场监管可以帮助减少医闹等事件发生的观点。Lei Cao等(2020)用新浪微博数据集中有自杀和无自杀意念的用户文本建构了个体知识图谱,包含个人信息、性格、经历、发博行为、情绪表达和社会互动六类本体,用于预测自杀倾向。
2. 网络分析
(1) 基于节点/边的分析
基于节点/边的分析研究文本各类型网络的统计指标属性,包括节点、边、网络整体三个方面,可用于了解词语共现网络、“人—事件”二模网络等的描述性分析。对于节点,中心性(centrality)是最重要的指标之一,衡量了节点在网络中的重要性;因分析目的不同,存在多种类型的计算方式。例如度中心性(degree centrality)假设重要的节点就是拥有连边多的节点,测量方式为与节点直接相连的连边数目,在有向图中还区分入度和出度。接近中心性(closeness centrality)假设节点的重要性表现为它到其他节点的最短距离的大小,测量方式为节点与其他节点之间的最短路径的平均长度。中介中心性(betweenness centrality)认为如果一个节点处于许多其他两点之间的最短路径上,因为它能够“控制”两个节点间的联结,可以认为处于重要地位;测量方式为计算该节点出现在任意其他两节点最短路径上的数目,还可以进行标准化处理。连边则有方向、权重等属性。网络整体的中心性属性,即集中趋势(centralization),通过计算节点的中心性的差异性程度获得。例如Steven R.Corman等(2002)用词语网络中节点的中心性来衡量词语的重要性,分析日常话语如何影响人们的其他活动。陈华珊(2015)根据论坛用户的互动情况和议题内容建构了三个议题网络——社区参与、趣缘和一般议题,并进一步对比了三个讨论网的模块度(modularity)、子群数和中心度等。
(2) 基于子图的分析
基于子图的分析包括基于社区 (community) 和基于模体(motif) 两种类型,前者指用社区探测(community detection)方法从文本网络中识别出社区,社区由一组连接紧密或具有相似特征的节点组成;模体是网络的基本拓扑结构之一,是具有统计意义的子图/结构,大小介于节点和社区之间,一般由少数几个节点连接构成,能够呈现节点间的基本连接模式,例如分析时统计4个节点星结构(star)或链结构(chain)的模体的数量。Chris Biemann等(2016)建构了多种语言的词类网络,发现动词和其他词类的共现图呈现出明显不同的模体结构。
(四) 基于矩阵/向量空间的方法
基于矩阵/向量空间的方法主要包括主题模型及其扩展模型与词嵌入两种。这种方法能较好地捕捉更深层次的语义信息,从而可划分主题、衡量词语的语义空间等。
1.主题模型及其扩展模型(topic models and extension models)
主题模型是发现文档隐含的语义结构的统计模型,主要包括潜在语义分析(latent semantic analysis, LSA)(Deerwester et al.,1990)、概率潜在语义分析(probabilistic latent semantic analysis,pLSA)(Hofmann,1999)和隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)(Blei et al.,2003);其基本假设是每个文档包含多个主题和每个主题包含多个单词。以LSA为例,分析步骤是:生成文档—词语矩阵,矩阵中的计数可以是频数(第j个单词在第i个文档中的出现次数)、tf-idf等;使用截断奇异值分解(SVD)将矩阵分解为三个独立矩阵的乘积,即矩阵M=U*S*V,其中U表示文档和主题的相关度,S表示主题和词义的相关度,V表示词和词义的相关度。Fridolin Wild(2007)提供了在R软件上的操作说明。pLSA 采取概率方法应对LSA难以直观解释的问题,而LDA则是pLSA 的贝叶斯版本,即使用狄利克雷先验来处理文档—主题和主题—词语分布。由于LDA的模型表现较好,目前使用较为广泛。
根据研究议题的需求,LDA随后被扩展为动态多主题模型(dynamic multitopic model,DMM)(Quinn et al.,2010)、议程表达模型(expressed agenda model,EAM)(Grimmer,2010)和结构主题模型(structural topic model,STM)(Roberts et al.,2014)等。DMM 假定每一个时间段都是主题的混合体,每个文本分配到一个主题,类似于单个单词分配到 LDA 中的主题,因而可被用来推测每天的文本分配到各个主题上的比例。EAM假设每个人在多个主题中分配自己的注意力,由人的主题分配比例来构成文本的主题,因而可用于衡量人对各主题的关注度,例如新闻报道中议员汇报工作时的主题分布(Grimmer et al.,2012)。DMM和EAM可结合到一起,例如分析参议员关注的主题如何随时间变化。STM能加入协变量 (例如文本类型或时间),并给出协变量条件下某主题的概率分布,可用于分析主题与协变量的关系。
Justin Farrell(2016)用LSA分析了不同气候组织的主题,进一步探讨了它对新闻媒体和官僚政治的影响。黄荣贵(2017)用LDA 分析了劳工议题的微博文本,提取了多个主题,包括工人文艺、春晚与公益、职业病、城市融入、农民工问题等。DerekGreene 和 James P. Cross(2017)用DMM分析了欧洲议会全体会议的政治议程是如何随着时间的推移演变的。Grimmer(2012)用EAM分析了2005年到2007年的参议会新闻公报,发现参议员表达优先性的差异取决于自身如何平衡立场和诚信,有的优先阐明立场,有的优先获得信任,有的则采取了更均衡的方式。ChristopherA. Bail(2016)用STM分析了器官捐赠组织的社交媒体文本的主题变异系数对受众认可程度的影响。
2. 词嵌入 (word embedding)
词嵌入技术将自然语言的词投射到向量空间中,语义相近的词会有相似的向量表示。One-hot可以看作最简单的词嵌入方法。词嵌入的经典模型包括词向量(Word2Vec)(Mikolov et al.,2013)、基于全局词频统计的词表示(global vectors for word representation,GloVe)(Pennington et al.,2014)、基于语言模型的词向量 (Embeddings from Language Models,ELMo)(Peters et al.,2018)和基于Transformers的双向编码器表示 (Bidirectional Encoder Representations from Transformers,Bert)(Devlin et al.,2018)等。词向量的核心思想是通过词的上下文得到词的向量化表示,主要有两种方法:通过附近词预测中心词(Continuous Bag-of-Words,CBOW)和通过中心词预测附近词 (skip-gram)。训练后的模型将每个词语投射到低维空间中(一般为100-1000维),词语在每一维上的投射表示为连续数值,研究者可以计算词语间向量表示的相似度来测量语义间的相似程度。由于词向量只考虑词的局部信息,Pennington等(2014)提出GloVe模型,利用共现矩阵同时考虑局部信息和整体信息。然而 word2vec和 GloVe无法处理一词多义问题,即同一词语在不同语境下被表示为相同的向量;为应对这一难题,Matthew E.Peters等(2018)提出利用语言模型学习复杂的词语特征和这些特征基于上下文的变化,词向量从静态转向动态。Bert则大大改变了自然语言处理(Natural Language Processing,NLP)规则,从仅仅预训练词向量来初始化NLP模型的第一层,转向预训练整个NLP模型;也就是,不再仅关注单个词汇,还关注句子级别的信息,能够更好地捕捉文本语义信息。
词嵌入可以用来测量观念,反映人们对特定事物的认知和不同事物间的认知差异。在社会学领域,Aylin Caliskan等(2017)用词嵌入模型复制了由内隐联想测试(implicit association test,IAT)测量的已知偏差,例如姓名/职业(词汇)与性别(词汇)的向量相似性,与调查数据中该姓名/职业的女性比例存在显著正相关,证明了文本语料库真实地呈现了社会偏见。Nikhil Garg等(2018)用词嵌入展示了20世纪和21世纪美国对女性和少数族裔的刻板印象和态度,将计算词向量得到的相似值与美国普查数据相结合,发现文本向量的变化捕捉到了现实社会中人口和职业的变迁。Austin C.Kozlowski等(2019)用词嵌入测量了阶层的多个维度,包括道德、地位、教育、培养、性别和就业,发现:在20世纪的经济转型中,阶层的标志虽不断变化,但它的基本文化维度显著地保持稳定。在经济和金融领域,王靖一和黄益平(2018)用词向量拓展了金融科技情绪词典。
在文档层面,主题模型将文本表示为多个主题的混合;在单词层面,词嵌入实现了词语的向量表示。为综合二者信息,Christopher E. Moody(2016)提出了lda2vec,即LDA和word2vec的扩展,共同学习单词、主题和文档向量。已有学者应用在具体研究中(Luo & Shi,2019;Zhenni & Qian,2020)。受词向量模型启发,Quoc Le和Tomas Mikolov(2014)提出 doc2vec,将句子/段落/文档表示为一列矩阵,也映射到向量空间中,然后将句子/段落/文档向量和词向量相加求平均或累加得到一个新的向量,再用这个向量预测下一个单词。已有学者在社会科学中应用doc2vec,例如Lei Chen等(2016),Metin Bilgin 和 İzzet Fatih Şentürk(2017),Qufei Chen和Marina Sokolova(2018)。
五、应用思路
这一部分将讨论如何在具体研究议题中运用分析方法:首先,在文本分析方法基础上总结八类分析任务;接着,回顾它们在各社会学科中的应用情况,即各分析任务对应的具体研究议题。
(一) 从方法到分析任务
从方法特征及用途出发,回顾基于文本的社会科学实证研究,我们可以总结出八类分析任务:获得主题、测量概念/指标、测量情感、生成分类变量/组别、呈现/分析网络结构、计算相关/回归、考虑时间、比较相似性/组别差异。
每一类任务可以用多种方法实现;但是,由于不同方法使用难度和发展成熟度不同,有的方法使用频率较高,有的则较低。笔者根据文献回顾情况,总结出分析任务与方法的对应关系。下表中“加号(+)”代表该任务较多由该方法实现,“减号(-)”代表该任务较少情况下由该方法实现,无符号则说明极少情况,但不排除其可能性。
获得主题指的是从新闻、社交媒体、政治辩论等文本中提取主题,用于分析公众或特定群体关注的议题、观点等。最常用的方法是主题模型,另外还有字典法和有监督分类等。测量概念/指标指的是用文本测量学科相关概念,例如社会学中的偏见/歧视、政治学中的政党立场/意识形态、经济学中的经济政策不确定性指数、金融学中的投资者关注度指数等。常用的方法包括词频、词类等文本特征构建计算公式,还有主题或词语间的空间距离。情感是特殊化的主题或指标,用于分析文本生产者或反映对象的情绪状态、情感倾向,常使用字典法和分类算法等。情感分析被广泛应用在各社会科学学科中,发展较为成熟。生成分类变量/类别常常作为其他分析的基础,一般通过有监督分类、无监督聚类或网络社区探测获得;之后,这些分类变量可以纳入统计分析中,或对比不同组别的属性特征。网络类型既包括语义网络,还包括基于文本构建的主题网络、主体网络、主体—主题网络等。网络分析既包括基于节点/边的分析,又包括基于子图的分析。计算相关/回归之前需要获得主题、指标、情感等,然后用相关分析、回归模型或结构主题模型等解释现象,某种程度上与传统定量研究思路相似。分析社会现象时考虑时间能够直观地呈现现象的变化,变化本身便是社会科学的重点研究议题,大数据文本常常带有时间信息,为这一分析提供了便利。比较相似性或组别差异也是社会科学的经典思路,例如学科概念中的分歧和偏差,以及不同群体、地区的现象差异等;此任务几乎涉及所有方法,尤其是基于矩阵/向量空间的方法和数值特征类的方法。
(二) 从分析任务到学科应用
分析任务在不同学科中表现为不同的研究议题。笔者简单梳理了它们在七个学科中的应用情况,包括社会学、政治学、公共管理、新闻传播、经济学、金融学和公共卫生。
1. 获得主题
获得主题在社会学中主要用于分析微博或论坛文本中特定群体的观点或关注的议题。黄荣贵(2017)用主题模型分析了关注劳工议题的社会组织的微博文本,发现他们主要关注:工人文艺与公益、工人的困境与问题、工人组织与维权、制度与劳工权等。
在政治学中,获得主题主要用于分析政治议程设置,即用政治类文本分析议题分布。Catalinac(2016)用主题模型分析了1986年到2009年日本众议院的竞选文本,得到了候选人主要关注的69个主题,并发现1994年选举制度改革后,议员的普惠性物品承诺总体上升。
公共管理学中,获得主题主要用于分析公共政策的注意力或工作分配,即主题分布,以及公共事件的舆论内容分析,从而提升治理水平和质量。郎玫(2018)分析了甘肃省的政策文本,将市级政府工作的主题与中央职能进行匹配性分析,总结出其职能供给匹配的特征。Sachdeva等(2017)用社交媒体上火灾相关的文本,提取主题来追踪火灾及其产生的烟雾,从而估计和预警空气质量。
新闻传播学中,获得主题用于分析新闻框架,或媒体中的国家形象。Anjalie Field 等(2018)用俄罗斯《消息报》2013年的新闻文本,分析了媒体如何设置分散注意力的框架。Guang Xu和MingRen(2018)用中国在达沃斯论坛的演讲和西方新闻文本,考察了自我国家形象和西方媒体建构形象间的差异。
公共卫生学中,获得主题主要用于分析公众对药物、疫情、卫生相关政策等的意见、态度和需求,或医疗相关的舆情内容。Allison J. Lazard 等(2017)分析讨论了电子烟法规的推特文本,生成了9个主题,包括法规对电子烟市场的影响、对公众健康的影响等。韩珂珂等(2021)用某公共卫生事件的微博文本,发现公众较为关注防控工作安排、确诊与新增病例等主题,还分析了舆情的情感特征和地域关联。
2. 测量概念/指标
测量概念/指标在社会学中被用于预测数值型变量(失业率或员工流动概率等),或测量偏见/歧视。Scott和Varian(2015)用贝叶斯时间序列模型分析了谷歌搜索数据,实时“预测”失业率。Baker 和 Fradkin(2017)用谷歌搜索数据测量了求职强度。Aylin Caliskan 等(2017)和Nikhil Garg等(2018)用词嵌入测量了文本中的性别和种族偏见,且测量结果与调查数据基本一致。
在政治学中,测量概念/指标被用于分析政治、媒体、微博等文本中的政党立场或意识形态,也被用于估计腐败指数等。Slapin和Proksch(2008)用字典法分析了政党宣言文本,用词频构建了政党倾向性指数。Saiz和Simonsohn(2013)用城市名与腐败相关关键词的组合除以单独城市名搜索到的网页数,估计美国城市的腐败指数。
在公共管理学中,测量概念/指标被用于测量政策工具的组合特征、公共管理议题的关注度和政府的回应强度等。Schmidt和Sewerin(2019)用9个国家的可再生能源政策测量了政策工具组合特征——组合平衡及设计特征(强度和技术专一性)。Jiang等(2019)用中国地方政府领导留言板中各个城市的留言数目衡量民众的议题关注度,用地方政府工作报告中福利主题占比较前一年的变化衡量政府对民众意见的回应强度。
新闻传播学中,测量概念/指标被用于构建媒体报道偏差指数(media slant)。Gentzkow 和Shapiro(2010)用国会共和党和民主党发言文本得到最能预测党派的短语及其回归系数,用这些短语在新闻文本中的出现频率加上回归系数得到报道偏差分类,且验证了分类结果与真实分类、用户对报纸的意识形态评级有较强相关。
经济学中,测量概念/指标被用于测量经济政策不确定性指数,或预测宏观经济变量 (如国内生产总值GDP)。Baker等(2016)用1985年以来的美国10家主流新闻媒体的文本,统计了同时包含经济、不确定和政策三类词语的月度文章数量,进行标准化等处理后构建了 经济政策不确定性指数(Economic Policy Uncertainty,EPU),还进一步拓展为 11 个主要经济体的月度EPU指数,货币、财政、国防等 11 类政策的 EPU 指数,以及英国、美国的日度EPU指数。刘涛雄和徐晓飞(2015)用对消费、投资、净出口、政府购买、就业五类词的百度搜索指数和政府统计指标共同预测GDP。张崇等(2012)发现网络搜索数据与居民消费价格指数(CPI)存在先行滞后关系,能够比国家统计局提前一个月左右发布数据。
金融学中,测量概念/指标被用于分析金融市场的不确定性指数、投资者和媒体的关注度、年报的可读性等。金融市场不确定性指数,即新闻隐含波动率指数(news implied volatility,NVIX),是通过寻找文本特征与市场波动率指数(VIX)的对应关系、然后用训练得到的模型进行预测而得到的。如Manela和Moreira(2017)用《华尔街日报》1890年到2009年的头版新闻,使用支持向量回归法训练词频向量预测VIX,最后根据每个月的词频向量向前预测NVIX。这一思路还可用于获得交易率、波动率等。投资者关注度方面,一类学者使用搜索引擎的数据进行测量,如Da等(2011)用Russell 3000成分股的代码查询谷歌搜索指数;还有一类学者用财经论坛的帖子数量进行测量,如 Antweiler和Frank(2004)与Tsukioka等(2018)使用了雅虎财经论坛的帖子数量。媒体关注则是通过统计与金融市场、上市公司相关的新闻数量测量而获得的(Fang & Peress,2009;Hillert et al.,2014;周开国等,2016)。年报可读性直接影响接收者的信息获取难度,因此发布者会通过调整可读性来降低坏消息的传播速度,或提高好消息的传播速度。基于这一假设,Li(2008)用平均词语长度和复杂词语比例得到的迷雾指数(fog index)(Gunning,1952)和词语数量来测量年报可读性,进一步发现年报可读性差的公司往往盈利水平较低。
公共卫生学中,测量概念/指标被用于监测和预测疾病发生率;其原理与NVIX相似,即建立文本特征预测疾病相关变量的模型,进而用模型预测其他研究对象或未来的疾病情况。如S.D.Young等(2014)发现HIV相关推特文本比例与地区HIV病例数间是正相关,提出可以用社交媒体文本实时监测地区HIV情况。
3.测量情感
测量情感在社会学中被用于分析特定群体对特定社会现象的情绪状态、情感倾向。龚为纲和朱萌(2018)用GDELT数据库(通过从新闻文本中实时提取人物、地点、组织和事件类型等而整理的),分析各阶层在六类压力——自然灾害、人为灾害、贫困、失业、社会冲突和各种危机性情景——下的情绪状态。另外,还可用于分析论坛用户对不同类型主题的情感值。
在政治学中,测量情感被用于分析公众对某一政治主张或选民对某一候选人的情绪指数,并作为立场倾向的测量。Vargo等(2014)通过计算每一用户对奥巴马和罗姆尼的情绪指数,来识别推特用户的政治取向,还探讨了用户“融合”(meld)不同议程设置的媒体的不同方式。
公共管理学中,测量情感被用于分析公众对某些公共事件或社会重大议题的情感倾向。刘丛等(2015)用24起公共事件的微博文本做情感分析,发现各个情绪的指向对象占比不同,如认可情绪主要针对当事方,而恐惧情绪指向较为分散。
新闻传播学中,测量情感被用于分析舆情中的公众情绪;其中的舆情内容多与公共管理相关。钟智锦等(2017)用我国香港、澳门相关的微博文本分析了公众对港澳回归的情感记忆,发现:整体上自豪感高于负面情绪,但对港澳的情绪在具体话题上存在差异,如“回归”话题中对香港的自豪感得分显著高于对澳门的,在“一国两制”、与内地关系等几个话题中对香港自豪感得分则低于对澳门的。
金融学中,测量情感被用于分析媒体对金融议题的情绪,以及管理层和投资者的情绪,分别用财经新闻文本,上市公司的财务报告、盈余公告、招股说明书和财经论坛、微博、推特和谷歌搜索等获得。学者们主要采用三种方式测量情绪:一是字典法计算词频,如汪昌云和武佳薇(2015)用正负面词汇的词频经过简单计算得到了媒体语气指数;二是分类算法,如杨晓兰等(2016)先随机抽取2000条股吧帖子,标签为“积极”“中立/噪声”“消极”,运用多种分类算法建模,最后将训练得到的、正确率最高的KNN算法模型应用到其他90多万条帖子;三是用看涨文本数和看跌文本数构建单个股票单日情绪指标,再综合文本数得到个股情绪指数,如段江娇等(2017)用股吧帖子以这种方式得到了个股情绪指数。
公共卫生学中,学者们用情感得分来构建卫生服务评价指数,或分析公众对公共卫生事件、政策的态度。Huppertz等(2018)使用脸书上131家医院的57985条评论文本,发现评论的情感得分能够预测医院的卫生服务调查评估结果,提出能够用线上评论文本评估医院服务水平。张敏等(2016)用“魏则西事件”相关的微博文本,分析了其情感得分及对舆情发展的影响。
4.生成分类变量/组别
在社会学中,这种分析被用于划分不同的群体,或根据一定理论预设得到分类变量,例如年龄、性别、职业等。基于“职业反映的社会地位影响人们的语言使用”假设(Bernstein,1960;Bernstein,2003;Labov,2006),Preot¸iuc-Pietro等(2015)使用了推特文本的词簇(word clusters)和嵌入等特征表示来预测职业分类,Pan Jiaqi等(2019)则进一步指出:除了推特文本内容,用户的关注者/跟随者社区和社交网络也为职业分类提供了有用信息。
在政治学中,这种分析被用于预测党派立场分类,而“测量概念/指标”得到的是数值变量。Green等(2020)收集了国会议员的推特文本,用单条推特文本预测用户的党派,并进一步用预测能力衡量极化程度,发现预测能力越高,极化程度越高。这种分析也可用于识别一般民众的立场类别;不过,立场类别的信息含量少于立场数值。
公共管理学中,这种分析被用于政策工具分类。李娜等(2021)指出了目前多人工识别政策工具,提出用深度学习方法实现政策工具的自动化分类,并用北上广贵的政府信息公开政策验证了方法的有效性。
新闻传播学中,这种分析被用于识别是否谣言、假新闻,有无争议等。Julio C. S. Reis(2019)在以往的常用文本特征外,提出了新的特征来识别假新闻,进一步讨论了假新闻的来源、影响等(Allcott & Gentzkow,2017)。Lei Zhong等(2020)提出用图卷积网络识别文本中是否存在争议,并在Reddit和微博数据集上验证了方法的有效性,为评估事件影响、缓和极化观点提供了基础工作。
经济学中,这种分类被用于行业分类,能够相对实时观测到行业类型的变化。Hoberg和 Phillips(2016)基于1996年到2008年的上市公司产品描述文本,测量了企业与竞争对手间产品的相似性,进而用聚类算法得到了300个行业类别,与已有的行业分类体系基本一致;通过观测行业类型随着时间发生的变化,检验公司如何对市场的内外部变化做出反应,发现外生冲击对特定行业及其竞争对手的竞争强度和产品供应有重大影响。
公共卫生学中,这种分析可以建立文本特征预测是否患病的模型,用于识别可能的潜在患者,实现疾病风险预测。He Qiwei等(2017)使用创伤后应激障碍(PTSD)患者和非PTSD 患者的自述文本,用分类算法识别语言特征与疾病诊断间的关系模式,最终用于识别文本对象是否存在疾病风险。
5.呈现/分析网络结构
社会学研究根据讨论主题、互动关系等构建了社会互动网络,还可进一步发现有影响力的节点和社区等。Sachan等(2012)提出可以用讨论内容、互动类型和人们之间的联系共同实现社区探测,并用推特数据和 Enron邮件数据验证了其比以往模型表现好。Tang等(2011)用主题模型分析了每个用户的主题概率分布,最终用于识别关于某个主题的最有影响力的行动者,并分析其如何与其他行动者连接。
政治学研究分析了政治辩论中的话语网络。Padó等(2019)用德国移民辩论文本,构建了行动者及其主张的话语网络,并用于理解政治决策的逻辑。Guo和Vargo(2015)用2012年美国总统选举相关的推特文本,建立了关联候选人和议题的议题所有权网络(issue ownership network)。
公共管理研究分析了府际关系和治理网络。张海波和陶志刚(2021)用中央政策文本提取发文部门,构建部门间联合发文关系矩阵,分析了公共卫生事件对部门合作网络结构和组织角色划分的影响。徐国冲和霍龙霞(2020)用中央层级食品安全监管文件构建了合作监管网络,进而用随机行动者导向模型验证权威、传递性、优先连接、制度邻近性假设,讨论合作监管网络的生成逻辑。
新闻传播研究分析了社交媒体和新闻媒体等文本的话语网络,用于了解媒体塑造特定对象的方式(有时也称为媒体框架)。Qin(2015)对比了“棱镜门”事件在推特和传统媒体的语义网络,发现斯诺登在推特中被塑造为“英雄”,与泄密者、两党问题、个人隐私等关联,在传统媒体中则被塑造为“叛徒”,与国家安全、国际关系等关联。
金融学研究分析了董事网络及其影响。陈运森和谢德仁(2012)用CSMAR数据库中高管的个人资料提取董事任职数据,构建了“董事—董事”的一模矩阵,分析了其与高管薪酬—业绩敏感性、未来业绩的关系。
公共卫生研究分析了健康问答社区里的主题网络和用户网络等。邓胜利和刘瑾(2016)用百度知道的高血压相关文本,构建了“老人”“母亲”的词语共现网络,发现谈及老人时,多讨论“年纪”、发病地点在“家中”等,谈及母亲时,相对多地谈及“降压”等“治疗”办法。石静等(2019)对比了国内外健康问答社区的主题共现网络,发现:“饮食”虽未与较多主题共现,但如果与其共现,其次数很高;另外,国外用户的“情感支持”主题与全部主题都具有共现关系,说明其用户的情感需求高于国内用户。
6. 计算相关/回归
社会学研究分析了群体属性与行为间的关系,或分析网络的影响因素。陈华珊(2015)用论坛数据,发现虚拟社区对社区在线参与行为存在正效应,且不同议题的讨论网关系的转化,能够促进在线参与。
政治学研究分析了社交媒体、制度改革等对政治立场、选举等的影响,或线上行为与立场倾向间的关系。Catalinac(2016)用日本众议院竞选文本,发现1994年的选举制度改革,改变了议员的选举动机和策略性行为。Grinberg等(2019)用2016年总统选举相关的推特文本,发现假新闻分享行为与发布政治相关推特、暴露在假新闻源下、政党立场相关。
公共管理研究分析了管理行为的影响因素。Jiang等(2019)用主题模型从中国地方政府领导留言板和地方政府工作报告文本提取主题,前者测量公众的关注度分配,后者测量政府的工作分配;发现公众的议题关注变化显著地正向影响次年的政府工作安排。刘河庆(2020)用中央和省级农村政策文本,分析了中央层面的行政压力和经济激励、地方层面的执行能力和内在动力及其交互作用等对政策扩散的影响。
经济学研究分析了媒体情绪和经济状态之间的关系、经济政策不确定性指数 (EPU) 与其他经济变量间的关系以及央行政策内容对市场的影响。情绪方面,Shapiro等(2020)用美国经济和金融相关的新闻文本构建了月度情绪指数,分析了其与当前、未来经济状态的关系,发现积极的情绪冲击会增加消费、产出和利率,并抑制通货膨胀。EPU 方面,Baker 等(2016)用向量自回归分析了 EPU的面板数据,发现 EPU 能够预测国家层次的投资、产出和就业变量。央行政策方面,Hansen和McMahon(2016)从FOMC会议中提取经济状态相关主题及其语调,进而分析了央行沟通内容对市场的影响。迈克尔·麦克马洪等(2019)还总结了中国央行的相关文本,包括《货币政策执行报告》、货币政策委员会的会议新闻稿、行长的讲话和新闻发布会、公开市场操作报告等。
金融学研究分析了关注度、情绪、经济政策不确定性指数(EPU)、投资者分歧等对金融市场的影响。关注度方面,Antweiler和 Frank(2004) 发现投资者关注能够预测收益率和市场波动率。情绪方面,如汪昌云和武佳薇 (2015)分析了媒体语气对IPO抑价率的影响,杨晓兰等 (2016)分析了投资者情绪对股票收益率的影响,段江娇等(2017)分析了个股情绪指数对股价波动的影响。EPU方面,Gulen和Ion(2016)研究了EPU对公司投资的影响,Pástor和Veronesi(2013)研究了EPU对股市波动率的影响。投资者分歧方面,段江娇等(2017)发现当日投资者情绪分歧影响未来两日的交易量。
公共卫生研究分析了健康状态的影响因素,以及卫生机构议题如何受政策变化影响。卢延鑫和姚旭峰(2013)用基于规则的分类器从流行病研究文献中提取致病因素,为疾病预防和控制提供参考。Hollibaugh(2019)用结构主题模型分析了医疗保险和服务中心的文件,探讨了机构的事务优先级如何受总统—国会分歧等协变量影响。
7. 考虑时间
社会学研究分析了社会现象的变迁,也包括学科变迁。例如Atalay等(2017)用1960 年到2000年的招聘广告分析了工作内容的变迁,认为其与就业变迁同等重要,从另一角度分析了劳动力市场的变迁。郭台辉和周浥莽(2020)用结构主题模型分析历史社会学论文,观察方法规范性和主题多样性在四十年学术史中的时期变化,由此回答了“历史社会学是否能化解学科之争”的问题。
政治学研究分析了议员议题的变化及其与特定外部事件的联系。Derek Greene和James P. Cross(2017)用动态主题模型分析了欧洲议会演讲文本,发现其政治议程随着时间推移发生显著变化,以对欧盟条约公投和欧元危机等外部事件做出反应。
公共管理研究分析了政府工作内容的变化及政策体系的变迁路径。魏伟等(2018)用 1954年到2017年的国务院政府工作报告,得到了9类工作特征词,分析了其在不同阶段的重要性。黄萃等(2015)通过分析科技政策总结了不同时期的主题热点、部门间的合作网络。
新闻传播研究分析了舆情的演化或国家媒体形象的演变。任中杰等(2019)用天津8·12危化品爆炸事故相关的微博文本,分析了舆情在不同阶段的词云、情感倾向、评论用户的年龄情况和地域热度等。刘若涵(2019)基于“一带一路”相关的推特文本,用主题模型和情感分析方法,分析了中国国家形象在英文社交媒体上的历时性变化。
经济学研究将这种方法用于度量和预测经济周期。Thorsrud(2020)用商业新闻文本和季度GDP构建了日度经济周期指数;具体而言,用主题模型、情感分析构建时间序列数据,进一步用时变动态因子模型估计经济周期指数,相对实时地观测经济活动。
金融学研究用每月的新闻隐含波动率指数,来测量金融市场的不确定性 (已在“测量概念/指标”部分介绍,此处不赘述)。
公共卫生研究分析了相关舆情的议题演化,为政府提供公共卫生舆情的信息支持。安璐等(2018)用2015年中东呼吸综合征爆发时的微博、微信文本,分析了话题关注点在不同阶段的变化,并总结出热点话题的演化规律。曹树金和岳文玉(2020)用某公共卫生事件的微博文本分析了各主题在不同舆情阶段的情况,发现公众主要关注事件的发生与发展、防护措施与响应等,且不同阶段的侧重点存在差异。
8. 比较相似性/组别差异
社会学研究分析了不同群体的行为状态或不同时期的社会现象逻辑等。龚为纲和朱萌(2018)用 GDELT 数据库,对比了不同阶层在三方面——总体情绪、不同压力下的情绪和与其他阶层互动的情感氛围的差异。Nelson(2020)收集了第一次和第二次妇女权益运动时期相关社会组织的文本,综合运用了计算机技术和深度阅读方法分析,发现:两个时期大体采用相似的模式开展;另外,芝加哥的倾向于通过机构和国家来实现短期目标,而纽约的偏向于从个体角度出发。
政治学研究对比了不同党派、性别群体的政治讨论参与差异。Green等(2020)用116届国会议员的推特文本,讨论了不同政党向选民传达的内容差异,发现民主党更强调公共卫生危机对公众健康和美国工人的影响,共和党则强调中国和企业。Barberáe和Rivero(2015)用选举相关的推特数据发现女性往往更活跃、话语复杂程度略高于男性,但在推特上的代表性不足。
公共管理研究用政策相似度分析了政策扩散现象。刘河庆和梁玉成(2021)通过对比国家和省级政策文本间的相似性,获得了内容再生产系数,以此衡量纵向政策扩散情况。郁建兴(2019)用我国29个省份的“最多跑一次”政策文本,基于文本相似性刻画了政策扩散的空间分布规律。
新闻传播研究对比了不同群体、地区的舆情情况。廖海涵等(2018)用8·12天津爆炸事件相关的微博文本,对比了发布者和评论者的主题内容、在不同阶段的主题特征等。
金融学研究用投资者间的差异建构了分歧指数。如 Antweiler和 Frank(2004)用金融论坛的文本计算帖子的情绪,进而用帖子情绪的标准差构建分歧指数,用于验证“投资者分歧促进交易”的理论(Harris & Raviv,1993)。
公共卫生研究对比了不同群体的健康信息需求。盛姝等(2021)用医享网直肠癌圈的帖子文本,分析了不同性别、年龄、角色的用户的健康信息需求差异,发现 36~60 岁中年群体的信息需求高于其他用户,且最为关注治疗方案。
六、讨论和反思
本文回顾了从文本中获得社会知识的思想基础、文本分析方法、方法在具体学科的应用思路及进展,尝试呈现将文本转换为社会知识的路径和基于文本的社会科学研究的图景。
但方法并不是全能、万能的,这些方法仍然存在许多局限性。例如计算文本分析技术无法完整呈现或分析文本复杂的含义,也很难实现文本以外的联想,不可能替代深度阅读(Grimmer & Stewart,2013),导致文本分析的结果始终与社会事实存在距离。目前没有很好的应对方式,但有三项方法使用原则:一是问题导向,即明确方法只是工具,目标在于研究问题;二是灵活使用方法,大胆想象新的应用思路,并混合使用多种方法,充分挖掘方法的潜力和发挥方法的优势;三是注重稳健性分析,为了得到更准确、合理的模型和解释,应再三验证研究结论,尽可能地保证研究结果的稳定性和可复制性。研究议题方面,要么提高已有议题的分析水平,要么提出新的研究议题;同时,加强与传统研究的对话,关注以往研究中的悖论或受数据、方法所限无法研究的议题,可提出有意义的研究议题。从数据丰富程度出发,笔者认为目前存在较好对话基础的研究领域有:社会变迁研究、政策文本研究、社会网络研究、文化社会学、历史社会学等。
文本分析技术不断发展,从文本中获取社会知识的能力也在不断提升,我们充满期待的同时也应理性面对这一趋势。
*为阅读和排版的便利,本文删去参考文献,敬请有需要的读者阅读原文。