查看原文
其他

梁玉成 马昱堃 | 对青年的计算文本“远读” ——数字时代基于降维的整体认识论

梁玉成  中山大学社会学与人类学学院副院长、教授、博士生导师、青年长江学者

主要研究方向计算社会学、在华国际移民研究

马昱堃中山大学社会学与人类学学院社会学专业 2020 级博士研究生

主要研究方向 计算社会学、大数据时代的社会治理。


[摘要]社会数字化转型过程中,越来越多的青年通过互联网社交媒体发表观点、表达情感、与他人建立社会关系,这使得青年的活动场域与交往形式发生了根本转型,靠传统的青年研究方法难以从宏观视角分析青年群体的行动与观念演化。本文引申数字人文中的“远读”概念,提出对青年的计算文本分析研究范式。本文将文本的信息分为词义、词性、关系和情境,并简要介绍了量化这些信息的分析方法,将这些方法的应用路径分为编码与分类、情感分析、降维分析、主题抽取、分化与极化以及文化测量,它们与青年研究领域还有很大的结合空间。通过“远读”计算中的降维思想,研究者能从整体视角找出大量文本之间的潜在结构,进而获得对青年的“整体事实”的理解。在这一范式的应用中,需要注意文本数据代表性、分析方法适用性以及数据收集的伦理问题,而纳入音视频及图像的“富文本”分析会是将来社会科学研究的发展方向。“远读”与“近读”相结合能够促进我们对青年群体的理解。

[关键词]青年研究;文本分析;远读;整体事实;计算社会学


一、引言        

习近平总书记在庆祝中国共产党成立100周大会上的重要讲话中提到,“未来属于青年,希望寄予青年”,对青年群体的研究具有举足轻重的意义。一直以来,青年群体都会随着时代变迁而呈现相应的变化,每个时代的青年都有着独特的历史烙印。当代青年主要是出生于改革开放以来的“80后”“90后”“00后”,经济的高速增长、计划生育政策的实施、教育资源的普及、互联网的快速发展以及随之而来的社会、市场和制度变迁都对他们产生重要影响[1]。他们对新事物的接受能力更强,具有许多新的特点。

互联网对当代青年的影响在深度与广度上都在持续拓展。从数量上看,2020年我国未成年网民数量达到1.83亿,规模持续增长,并且低龄化趋势更加明显[2]。当代青年,尤其是被称为“互联  网一代”的“90后”和“00后”群体,其社会心态、价值观念、文化兴趣都受到互联网的影响和形塑,程度比其他任何世代都更加深刻。简言之,互联网已经成为青年群体社会化的主要场域[3]。

与此同时,数字时代互联网环境也发生着深刻转型,人人都可以成为传播端点[4]。在社交媒体上,更大的流量能够带来更多的收益,为此,人们更倾向于发布和转发夸大局部事实的、能博取更多关注的信息,其行为受情感的影响远大于理性[5-6],加强了观点的分化与极化。于是,不同观点之间越来越难以通约,人们所接触到的任何事实不仅不再完整,更是呈现出日益碎片化甚至颗粒化的特征。

在这种情况下,人们逐渐生活在“茧房化”的世界中,对同类观点的认同包裹着情绪,变得日渐强化,局部“事实”的放大导致了“整体事实”的消解。“整体事实”体现着社会过程在整体视野下的动态因果结构与演变过程,而局部“事实”则只反映着社会过程中受特定观念视角滤视后的一个局部[7]。新的数字时代的青年群体在这种互联网环境中,被各种局部“事实”的认知所裹挟,越来越难以从整体视角出发审视自己所生活的世界。

青年研究方法在范式上需要对上述现象有所回应。以往针对青年网络观念与行动的研究大多基于观察、访谈与内容分析等质性方法,从微观和个案的角度近距离呈现青年画像。然而,互联网的内容生产和传播速度远远快于我们观察它们的速度,近距离的视角无法从整体上反映多元观念之间的关系,这需要我们超越微观视角的局部性,转而从更宏观的视角远距离考察青年群体及他们活动场域的时空演化。

那么,青年研究方法在范式上如何回应社会数字化转型的时代要求?本文借用了数字人文中的“远读”概念,提出计算文本分析方法范式。“远读”通过文本到信息、信息到知识的两重降维过程,将文本内在的整体结构以更清晰、更简化、更容易理解的方式呈现出来。青年研究借助“远读”,能够从海量的线上文本数据中发掘潜藏其中的宏观结构,从而克服视野的局部性,向探求“整体事实”更进一步。


二、“远读”的概念缘起、内容与方法

(一)“远读”的概念缘起

在人文研究领域,数字化转型的一个后果是越来越多的作品以数字形式存储在数据库中[8], 庞大的数据量让它们显然无法通过人工方式逐一分析。人文研究领域对这一转型的回应即是“远读”(Distant Reading)的提出。莫瑞蒂(Franco Moretti)最先介绍了这一概念,与“近读”(Close   Reading)相对应,“远读”指的是“通过聚合和分析大量数据来理解文学,而不是研读特定的文本”[9]。

与“近读”通过对文本的主观深度理解和细致解释来把握其详细内容不同,“远读”主要关注大量文本中的宏观结构,例如使用可视化技术分析文本中涉及的社会关系、地理信息和时间线等信息,除此之外,还能研究作品之间的承接与相似[10]。互联网上活跃的每一个用户都以写作者的身份参与着线上社会互动,因而本文将“远读”引申为应用计算文本分析技术,从宏观和整体的视角出发把握大量文本中的潜在结构与关系。

(二)“远读”的内容

“远读”的核心目标是把握海量文本的宏观结构,因而需要借助计算文本分析方法从文本中提取、整合与分析内容。为了便于量化分析,首先需要明确与文本内容有关的信息有哪些。基于已有文献[11-14],结合社会科学对文本信息的需求层次,本文将需要考虑的文本信息大致分成以下四类。(1)词义信息。词义信息体现了文本的内容与包含的主题。(2)词性信息。词性对应着词语的类型与功能,既包括词语的语言学特征,也包括社会科学对其赋予的理论维度。(3)关系信息。在词义和词性的基础上,将句子和文档作为整体,进一步分析词语之间的语义关系。(4)情境信息。表示产生文本的社会情境,例如作者身份、文本生成时间等。文本分析方法即是通过各类算法处理上述信息,将其结构化为计算机能够处理的数据,之后以整体性的视角将它们之间的关系呈现出来,最终实现对文本的宏观分析。

(三)“远读”的方法

为了能够上升到整体的视角,“远读”需要借助计算文本分析方法实现文本信息的结构化表示,将它们放置在向量空间中。近些年来,机器学习算法大幅提升了文本处理的性能,也从本质上改变了文本表示的方法。根据是否通过机器学习算法对文本信息进行压缩,可以将计算文本分析方法大致分为显式表示和隐式表示两种,前者直接根据词项定义特征项,是一种直观的文本表示方法;后者则是通过机器学习算法对文本信息压缩后的表示。从方法承接上来看,文本显式表示通常是隐式表示的基础。通常,在对文本进行分析之前,还需要先对文本进行预处理,包括清除停用词(Stop Words)、进行特征工程,针对英文需要词形规范化,针对中文文本需要分词。

1. 机器学习概念简述

机器学习指的是利用一系列算法,从数据中挖掘模式关系,进行分类、聚类或预测等任务。根据训练数据是否拥有目标特征的信息,机器学习大致可以分为有监督学习(Supervised Learning) 和无监督学习(Unsupervised Learning)。

(1)有监督学习:分类、拟合与预测

有监督学习的目标是挖掘变量之间的关系,在自变量与因变量取值已知的情况下,构造模型对二者之间的关系进行拟合。在有监督学习中,通常需要将样本数据随机划分为训练集和测试集,在训练集上训练模型,在测试集上检验模型的泛化能力。常见的算法包括决策树、支持向量机和部分神经网络算法等。有监督学习主要应用于分类、拟合与预测等任务场景。

(2)无监督学习:聚类与降维

无监督学习则是针对单一或多个变量,对样本进行潜在关系的划分,常见任务包括聚类与降维。聚类的目标是找出数据中的潜在子群体,例如k均值算法、高斯混合聚类等。聚类任务更重视对样本空间的划分,而降维则是找出数据中大量特征之间的潜在关系,从而让数据以更清晰、更简化、更容易理解的方式呈现出来[15]。

比较基础的降维算法是主成分分析(Principal Component Analysis,PCA)。它的目标是找到若干维度最大化地解释数据方差。PCA能够将数据视为一个整体,发现其潜在结构,但因为它是一种线性变换,不一定能够把握更复杂的信息。因此,后来又发展出了局部线性嵌入(Locally Linear Embedding,LLE)、t分布随机近邻嵌入(t-Distributed Stochastic Neighbor Embedding,t-SNE)等能够处理非线性结构的降维方法。这两种方法都是通过将数据在高维空间中的局部特征在低维空间中重构出来,从而实现降维的目的。LLE最大化地保持数据在降维前后局部线性关系的不变性;t-SNE将样本之间的距离视作概率分布,目标是在低维空间中重建原始样本之间的概率分布相似性。除此之外,还有自组织映射(Self-organizing Maps)和自编码器(Autoencoder)等基于神经网络的降维方法。无监督算法通过数据驱动,能够帮助研究者排除自身的先验预设,从数据当中直接发现潜在的子群体与意义结构。

机器学习技术既是计算文本分析算法的环节,也被用于对文本数据的分类与聚类:一方面,文本隐式表示需要借助机器学习将文本压缩为低维向量;另一方面,机器学习可以对向量化后的文本进行分类、聚类与降维任务。其中,降维与聚类能够帮助我们摆脱预断,直接从数据中找出潜在的模式。

2. 文本的显式表示

显式文本表示较少考虑文本的生成情境。基于词义信息的常用表示方法包括词频统计和词频— 倒文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)。这些表示方法大多都是将文档视为一组词语构成的“词袋”(Bag-of-Words,BOW),不考虑词序信息,最终将文档表示为一个向量,向量的每个维度都代表一个词语在特定文档中的词频信息。

基于词性信息的方法在词义的基础上引入理论维度,既包括词语的语言学特征(如名词、动词、形容词等),也包括研究者从理论建构需求出发引入的维度(如词语的情绪特征、情感极性等)。以“语言探索与字词计数”(Linguistic Inquiry and Word Count,LIWC)和WordScore方法为例,前者用来对文本进行情感分析,后者最初用于针对政策文本的价值评价。

LIWC在心理学中较为常用,它将词语区分为几个维度,例如语言学维度、心理学维度、认知维度,最终输出文本当中不同词语的百分比[16]。WordScore先对每篇参考文档赋予一个权重,表示   文档在特定政策领域的定位。之后将文本看作词袋,通过词频计算词语对该权值的相对贡献,得到每个词语的词权值。利用得到的词权值计算目标文档的政策倾向[17]。在LIWC方法中,词语被事先分配了类型和情感信息,而在WordScore中,词语的理论意义是在分析过程中计算得来的。

对关系信息的挖掘中,较为简单的方法是通过词语的共现(Co-occurrence)程度绘制语义网,  这是一种基于词频的呈现方法。“n元语法”(N-gram)模型能够在一定程度上捕捉近距离的词序信息。它假定每一个词的出现概率都由前n-1个词决定,用一个长度为n的窗口,从句首到句尾逐词移动,将句子切分为一系列词语序列,把这些词语序列看做短语,当n=1时即为词项构成的序列。除此之外还有基于语言学的句法分析,可以进一步分为短语结构分析(Constituent Parsing)和依存关系分析(Dependency  Parsing)。前者首先根据句子中的词性特征,将句子切分成一组短语,后者的目标是自动分析出词汇之间的语义依存关系,这两者可以相互转换[13]。以句法分析为基础开发出了命名实体识别(Named Entity Recognition)和关系抽取(Relationship Extraction)技术,这是构造知识图谱的基础。命名实体即事物的名称,包括人物、组织、地名等,它们通常是知识图谱的节点,而它们之间的关系通常通过谓词界定。

2. 文本的降维隐式表示

显式文本表示方法面临着数据稀疏、性能受限的制约,并且较少考虑到文本的产生情境,所以只能处理一些较为基础的任务。隐式表示方法以它们为基础,结合机器学习,进一步延伸了对文本信息的挖掘深度,并能够吸收文本中的语义关系信息,部分方法还能与社会情境相结合。文本隐式表示借助降维,能够涵盖和整合更多的语义关系信息。通常可以分为两类:文本概念表示和文本深度表示。前者主要以各类主题模型为代表,后者则是神经网络方法在文本分析中的应用[13]。

主题模型(Topic  Model)克服了显式文本表示难以捕捉一词多义的局限。将文档视为“词袋” 是一种直接衡量“文档—词项”关系的方法,主题模型在二者之间引入主题作为中介,刻画“文档—主题—词项”关系。这一关系假定文档中的词语按以下过程逐个产生:先以一定的主题概率分布选取主题,再以这一主题中的词语概率分布选择特定词。虽然主题模型不考虑词序信息,但会基于词语的共现关系将其分配到特定的主题中。

早期的主题模型是潜在语义分析(Latent Semantic Analysis,LSA),LSA将文档表示为一组由词语构成的隐式概念(即主题)。先通过基于词频统计的方法将若干文档表示成“词项—文档” 矩阵,再通过奇异值分解(Singular Value Decomposition,SVD),将“词项—文档”矩阵分解为 “词项—主题”矩阵和“主题—文档”矩阵,因而,LSA可以被看作是一种通过降维表示文本的技术。

由于LSA受限于奇异值分解的计算复杂度,后来的学者将概率统计思想引入主题模型,将“词项—主题”和“主题—文档”之间的关系用概率分布刻画,利用最大似然估计,开发出概率潜在语义分析(Probabilistic Latent Semantic Analysis,PLSA)方法。而现在经常使用的潜在狄利克雷分配(Latent Dirichlet allocation,LDA)则是在PLSA的基础上更换概率分布函数并用贝叶斯估计取代最大似然估计发展而来的[13]。

LDA是一种无监督降维技术,后来又发展出了一些有监督学习方法,如有监督LDA[18]和有标记LDA[19]。除此之外,还有能够将文本情境纳入分析的结构主题模型(Structural Topic Model)[20],它最初用来分析问卷中的开放式回答,能够将作者信息、文本发布时间等情境信息的先验分布纳入“文档—主题—词项”关系进行计算。

文本嵌入引入了人工神经网络算法,是一种隐式的语义关系表达。它将大量文本中蕴含的语义关系,通过神经网络映射在向量空间中,表现为向量之间的几何关系。比较基础的文本嵌入即是词嵌入(Word Embedding),通常也被称为词向量(Word2Vec)。这一模型的原始目的在于建立词语与其上下文之间的关系,达到给定其中一个来预测另一个的目标,词向量是这一过程的副产品。通过上下文预测目标词语的算法为CBOW(Continuous Bag-of-Words),通过词语预测目标上下文的算法为Skip-Gram[21]。借助向量运算(如向量减法、余弦相似度等),将向量投影至特定的语义维度,就能将词语的语义关系抽取出来。在词向量的基础上,进一步发展出了句向量、文档向量以及其他深度神经网络等方法,限于篇幅本文不再一一介绍①。

以上两种表示方法虽然路径不同,但目标都是将文本中的信息整合起来:前者将大量文本转化为有限的主题,从而将文档表示为主题分布,后者将文本压缩表示为稠密向量。它们也可以被看作是文本到向量的降维手段。一旦将文本向量化,就能进一步应用前文提及的机器学习算法执行分类、聚类与降维的任务,从而挖掘文本背后的结构。


三、“远读”的路径

“远读”帮助研究者跳出微观,从宏观的视角看待研究对象,大致可以分为六条路径,分别是编码与分类、情感分析、降维分析、主题抽取、分化与极化以及文化测量,它们分布在对计算文本分析方法的工具性应用和理论性应用的连续谱上,彼此之间存在串行、并行与交叉,需要结合研究目标综合考虑不同层次的文本信息,并使用较为适用的文本分析方法。

1. 编码与分类

对文本的分析是质性研究中关键的一环,学者们认为量化文本分析技术能够回应质性研究中代表性与可复现性不足的问题。因而,部分学者开始尝试将传统的质性研究与量化方法相结合。例如,对质性研究者来说,可以将文本分析技术作为大量文本数据预处理或初步探查的手段[22],有助于研究者克服理论预设对资料解读视角的制约[23]。机器学习发展使得从文本中提取结构化信息变得更加方便。学者们大多通过监督学习方法对文本进行分类。例如,有学者通过有监督机器学习对领导留言板的文本内容进行归类,分析政府回应的话语模式类型。他们首先将文本向量化,然后从总体数据中随机抽取出部分样本构成训练集,对其进行人工编码,之后根据机器学习对其余四万多条文本进行分类[24]。尼尔森(Nelson)等人系统性地测试了监督学习算法在文档编码过程中的效度,并将之与基于字典的编码和非监督学习相比较,结果表明监督学习算法在文本分类中表现最好[25]。

2. 情感分析

情感分析的目的是对文本进行情感归类。从分析粒度来看,情感分析可以分为文档级、句子级、词语级和属性级(Aspect-level)[13],前三种从字面意思即可理解分析目标,而属性级情感分  析则是从文本中进一步抽象出语言表达的分析维度,呈现文本在各个分析方面的态度倾向。从方法取向上,情感分析可以分为机器学习路径与词典匹配路径[26]。机器学习取向的方法将情感分析看作是通常的文本分类任务;基于词典的方法则需要预制情感词表,按情感倾向将词语分类,或标记出词语的情绪类型。之后通过一系列算法,将文本中的词语与词典中进行匹配,从而计算文本的情感倾向。

例如,有学者使用基于词典的情感分析方法,针对研究问题编制了特定的情感词典,对四百多个半结构化的生活满意度访谈文本进行情感检测[27]。而在青年研究中应用情感分析的例子较多。学者们通常使用基于词典的情感分析软件分析青年对待社会现象和具体事件的态度[28-30],部分学者还借助了平台公司开发的人工智能API[31]。

3. 降维分析

降维是一种简化数据的手段。从技术上看,在机器学习中,训练数据的特征数量非常庞大,需要大量的计算开销,如果训练任务仅仅需要数据在一个低维空间的分布信息,那么对数据降维能够降低模型训练的成本,优化训练效果。从社会科学的角度看,降维的一大用途是将若干个彼此之间相关性较高的变量用一个潜变量代替,或是降低回归模型的多重共线性。PCA仍是当前学术界主要使用的技术,但降维方法也产生了许多新的发展,能够处理更加复杂的数据结构[15]。

从以上两个方面来说,降维在“远读”中具有更加重要的意义。首先,降维思想内在地包含于计算文本分析的方法实践中,例如LSA和PCA均使用了奇异值分解,Word2Vec与利用神经网络的自编码器降维原理也具有相似性。其次,社交媒体时代互联网上有着大量的文本数据,为了从巨量的数据中排除随机扰动和无关紧要的细节,找出主要的结构和潜在的子群体,探求“整体事实”,就必须用到降维。接下来将要介绍的三条路径都在不同程度上体现着降维思想。通过降维,文本的内在关系得以直观地呈现出来[32]。

4. 主题抽取

文本分析方法的一个重要用途就是从文本中抽取主题,从而分析文本的内容。传统分析方法通常通过与词频统计相关的方法衡量文本主题。例如通过语义网分析《人民日报》“五四”纪念话语的变迁[33],以及广深两地“双创”政策的主题[34]。这种方法虽然直观,但难以捕捉一词多义, 并且分析难度会随着文本规模增长而变大。以LDA为代表的主题模型可以挖掘出文档中的潜在主题,成为近些年来社会科学中广泛使用的方法。

例如,有学者收集了新浪微博中与劳工话题有关的文本,使用LDA将其区分成10个主题,分析了这些话题比例从2012到2014年的变迁趋势[35]。与之类似,还有研究根据关注度、阅读量、讨论度和与青年日常生活关系的紧密程度选取了三个微博话题,通过LDA分别对这些话题进行分析,聚焦当代青年较为典型的需求[36]。还有学者使用LDA分析了农村、农业和农民相关的主题在每年政府工作报告中的比例,借此构造了中央政府对农村工作的注意力指数[37]。LDA在主题抽取中应用广泛,它属于无监督学习,需要结合混乱度(Perplexity)和一致性(Coherence)等指标衡量模型质量,给出的结果依然需要结合理论进行解读。

5. 分化与极化

由于能够将文本映射到向量空间,从而量化它们之间的关系,因而文本分析的一项重要应用就是观念的分化与极化测量。文本包含着不同的主题,针对同一情境下的文本,使用显式文本表示、主题模型或文本嵌入方法,将文本中的信息转化为向量,就能够衡量不同文本在内容上的差异,从而通过聚类与降维技术量化分析观念的分化与极化。

例如,有学者使用词频比对分析美国政治极化,他们从国会记录中识别出表示政治倾向的短语,将它们与谷歌书籍数据库中的数据比对,发现极化用语在书籍语料库中出现频率的上升趋势领先于国会演讲[38]。近些年机器学习方法也被应用于分析分化与极化,例如将美国议员在推特上发布的文本表示为“n元语法”,利用随机森林算法衡量议员的政治倾向[39]。还有学者将结构主题模型应用于讨论气候变化的文本,分析了接受利益赞助是否会影响这些文本的态度[40]。还有学者使用“全球事件、语调与语言数据库”(Global Database of Events,Language and Tone,GDELT) 收集了西方国家媒体报道的文本数据,通过将句子向量化,使用无监督学习降维与聚类,从而分析西方媒体涉华言论的主题分化[41]。

6. 文化测量

近些年,以主题模型和文本嵌入为代表的分析方法,在文化测量领域取得了重要进展。它们通过降维将文本放置在一个向量空间中,能够对文化图式(Cultural Schema)和文化框架(Cultural Frames)进行测量。博柏利(Boutyline)和索特(Soter)指出,在认知科学和社会学中,基于海量文本 数据训练得到的词向量模型可以成功测量文化图式[42],词向量可以捕捉到文本中蕴含的偏见[43]。在向量空间中几何距离相近的词向量,其上下文内容相似,也共享着近似的含义。词向量可以将文化意义关系映射为向量空间中的几何关系,例如,“King-Man+Woman”对应的词向量计算结果, 与“Queen”距离非常接近[44]。

佳格(Garg)等人使用谷歌新闻和图书大数据训练词向量,研究了一百年来美国性别偏见的变迁[45]。他们分别计算男性/女性身份代词向量与特定职业名词向量之间的距离之差,这一差值随时   间的变化与关于职业参与的人口统计特征相吻合,也即,不同职业中的性别比例反映在性别身份代词与职业名词在向量空间中的距离中。除了利用相似度,还有学者利用向量减法挖掘文化维度。他们利用表示阶层、性别、道德等文化维度的反义词对,计算出它们在向量空间中的单位向量,比较了这些维度彼此之间的距离,并将其他词语(例如职业名称)投影到这些维度,代表它们在文化维度的定位[46]。

主题模型也被用来测量文化。它的算法基于文档中词语的共现情况将其归入不同主题。迪马吉奥(DiMaggio)指出,主题模型应用于文化分析有三个优势。首先是其结果的可解释性。它的结果在文化社会学中常常被看作是文化框架。其次,主题模型能够借助上下文捕捉一词多义,同一个词语可以穿插出现在不同的主题中。第三,主题模型能够从单一的文本中捕捉蕴藏于其中的不同观点或表达风格。这些都说明主题模型能够捕捉到文化概念之间的复杂关系[23]。有学者使用主题模型研究了美国联邦公开市场委员会(The Federal Open Market Committee,FOMC)为何会低估2007~2008年间的金融风险。他们使用主题模型分析了FOMC在2000~2008年间的会议记录,说明其如何将宏观经济学作为主要框架,将关于金融市场的异常信息边缘化和正常化,从而忽视金融风险[47]。


四、“远读”青年的降维认识论

(一)“远读”青年中的降维思想

纵观“远读”的方法与上文提到的应用案例,不难发现这一范式的核心目的在于,从纷繁复杂的文本细节中抽离出来,跳出局部内容,转而上升到一个整体的结构层面理解大量文本。不论是从最基础的词频统计,还是到更加复杂的主题模型与文本嵌入技术,都是跳出单一文本,转而从整体关系的视角出发,将它们放在同一个向量空间中观察。

例如,TF-IDF不仅考虑某个词语在单个文本中的重要性,还会纳入它在一组文档中的相对重要性,从而间接地体现出文本之间的关系。主题模型和文本嵌入不仅能提供一种整体性的视野,还进一步压缩了文本信息,用更少的维度表示它们。主题模型将在大量词语与大量文档之间引入主题维度组成的隐空间,用少量主题可以刻画大量的词语与文档之间的关系。文本嵌入则是利用神经网络算法,将词语之间的关系用高维向量表示在一个向量空间中。

总之,“远读”是一种整体性、关系性的视角,重要的不是对某个局部进行细致的考察,但也不是完全不考虑文本的细节,而是将这些细节纳入到一种局部不可见的宏观结构中,通过计算文本分析方法,揭开隐藏在大量文本中的整体结构。因此,主题模型与文本嵌入可以被视为一种文本降维技术,都是将信息聚合在更小的维度来表示大量信息。从这个意义上说,这是“远读”中的第一重降维,是文本到信息的降维。

然而,将大量文本映射到向量空间中还不能让它们之间的关系直接显现出来。通过主题模型和文本嵌入方法得到的文本表示结果通常都大于三个维度,例如词嵌入结果通常都是100维以上的向量,再加上神经网络训练过程是一个“黑箱”,我们很难理解每个维度代表什么信息。这时需要第二重降维,也就是信息到知识的降维。

第一重降维重在文本表示,将文本放置到向量空间中,将文本之间的关系表示为向量相似度或距离的关系,第二重降维重在知识提取,目的在于从这层关系中挖掘关系、发现模式、归纳知识、描述现实,这需要使用上文提到的降维技术。经过第二重降维,文本的结构能够以更加简明的方式呈现出来。

(二)“远读”青年的认识过程

从互联网诞生到现在,人类社会先后经历了物品数字化、社会个体生活的数字化乃至人的整体数字化[48]。人们在社交媒体上的行为痕迹与表达内容都以数据的形式存储在服务器中,它们从产生到存储和管理的整个过程都离不开算法。

算法对数据具有调遣和规范的作用,它将数据标准化,以人为设计的目的呈现出来。因而,人们在数字空间的互动与算法对数字的干预过程紧密耦合在一起,算法成为了技术化的社会规则[48]。一旦将内容生产出来并转化为数字,它们就不再受到生产者的控制,转而成为信息流的一部分。在这个过程中,人们自身的行动后果成为了将来行动的外在条件,反过来对行动者造成影响,强化了社会的反身性。

在前社交媒体时代,完整的社会事实分发过程由专业化的媒体机构实现。媒体通过报纸杂志、广播电视和门户网站等媒介,将信息从中心信源经由各级媒体机构垂直向下分发,最终到达目标受众,整个过程呈现“树状单中心化”的结构。社交媒体时代,信息传播与线上社会互动之间的边界模糊化了,信息传播转化为一种社交行为,资讯流动与社会互动密切交织在一起。为了获得更大的关注量,人们更倾向于发布和转发夸大局部“事实”的、能博取更多关注的信息,其行为受情感的影响程度远大于理性。这个过程造就了一批意见领袖,从而使得信息传播呈现“网状泛中心化”的结构。

专业化媒体机构不仅能够决定分发什么信息,还能在很大程度上保证信息逐级传递的过程中不会失真。但在社交媒体中,信息内容的变异受网络结构和信息传播速度的影响而呈现指数性特征, 任何人在传播信息时都能够以自己的方式施以主观解释,从而使原始内容发生多次变异。于是,完整的社会事实彻底溶解和消散在社交网络中,人们所看到的“事实”不仅被碎片化了,更是被颗粒化了,从而转化为一种“元事实”。如果说人们通过碎片还能够将事实重建出来,那么颗粒化的事实则损失了大量原始信息,以至于以通常的方式重构它们变得非常困难。针对这些现象,本文认为“远读”青年具有以下三个方面的意义。

1. “远读”有助于把握网络青年的观念内容、理解其线上行动

不同于线下交谈的即时性,互联网社交媒体具有脱域特征[49]。人际交流在大多数时间都是异步的,人们彼此之间并不需要即时回应对方的行动。此外,深度嵌入互联网使当代青年更少受到自己身边事物的影响,在虚拟空间中形成了独特的线上社群,产生了复杂的观念与文化,并反作用于线下生活。

互联网延长了人际关系,也加速了信息流通,每个人都成为了内容的生产者和消费者[50],文本则是内容的主要形式。从某种意义来说,这意味着社交媒体上,人人都是写作者,人际关系正是通过“写作”得以建立与维系。有学者认为,互联网上的文本不仅是一种表达或记述,还可以是一种“语言行动”;语言甚至可以不再依赖于行动者的持续介入,自身成为了一种行动主体[51]。

因此,“远读”所读不仅是内容,还是行动背后的意义。社交媒体上的文本不仅代表着人们在发布与阅读什么内容,还反映着人们如何行动,以及支持这些行动的观念体系。通过“远读”,我们能够更好地从宏观层面把握网络空间中青年的观念。

2. 借助降维技术,“远读”以整体视角鸟瞰网络青年的观念结构

互联网社交媒体让完整的社会事实在网状泛中心化的结构中消散开来,每个人只能接触到颗粒化的信息。这些信息常常以片面和极端的形式呈现,加剧了人群的分隔。由于失去了把握信息颗粒之间关系的能力,人们得到的信息就算彼此矛盾,也难以辨别,不同观念混合在一起。因而,仅靠传统的“近读”无法还原事实原貌,我们需要通过“远读”呈现出颗粒之间的关系,把它们放到一个更宏观的整体视野中去检视它们、比较它们。计算文本分析方法将文本放置在一个高维的向量空间中,使得我们能够通过算法分析它们的群聚关系,从而通过数据驱动找出它们之间的情感关联、主题关联,并通过聚类算法挖掘其背后的潜在群体。

降维技术能够从文本数据众多信息中将观念的潜在关键结构提取出来。例如,PCA能够合并数据中存在潜在相关性的维度,用更少的维度解释更多的信息,实现对文本数据的压缩,找出数据中的主干结构;LLE基于流形学习(Manifold Learning)理论将高维数据在低维空间中重构出来,不改变数据空间中样本之间的局部关系。降维技术会省略一些在整体层面无关紧要的信息,通过这种方式,我们能够从错综复杂的关系中去掉不重要的扰动成分,让关键整体框架浮现出来。

3. 降维“远读”的认识方法提供重建“整体事实”、搭建沟通桥梁的可能

在快速变化的线上社交网络中,局部“事实”被放大和极端化,人们在局部不断以自身的主观理解重构着这些“事实”,“信息茧房”更加促使人与人之间的观念变得割裂。青年群体非常容易因为只能看到片面的信息,认为“眼见为实”。然而,由于社交媒体中的信息爆炸,他们时常需要在各种不同的观点与态度间摇摆。

“远读”通过将视角拉远,以整体性的视角看待各类观念,将不同观念投射在更易被理解的低维子空间中,将它们之间的关系重构出来,从宏观层面审视这些关系,以重建“整体事实”。人们之所以会被不同观念分隔开来,一定程度上是因为与观念相似的人交往更加频繁,群体内部具有观念强化的倾向。“远读”内在地将不同观念放置在同一个整体空间,呈现出观念的多元化以及它们之间的距离,并能够动态呈现观念分化程度的时间特征。这有助于人们理解自己在观念空间中所处的坐标,并意识到自身观念的局部性,从而为搭建沟通桥梁创造条件。


五、讨论与展望

当前社会的数字化转型深刻改变了青年的社会化场域,仅靠传统的青年研究方法难以回应这一转型。本文引申了数字人文中“远读”的概念,认为计算文本分析方法能够回应这一转型,并简要介绍了这些方法的种类和应用路径。

借助这些方法,我们能够以更清晰、更简化、更容易理解的方式从整体视角把握青年群体和他们的活动场域。方法是回答研究问题的手段,计算文本分析方法并不是要替代传统的定性与定量研究,正如在数字人文中,“远读”与“近读”也存在结合可能一样[10],这两种方法互补能够更好地促进我们对当代青年的理解。

这些方法以大规模文本数据作为处理对象,经常需要在互联网上收集文本数据,虽然这些数据的规模较大,但仍然需要考虑数据收集和分析过程的科学性、严谨性、规范性和伦理问题。在应用方法的过程中,本文认为需要注意三个要点,分别是文本数据的代表性、分析方法的适用性以及数据收集过程中的伦理问题。

(1)文本数据的代表性。大规模文本数据的来源包括网页爬虫、大量的深度访谈资料、报纸杂志文本以及政策文本等。正如在问卷调查之前需要考虑样本的代表性,分析文本数据时,也需要考虑到其能否代表研究对象。

例如,通过互联网获取的文本可能代表不了不经常上网的人群;此外,人们往往基于不同的目的使用网站或社交媒体。不同平台的互动规则、粘性用户群体也不同,依靠单一的媒体数据,即便是总体数据,也不一定代表目标群体。有学者指出,特定的社交媒体甚至会产生“媒介意识形态”,进一步塑造人们的线上互动[52]。同一个人可能会把自己的线上身份分散在多个不同的平台上,这导致在观点挖掘和文化研究中很难合并出一个总体的研究对象。最后,社交平台也在一定程度上存在着舆论操纵的现象。平台并不仅展示用户活动的数据,还会干涉这些数据的生产过程,从而导致数据偏差[53-54]。

然而,代表性问题取决于研究对象的界定,如果研究对象并不是特定的人群,也不需要考虑结论的泛化,仅仅是为了探究文化发展规模与类型,或是进行样本内比较,那么代表性问题仍然能够得到解决。另外,虽然数据的生产过程可能发生变化,但这对于长期的数据收集来说影响更大[55], 对短期数据的分析仍然具有科学意义。有学者在研究中也指出,人为干预也可能对研究结果的影响有限[56]。

(2)分析方法的适用性。文本分析方法都是与特定场景相联系的。社会学家将这些方法移植到自己的研究领域,可能会突破这些方法的既有假设。

例如,弗里格斯坦(Fligstein)等人虽然使用主题模型分析了FOMC的会议记录,但也指出主题  模型的开发初衷是为了分析静态文本,主题已经预先确定。而会议记录则会在对话中不断变化[47]。词向量模型如果需要捕捉到文化观念,则对训练语料库的规模有一定要求[42]。此外,在对文本应用降维技术时,也需要检查降维结果是否能够抽取出最关键的信息[46]。

因此,在使用特定文本分析方法之前,也需要考虑其最初要解决的问题处在怎样的特定场景中,并将这些方法上的假设与当前研究进行比较,从而选择适用的方法。本文所介绍的方法只涵盖了部分方法领域,并且这些方法还处在快速发展中,需要我们不断对前沿方向保持关注。

(3)数据收集中的伦理。虽然以公开数据作为研究素材不违反社交平台的用户条款,但是作为数据生产者的用户仍然关心自己在无意间被当成研究对象,尤其是少数群体[57-58]。

社交媒体上的文本数据通常产生于特定的互联网情境,在其中,人们的交流方式与日常生活中存在一定差异。人们在互联网上发表意见、与人交流时大多是面向特定的社群,而不是面向整个互联网,尤其不是面向互联网之外更广泛的公共空间[57]。由于互联网的半开放性和匿名性,人们反而会与陌生人交流一些更具私密性的内容。因此,正如访谈时需要保护受访者的隐私一样,利用线上文本数据同样需要关注研究对象的隐私问题[59]。青年群体对隐私问题的重视程度更高,也更容易受到隐私泄露的伤害,对此我们需要更加重视研究过程中涉及到的伦理因素。

本文主要探讨了计算文本分析方法用于互联网文本的路径与对青年研究的意义,虽然互联网上的内容形式以文本为主,但近些年来音视频及图像的兴起也提供了更多的研究素材。音视频及图像经常与文本相互参照,共同表达信息与情感。本文将这些文本和与之伴随、与文本内容关联的音频、图像和视频合并称为“富文本”。

在社会科学中,以这些数据作为素材的研究还不多。虽然文本仍然还是主流的信息载体,但图像与音视频通常包含着更多的情感细节,尤其是当前各类长、短视频平台的流行,音视频已经成为互联网上的主要内容载体之一,这些都提供了更多的研究素材。

已经有学者将深度学习算法用于识别社交媒体上发布的线下集体行动事件。他们使用卷积神经网络(Convolutional Neural Network,CNN)和循环神经网络(Recurrent Neural Network,RNN)进行文本和图片的分类任务,描述了新浪微博2010~2017年集体行动事件的数量趋势,并将这些事件分为11种类型[56]。还有学者将流行歌曲转化为音乐特征向量,通过计算余弦相似度衡量歌曲之间的关系。他们发现,流行歌曲的成功不仅与作品自身属性(如歌手和流派)有关,还取决于它与同类型作品之间的关系,即能够权衡好与同类之间相似与相异程度的歌曲更容易获得成功[60]。这些研究部分地说明社会科学已经开始关注“富文本”分析。

本文认为,通过“远读”当前社交媒体上的丰富内容,我们对“整体事实”的理解能够更进一步。虽然从理论上说,“整体事实”处在永恒变化当中,由于我们始终身处社会之内,从而永远无法透过最整体的视角看待自身以获得最完整的“整体事实”。然而,这并不是说我们要放弃对“整体事实”的追求,实际上,这一概念背后所体现的是一种对待事实的谦逊态度,提醒着我们不断采取各种方法手段向它逼近,而不是将局部的认识当成世界的全部。



参考文献:略

本文来自《青年探索》

2022年03期

P20-34

END

图文 / 李 洋    

编辑 / 肖 彬、郑 航

初审 / 吴 瑾    

终审 / 谢素军、何思敏


点一下阅读原文下载当期《青年探索》

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存