本文基于谷歌图书的最新语料库(811万种书籍,8613亿词汇),通过设计、检索社会学的学科关键词以获得历年词频数据,对19世纪中期以来社会学的发展进行追踪,并藉此展示、分析和诠释了社会学的学科轨迹、名家大师、理论流派、领域热点、分析方法,以及中国社会学在文化影响力维度上的百年变迁,同时对建立“社会组学”进行了展望。本研究为利用大数据进行人文社科研究提供了初步经验。一、导言“大数据”的应运而生,既给商业、管理和公共行政带来了众多机遇,提出了诸多课题,同时正在全球社会科学界、人文学界引发讨论的热潮。早在数年前,哈佛的加里·金在在展望政治学的未来50年时就预言,随着大数据的出现和使用,整个社会科学研究的实证基础将会出现重大的变化,甚至会加速定性与定量研究的大融合(King,2009)。国内学界也对大数据给社会科学领域带来的机遇充满信心(沈浩、黄晓兰,2013)。不过,“大数据”概念虽热,但社会科学界基于大数据的实证研究却比较薄弱。一方面,大数据往往为政府、大型公司或网络媒体所持有,数据获取渠道和分析方法都与传统的社会科学定量定性分析存在很大差异;另一方面,现有的大数据往往本身并非为社会科学研究而设立,其在样本代表性、测量可靠性等方面往往受到学界的诟病(Tufekci,2014;Boyd & Crawford 2012)。2011年,以让-巴蒂斯特·米歇尔(Jean-Baptiste Michel)为首的哈佛大学、麻省理工学院、大英百科全书的学者与谷歌研究团队,共同署名在《科学》杂志第331卷发表了题为《使用百万数字化书籍的文化定量分析》的重要论文(Michel et al.,2011)。该研究借助谷歌图书的海量数字化资料,分析了公元1500年到2000年间500多万本书籍高达5000多亿单词的语料库(corpus)。通过对关键词在语料库中的使用频率变化,展示了五百年来人类文化发展史中或鲜为人知或饶有兴味的趋势和现象。这个全新的研究领域,被称为“文化组学”(culturomics)。利用这个文化大数据,国际语言学界和历史学界已经出现了一些跨学科的探索性研究(Bentley et al.,2014;Acerbi et al.,2013;Twenge et al.,2012)。海量的数字化书籍和兄弟学科的最新探索,为社会科学领域的大数据应用研究提供了难得机遇。社会学自19世纪末诞生以来,理论和方法日益丰富,学派和名家不断涌现,其理论和成果对人类经济、政治和社会文化生活的影响也在不断扩大和深入。在学术界内衡量一个学科或者某项研究成果的影响,我们往往依靠学术文献和引用指标(如学术书籍、学术期刊、论文引用影响因子),不过,要在更为宏观的时间、空间维度上观察甚至评估理论的发展、学者的成长乃至整个学科对于人类知识谱系的影响力,也即“文化影响力”,则要复杂和困难得多。现在,基于大数据的词频统计技术为这一领域的探索提供了可能。本文将利用谷歌语料库千亿量级的海量数据,通过对社会学关键词的词频分析来初步展示百年社会学发展历程中的现象和规律。本研究也是我国社会学领域的首次大数据分析尝试。二、数据概念和策略让-巴蒂斯特·米歇尔等分析的数据来自谷歌图书(Google Books)。自2004底起,谷歌公司陆续对哈佛、牛津等40多所顶级大学图书馆藏书及出版社赠书进行了浩大的数字化工程,到2013年,谷歌已对超过三千万种书籍进行了扫描识别,占人类自古登堡印刷术发明以来出版图书的约四分之一,其中数字化质量较好可供全文检索的达八百多万种(8116746),词汇量8613亿(Lin et al.,2012)。表1分别展示了谷歌图书语料库的主要构成。为实现基于全文检索的词频统计,该语料库采用了词汇连续语音识别中的“n-gram”算法模型以实现对语料库中海量文本的切分、断句。 Google Ngram Viewer页面截图 书籍是承载人类知识观念和思维的最主要的载体。只要语料库具有足够的代表性,我们就可以认为一个词汇在书籍中出现的频率,能够近似地反映这个词汇及其相关意蕴的“文化影响力”(涵盖知名度、关注度、影响力等多个维度),甚至折射出某种社会趋势、风尚或思潮(Twengeetal.,2012)。以“社会流动”一词为例:首先,语言和词汇反映了作者的观点,而书籍作者比一般人拥有更大的文化影响力。作者群体越多地提及“社会流动”,就说明该词的文化影响力越高;其次,书籍出版会考虑读者的需求,因此书籍词汇的总体特征往往能反映大众观念和思维偏好。书籍中“社会流动”出现得越多,就意味着大众对相关的社会现象越为关注。
谷歌语料库为文化研究、语言学研究、观念史研究等提供了难得的文化大数据。特温格等(Twenge et al.,2012)对美国20世纪书籍中个人化用词的趋势进行了历史解读;阿瑟比等(Acerbi et al.,2013)对人类20世纪书籍中感情用词的演变以及英式美式英语差异进行了分析;宾利等(Bentley et al.,2014)等研究了20世纪美国经济与悲观性词汇使用之间的关联。这批新近的跨学科、跨领域研究,为我们从新的角度观察社会学发展史和探索社会学领域的大数据应用提供了启示。本文将借鉴“文化组学"的研究方法,使用谷歌图书语料库的最新2012版进行社会学词频分析。有关数据特征、概念操作化和分析策略归纳如下。(一)数据的代表性谷歌图书语料库2012版拥有1500年以来的811万种印刷图书、8613亿单词。考虑到社会学的诞生是在19世纪末,且英语是百年来全球使用最为广泛的语言之一,我们将检索范围设定为19世纪中晚期到2008年的英语语料库。由于19世纪以来的图书印刷质量较之早期图书更高、数字化识别率也更好,因此其进人全文检索语料库的比例要较早期图书高出很多。这使得本文检索对象的代表性比谷歌图书语料库跨度五百年的总体代表性要高得多。实际上,本文的检索分析对象几乎囊括英语世界19世纪中晚期以来的绝大部分书籍。最后,尽管书籍内容包罗万象,出于谨慎我们在辅助分析中进一步对非书籍语料库进行了分析:具体而言,我们将利用19世纪中晚期以来的平面媒体(报纸)全文数据库对相关关键词进行检索。如果基于报纸的检索结果和基于书籍的检索结果非常接近,就能进一步证明谷歌图书大数据的代表性。相关结果我们在附录中展示。(二)数据的针对性人文社科知识体系的建立、扩张和影响力,以及成果的弥散,比物理、化学等自然科学更借助于文字的形式,也就更多地依托书籍、报纸和杂志等文化载体。不过,读者难免有疑问:为何不直接使用学术期刊来作为社会学关键词的分析对象?实际上,除了谷歌图书语料库更符合大数据的基本特征之外,还有三个方面的原因。第一,书籍内容的覆盖面要比学术期刊广泛得多,而本研究的目的恰恰在于分析百年来社会学的文化影响力变迁而非单纯的学术发展史;第二,作为书面语言的载体,学术期刊的发展、成熟本身要比书籍晚得多,如果用期刊数据库进行分析,早期的社会学相关信息可能会有较大偏误;第三,学术期刊数据库提供的检索功能往往只达到作者、关键词、学科领域级别,有的虽能实现全文检索但又无法提供词频信息。因此,谷歌图书语料库无论在数据规模还是完整性、科学性等方面,都比学术期刊数据库更适合本研究。(三)概念的操作化我们正式定义:在某个时间跨度内的具有较好代表性的语料库中,一个社会学关键词的“词频比例”,即其在样本书籍中出现的次数与样本书籍中全体单词总量的比值(考虑到每年书籍总量不一),可以代表该社会学关键词在该时段内的文化影响力。这样,利用谷歌图书语料库对一系列学科关键词进行检索统计,我们就可以获得这些关键词自社会学诞生以来一个多世纪中的历年“词频比例”。在任何一个年份,关键词词频比例越高,就表明其在全社会的使用和提及程度越高,文化影响力越大。考虑到书籍出版年份越靠后,进人书籍中数字符号等非词汇性内容越多,因此我们用关键词出现频数除以英语单词“the"的出现频数来计算年度词频比例。具体计算公式为: (四)检索词的设计我们的检索分析主要基于英语库。检索方向分为6类:学科轨迹、名家大师、理论发展领域热点、分析方法以及中国社会学。关键检索词的设计我们主要参考了斯科特和马歇尔主编的《牛津社会学词典》(Scott & Marshall,2005)、吉登斯和萨顿的《社会学》(Giddens & Sutton,2013)、贾春增的《外国社会学史(第三版)》(2008)、谢立中的《西方社会学名著提要》(2007)等辞书和教科书。选取辞书与教科书而非社会学理论专著作为关键词选择依据的原因在于:第一,辞书和教科书本身对学科的总体发展有比较清晰的梳理,其章节、条目为关键词检索提供了良好的备选;第二,社会学辞书、教科书的数量较之社会学著述要少得多,这使得我们可以在前人的总结梳理基础上较为快速和准确地确定关键词。(五)检索精度的设置如果关键词在当年书籍中出现少于40次,就被作为0值处理。换句话说,检索得到的词频本身就是“规模性”出现的“热词”词频。40次的门槛设置,除了让数据分析和绘制图形更为简洁之外,对检索精度具有重要的价值:例如,在搜索社会学名家的英文全名之时,通过“热词”筛选就可以排除一些和社会学大师同名同姓的普通人——除非他本身是其他领域的知名人物。此外,我们还根据不同的情况设置了单词字母大小写的严格区分或模糊区分(如人名中区分大小写),对关键词非核心部分进行了有针对性的取舍(如检索“固定效应”而非“固定效应模型”),以确保检索结果的科学性。最后,考虑到图形的视觉效果,我们对词频比例曲线进行了2年平滑处理:以1950年为例,经过平滑后该年份的数值为它与前后两年原始数据一共5年的平均值(1948、1949、1950、1951和1952年的均值)。三、大数据中的学科轨迹我们首先分析“社会学”(sociology)这一最重要的学科关键词自1850年以来在英语书籍中的出现频次。为进行对比,我们同时对哲学(philosophy)、经济学(economics)、人类学(anthropology)和心理学(psychology)等四个兄弟学科进行同步检索分析。图1的横坐标是1850-2008年的时间轴,纵坐标是社会学关键词的词频比例。从图1可见,在150年来的英语书籍中,“哲学"二字的词频比例总体上保持在0.008%上下,也即十万分之八。与其他社会科学门类相比,哲学词频出现更早、占比更高。不过,在19、20世纪交替的自由资本主义发展晚期,哲学词频曲线进人了下降通道,直到20年代才开始恢复。实际上,哲学史上与此对应的正是19世纪中叶德国古典哲学尤其是黑格尔学派的解体。而在哲学词频曲线缓降的世纪之交,其他学科词频则各自崛起。
第一,理论的生命周期。我们发现,理论从提出到成型、成熟再到式微有一个生命周期。在20世纪中后期,绝大部分理论从提出到达到词频比例的最高点,总体上需要30-40年左右。此后理论的影响力开始缓慢下降。但由于尚未观测到稳定的最低谷,因此我们尚不知理论衰退所需的时间。此外,尽管我们用来分析的理论数量很有限,但该发现和语言学研究的结果契合得较好。彼得森等(Petersen et al.,2012)发现,人类词汇的周期约在30-50年,也即新词汇从出现到消亡或者稳定使用,需要30-50年时间。我们推测,理论的生长和衰退周期既和词汇周期有关,同时也取决于社会学理论本身的更新速度。第二,理论的新陈代谢。例如,结构功能主义、新功能主义词频比例90年代中期就开始下降,而比它们晚出20多年的结构洞理论却已经在词频上超越了前者。此外,70年代兴起的常人方法学符号互动、冲突理论等也已从90年代开始衰减了约20年,而理性选择约从新世纪开始进入下降通道。90年代以后,新生代理论呈现强劲的增长势头。如果我们把弱关系和结构洞理论相叠加,其词频比例在2008年左右已经可以超过交换理论和结构化理论。也就是说,新兴的社会资本或社会网理论,文化影响力实际已开始超越经典理论。当然,至于它们能不能进一步上扬甚至重现常人方法学、符号互动或理性行动等增长极为迅速的成功理论,尚需时间考验。第三,理论的解释层次。一般我们会认为,宏观大理论具有更高的概括能力和更宽的辐射使用面,也因此会具备较大的影响力。但是我们发现,起码20世纪中期以来理论世界不再由宏大叙事主导。例如,结构化、结构功能主义、新功能主义均处在词频坐标的中下游,虽然历来是教科书的重点,但和常人方法学、符号互动理论、理性行动理论等基于行动的理论相比存在不小差距。此外,随着时间推移,大理论的空间似乎越来越小,70年代之后兴起的弱关系、结构洞等理论,关注面都非常集中。我们推测,盖因大理论过于野心勃勃而降低了解释力和吸引力,且又越来越缺乏空白的生长点。因此,社会学可能开始进人某种“后大理论”的时代。当然,这一推测是否合理尚待时间检验。六、大数据中的社会学研究领域社会学研究领域众多,且非一成不变。一方面,社会学拥有众多的子学科;另一方面,学科的研究热点也随时代进步而不断转移变化。因此,利用大数据我们可以对社会学子学科的结构和变化进行分析,也可对研究热点的变迁进行一些解读。我们首先对教育社会学(educational sociology和sociology of education)、农村社会学(rural sociology)、城市社会学(urban sociology)、政治社会学(political sociology)、经济社会学(economic sociology)、法社会学(sociology of law)、宗教社会学(sociology of religion)和历史社会学(historical sociology)等八大子学科进行检索。