海量?智慧?整洁?混乱?——人文学科中的数据 【转译器】
本文节译自Christof Schöch, “Big? Smart? Clean? Messy? Data in the Humanities,” Journal of Digital Humanities 2(3): 2-13. 译者:吴维忆
大多数文学和文化研究领域的同事都未必会把他们的研究对象视为“数据”。然而,与其他研究领域一样,人文学科正越来越频繁地需要和“数据”打交道。数字人文就旨在应对这一挑战,并试图探寻数据对于人文研究的潜在价值。
人文学科中的数据有点特殊:你可以说某本书或手稿中的文本、或者构成一幅画的视觉元素已经是数据。然而,这首先是一种模拟的、非连续性的数据,无法以计算的方式来分析或转化;第二,语言、文本、绘画和音乐都是符号系统,它们具有某些超出物理度量的维度,某些关乎于“语境中的意义”的语义学或语用学的维度。尤其出于第二点理由,在人文学科内谈论“数据”是存在问题的,并且已经遭到质疑。批评意见往往来自对于“数据”和数据量化分析法存疑的主流学者。而这正是因为以数据为导向的研究呈现出的鲜明经验主义色彩与人文研究的一些原则——譬如“建立在语境上的解释”和“研究者及其研究目标的不可避免的情境性”)——似乎是相互冲突的。
Johanna Drucker更倾向于用“capta”这个术语而非数据(data),该词的意思是“被捕捉或收集的”。它突出了一个观念:即便是研究初期捕捉数据的这一行为也是一开始就为特定目标所主导、以特定工具来完成,并且被导向为针对某个局部的特殊关注。一旦最初的目标和工具发生变化,就可能需要将捕捉范围扩大许多。换言之,捕捉数据不是被动地接受给定的东西,而是积极地构建学者所关注的内容。
即使不采用新的术语,我们现在也能重新定义人文学科中的“数据”。人文学科的数据可以被视为数字的、选择性建构的、可机器处理(machine actionable)的抽象物,它能够再现某个给定人文研究客体的某些方面。不论我们是借由文本或其他文化产物了解另一个时代及其文化的历史学家,还是利用某时代与文化的知识来建构文本意义的文学研究者,数字化的数据都为这一探索关系中添加了另一个思考的层次。数据(以及我们运行数据的工具)增加了研究者与他们的研究对象之间关系的复杂性。
我认为人文学科的数据主要有两大类型:海量数据和智慧数据。这两类数据可以从两个维度来描述:第一个维度描述数据的结构化、整齐和明晰程度;第二个维度描述数据的体量和多样性。我认为海量数据大致可以被视为相对非结构化的、混乱的和模糊的,数量相对巨大,且形式相对多样。相反地,智慧数据可以被视为半结构或结构化的、整洁和明晰的,数量相对较小且异质性有限。尽管你可以认为这只是程度上的差异,然而一旦涉及这些数据如何被生成或捕捉、模型化、或是进入被丰富和被分析的阶段,你就会看到二者之间存在着更多本质上的区别。
智慧数据是结构或半结构化的;它是明晰且丰富化的,因为在原始数据之外,它还包含了标记、注释和元数据。而智慧数据之所以是“整洁的”,则由于收集和生成过程的瑕疵在被再现原物某一特定方面的限度之内被尽可能的减少了。这还意味着智慧数据通常是“小”体量的,因为创造智慧数据需要人力和时间。构建数据模型的过程对于小/智慧数据至关重要;它的抽象结构可以用精致的图式(elaborate schemas)来界定,或是由预设的数据库结构来界定。
……正如我们在学术性的数字版本、带注释的语料库以及精心集合的图像收藏中所看到的,智慧数据非常有用。但是智慧、整洁数据有一个问题:它的扩展性不佳。尽管生成智慧数据的很多方面,比如细致编码的TEI文件至少可以是半自动化的,智慧数据根本上还是依赖于人的手工作业。计算机现在还无法根据形式的、语义的和叙述的类别对描述加以分类。这也就意味着生成大量的智慧数据要耗费大量的时间。
当然,对此有一些应对的办法,机器学习无疑是应对上述挑战的重要途径之一。然而,如果我们事实上未必真的需要智慧数据,又会怎样?如果获取许多相对半结构化的、相对混乱,却同样好用且更容易生成的数据,会怎样?这样的数据被称为海量数据。
此外,人文学科中的海量数据与自然科学或经济学中的海量数据也不一样。在多数情况下,速度对于人文学科的海量数据并不重要。在人文学科中,数据之大也并不能依据从数据库到分布式计算的转变来完善地定义。多格式、复杂性或者结构的欠缺倒确实起了作用。事实上,人文学科中海量数据的鲜明标志是它似乎更多地是一种方法论的,而非技术性的转变。而且,这是一场重大的方法论转变。但矛盾的是,相较于已发生的从印刷到智慧数据的转变,从小量聪明数据到海量数据的转变实则更加激进。事实上,从智慧数据转向海量数据也就意味着从“细读”转向了“遥读”(Franco Moretti)或是“宏观分析”(Matthew Jockers)。(在这一范式之下进行的分析,参见 Franco Moretti, Graphs, Maps, Trees: Abstract Models for a Literary History. London: Verso, 2005; Franco Moretti, Distant Reading. London: Verso, 2013.有关量化文学研究这一领域的概括性介绍可参见Matthew L. Jockers, Macroanalysis: Digital Methods and Literary History. Urbana: Univ. of Illinois Press, 2013.)在这一范式下,我们会去分析相关文本数据的完整集合,而不是阅读一些经过精挑细选的文本。
在人文学科的宏观分析范式下,研究者得以同时分析数百甚至数千计的文本,这样做的第一个结果是我们在统计和概率的基础上对底层特征进行量化测度,取代了语义和情境的文学形式和惯例层面的固有操作。第二个结果是我们现在可以研究与某特定研究问题相关的一整套文本或图像,而不限于所谓“有代表性的”文本或绘画。给定时间和体裁之下的全部文学创作中,一些文学趋势变得易于观察。在这一语境下,代表性、经典化(canonization)和文学质量的问题发挥着较小的,或至少是与过去不同的作用。
(Graphs, Maps, Trees: Abstract Models for a Literary History)
我们需要借助可视化才能开始了解海量数据的可能性结构,而智慧数据的结构本身就是明晰的。在海量数据的应用中,离群值(outliers)、误差和模糊之处是无伤大雅的,因为足够优质的信息的数量就足以将它们抹平,而智慧数据则会突出例外和模糊之处,并且有效地降低模糊性。
显然,我相信未来对于人文学科中的数据而言,最有意思的挑战必将是如何在实际层面超越智慧数据和海量数据的对立。我们需要更智慧的海量数据或更海量的智慧数据;为了生成和使用这样的数据,我们需要运用新的方法。所以,我们要通过怎样的方法去丰富海量数据,以便让它支持更智性的探索?如何才能加速智慧数据的生成从而制作更大体量的智慧数据?
换言之,我们需要智慧的海量数据,原因是它不仅能充分再现研究对象相关特征从而满足人文学科学者对精确和细微度要求,还能提供足够的数据,让我们能够采用量化研究的方法,超越细读原则所带来的固有局限。一言以蔽之:只有智慧的海量数据才能真正地支撑智性的量化方法。
(全文链接:http://journalofdigitalhumanities.org/2-3/big-smart-clean-messy-data-in-the-humanities/)
END
主编 / 吴维忆
责编 / 徐力恒 付梅溪 顾佳蕙
美编 / 傅春妍
(图片来源:网络)
零壹Lab
记录数字媒介之日常
反思科技与人文精神
长按关注