用数学方法分析文化演变
文化组学:利用数学方法分析来自谷歌图书和维基百科的海量数据,从而分析人类文化的发展和演变。
来自哈佛大学的一个研究小组借助对基因组海量数据进行分析的数学方法,对来自谷歌图书项目的数据进行了分析,发现了单词或人名随时间变化的出现频率,并由此推导出人类文化的发展趋势和演变规律,他们的第一批成果发表在新出版的《科学》杂志上。
哈佛大学数学博士生艾略兹·利波曼·埃顿(Erez Lieberman Aiden)和同学简-拜普提斯特·迈克尔(Jean-Baptiste Michel)是这个项目的负责人。埃顿说:“如果单词被认为是一个文化单元,那么这种方法就是有意义的,基因组里包含了可继承的信息,世代相传。在我们的书中,我们使用的单词也代代相传。”
为了向数据密集型的基因组学表示敬意,迈克尔和埃顿将这个全新的领域称为“文化组学”,这是一个由文化(culture)和基因组学(genomics)合成的新词。如今,谷歌正在www.culturomics.org上推出一种新应用,允许任何人访问和分析完成的数据库,该数据库包含了20亿单词和短语。
“这不是一个疯狂的想法”
该项目始于3年前。
当时,埃顿正在用数学的方法研究基因组学。2007年3月,他来到谷歌公司位于加州山景城的总部,敲响了谷歌研究部主任彼特·诺维格(Peter Norvig)的办公室,目的是希望得到一些数据,并且能进入谷歌图书系统。谷歌图书是谷歌公司一项雄心勃勃但又有争议的项目:扫描人类出版的每一本书的每一页。
埃顿认为,通过分析过去几个世纪文字或单词在出版物中的增长、变化和衰落,研究人员有可能在大范围内研究文化的演变。诺维格说:“我不认为这是一个疯狂的想法,我们(的谷歌图书项目)正在扫描书籍,因此,我们应该有数据。”
但是,谷歌图书的法律问题使得这个项目几乎不能启动;因为许多书受到版权保护,还有出版人和作者向法院起诉谷歌图书项目。诺维格承认,他担心分享数字图书的合法性,因为如果没有对作者进行补偿,这些图书是不能传播的。但埃顿提出一个想法:将这些扫描图书的文本转化为单个巨大的语言模型N-Gram数据库,这将是一篇贯穿于整个人类历史时期的文本,其中包含频繁出现的词语,学者因此能够在不实际读书的情况下量化研究这些书。这些理由足以说服诺维格。
埃顿和迈克尔组成团队。他们将进化生物学中的数学工具用于书面语言的研究,比如,2007年,他们对英语动词演变的研究登上了《自然》杂志的封面,但是,他们从未挑战过谷歌图书所容纳的海量数据。目前,谷歌图书拥有来自1500万册图书的20万亿词汇,这些图书量相当于自1450年古登堡《圣经》出版以来人类所出版图书量的12%。
古登堡《圣经》是西欧第一本印刷书籍,从传播学的角度看,工业生产方式的诞生或许应该从古登堡《圣经》的印刷算起。古登堡金属活版印刷术的发明,大大提升了书籍印刷的速度,降低了印刷成本,加速了知识和信息的传播。
通过对比分析,埃顿和迈克尔发现,人类基因组的信息量只相当于一首有30亿个字母的诗篇。
他们还量化分析了历史长河中个人对文化的影响。比如,对“西格蒙德·弗洛伊德”(奥地利精神分析学家)和“查尔斯·达尔文”(英国生物学家)出现频率的分析,揭示出文化智力持续演变的趋势:在2005年,弗洛伊德已经失去阵地,达尔文最终超越了他。
对“N-Gram ”数据库的分析还揭示出被历史学家们忽视的模式。埃顿的妻子、哈佛医学院学生帕瑞斯·埃顿领导的一个小组,分析了出现在20世纪上半叶德国书籍中的人名。结果发现,在纳粹时代,大量的艺术家和学者被审查,看他们是“犹太人”还是“退化的人”,比如画家巴勃罗·毕加索。而且,利用N-Gram对这些名人的追踪还显示,纳粹时代,当他们的名字在德国书籍中销声匿迹时,却仍然常常出现在英文书籍中。
当鉴别出这种政治压制的信号时,他们分析了同一时间段里德语书籍中被提及的所有人的“成名轨迹”,并将他们按“压制指数”排名,然后将包含这些人名的样本送给以色列的一位历史学家验证。结果发现,在由压制指数所鉴别的人中,超过80%的人确实被审查过,因为他们的名字被列入黑名单,从而证明这种数学方法是有效的。而且,更激动人心的是,他们还提出了不为历史学家所知的压制时代的牺牲者名单。
一个全新的起点
埃顿和合作者对谷歌图书数据进行分析的第一个结果发表在最近出版的《科学》杂志上。他们发现大约有50万个字被所有的字典错过,他们还追踪了意识形态和著名人物的起起落落,最具挑战性的是:他们鉴别出为历史学家所不知的政治压制案例。哥伦比亚大学的文学专家尼古拉斯·达姆斯说:“这是一个伟大的野心。”
2010年5月8日,美国历史学协会年会在波士顿召开,人文学者们聚集在一起,讨论的一个焦点是埃顿和迈克尔的新发现:从1933年到1945年,德国纳粹实施检查制度,大规模焚毁公开出版的书籍,压制信仰或言论自由,被焚毁的许多书或是由犹太人知识分子所著,或是包含“非德国”的理念。当纳粹掌权时,相当一批有影响力的学者和艺术家从公共视线中消失了,而为纳粹宣传机构所中意的人突然间名声鹊起。
计算机科学家乔恩·奥沃顿(Jon Orwant)是谷歌数字人文项目部主任,他说,新研究给人类敲响了一个警钟,表明还有一种新研究可以成为传统研究的补充。普林斯顿大学的历史学家安东尼·格拉夫顿则认为,对历史学研究来说,这是一个全新的起点,而不只是一种替代方法。
人文学者对新研究的反应喜忧参半,加州大学伯克利分校的语言学家杰弗里·纽伦堡(Geoffrey Nunberg)认为,如果新方法的应用能够拓展到词汇使用频率的分析之外,那么它的用途将极为广泛,但他认为将这种方法称为“文化组学”是相当自大傲慢的,因为新方法中的绝大多数分析几乎都是相当粗糙的。
迈克尔表示:“即使拥有这些数据,你也需要仔细解读你的结果。”比如,其中一个大挑战就是如何从5万亿个单词中准确地找出一个人的名字。
《科学》的文章指出,新分析方法的另一潜在价值资源是维基百科,维基百科是一个网上百科全书,包含有自1800年后出生的大约75万人的生平资料,但它的一个弱点是信息的可靠性。如果要将维基百科作为一种研究或教学的工具,那么还需要更多努力来提高它的内容范围和质量。
END
往期精彩回顾
数学与工业革命
泰勒级数的物理意义
如何用数学优雅的拯救数学?
让我知道你在看