Google扫描1500万册书后，分析出...

2014-06-16 大数据文摘

点击标题下「大数据文摘」可快捷关注

继超级火爆的“情色”系列后（回复情色可得），大数据文摘又推出高大上的院士系列专题，回复院士即可。

原标题《计算历史学：大数据时代的读书》

作者尼克，摘自东方早报

“计算历史学”（Computational Historiography或者干脆Computational History）是一个我杜撰的词儿，一方面是迎合目前啥事前面都加“计算”的时尚，比如最唯物的有“计算广告学”（Computational Advertising），最唯心的有“计算形而上学”（Computational Metaphysics），中间隔着计算数学、计算物理学、计算化学、计算生物学、计算语言学等等。这年头，跳大神儿的要是不会个计算，都不好意思上春晚或江苏卫视。另一方面也是给中国做历史的提个醒：大部分的中国哲学家翻译水平已经被谷歌或百度翻译器赶超了，历史学家要是再不上进，也快没饭了。历史学最近屡被自然科学进犯，这不，前脚遗传学刚走，大数据和计算又来了。随便一个科学家都能到这儿玩个票。倒不是吓唬谁，这回介绍个神器： Google Books Ngrams。不信不服。

谷歌的两位创始人在斯坦福读书时都在数字图书馆项目里干过活。早在2002年，谷歌还没出大名时，就启动了Google Print项目，要把全世界的数字图书馆项目统一起来。拉里·佩奇访问了他的本科母校密歇根大学，那里的图书馆学院是美国排名最靠前的之一，当时正有数字图书馆项目，就是用数字扫描仪把图书馆的所有书扫描然后做字符识别。佩奇参观了这个项目，结论是密歇根需要一千年才能把本校图书馆的书扫完。佩奇向校长建议：我六年就能扫完全世界的。这还真不算什么，扫描和字符识别都是成熟的技术，更重要的是谷歌有人，有钱，有效率。佩奇随后又访问了牛津最古老的Bodley图书馆，受到震撼，由此也和更多的大学图书馆结成伙伴关系：谷歌和这些图书馆合作数字化他们的所有书，从英文开始。

但三年后，谷歌迎来了两场官司，一场是作者组织的集体诉讼，另一场则来自出版商。焦点自然是版权。2008年谷歌和出版商达成协议，同意为出版商和作者提供补偿。谷歌随后将Google Print项目改名为Google Books，在Google Books中，版权已过期的书全部公开，版权没过期但得到授权的可通过“预览”功能（Preview）部分地公开。但美国作协（Authors Guild，不知是不是中国作协的姐妹单位）对谷歌和出版商的协议不满，认为出版商不能代表作家的利益，于是又对谷歌提起诉讼。2011年，一位联邦法官拒绝了谷歌和出版商的协议，于是“作协对谷歌”的案子正式进入诉讼程序，直到2013年11月，联邦法官陈卓光（Denny Chin）做出对谷歌有利的判决，他的根据是“公平使用”（fair use）原则。哈佛图书馆馆长罗伯特·达恩顿（Robert Darnton）2010年写了本书讲了这个案子的早期发展，书名很有意思，叫The Case for Books，但中文版译名为《阅读的未来》，没有了原名的多重隐意。达恩顿作为历史学家，只看到谷歌扫描书这一回事，却并没有意识到Google Books不止扫描，更多是企图用机器理解被扫描的书的内容。

到2010年，谷歌已经扫了一千五百万册书，这时谷歌决定将已经扫过的书的某些统计结果公开，这就是Google Books Ngrams。Ngrams是在文本中统计词频的算法。也就是说，书的内容不一定公开，但关于书的词频统计结果可以公开，并且Google为Ngrams做了一个“显示器”（Viewer），它可以画出输入的任何词或词组的词频统计结果。到2013年4月，已经有超过三千万册书纳入Google Books。一开始这些结果只被计算机科学家和计算语言学家所知，但现在越来越多的人文学者也开始玩起Ngrams了，估计用不了多久，这东西会成为字典一样的必备工具。

下面通过几个例子介绍Ngrams的用法。

例一、“黑鬼-黑人-非裔美国人”

上世纪六十年代美国黑人民权运动爆发之前，“黑人”普遍被歧视地称为“黑鬼”（nigger），随后则被称为“黑人”。而近年来，“非裔美国人”变成更为政治正确的叫法。在Ngrams里输入，nigger，black people和African-American，可以清晰地看到这一趋势。横坐标是时间，纵坐标是词频。（见图一）

例二、“科学、哲学与宗教”

按照罗素在《西方哲学史》里的打油说法，科学是确定性的知识，神学是不诉诸理性的教条，而哲学则介于两者之间。比罗素晚一辈的美国哲学家蒯因可能不同意，他认为哲学压根就应该是科学化的（Scientific Philosophy)，但蒯因的学生辈大概是最后一拨科学化的哲学家：新起的一大票逻辑学家都出自数学系和计算机系，哲学系已剩不下什么“科学”的玩意儿了。如果哲学家们还不争气，再过个十年，也许Ngrams真会验证这个预测。在Ngrams中，分别输入首字母大写的“Science, Philosophy, Religion”，和小写的“science, philosophy, religion”，我们得到如下两张图。在大写的图中（图二），可以清楚看到在公元1600到1800年间，宗教是压倒性强势，然后是哲学，相比之下，科学还是没影的事。但1850年是转折点，科学慢慢占据优势，比宗教和哲学加起来都大。在小写的图中（图三），科学和宗教的位置互换，晚了一百年。研究文化史和科学史的恐怕各自都有解读。

科学史家劳拉·施耐德（Laura Snyder）写过一本很有意思的微观科学史著作《哲学早餐俱乐部》（The Philosophical Breakfast Club: Four Remarkable Friends Who Transformed Science and Changed the World）。讲的是十九世纪初，四位剑桥的学生：查尔斯·巴贝奇（Charles Babbage，数学家兼工程师，某种意义上，他发明了最早的计算机）, 约翰·赫歇尔（John Herschel, 天文学家兼数学家），胡威立（William Whewell，科学家、哲学家、神学家）和理查德·琼斯（Richard Jones，经济学家），他们每个周日早上一起聚餐，讨论科学问题。他们后来对科学事业和科研社团（如皇家学会）在英国的发展做出了巨大贡献。那时，他们不满意被别人称为“自然哲学家”，其中胡威立最早提出了“科学家”这个词。这段有趣的故事提供了科学从哲学中分离的微观历史。如果在Ngrams里输入“natural philosopher，scientist”，可以和劳拉的故事互为佐证。把微观的课题放在宏观的历史语境（context）中，我们会学到更多。

例三、文坛座次

中国文坛讲究排座次，鲁郭茅巴老曹，等等。前几年也不知哪个瞎起哄非要把金庸也拉入伙。二话不说，先把老哥几个的名字一顺给Ngrams，看看咋说。注意：鲁、郭的名字七十年代前的拼法分别为Lu Hsun和Kuo Mo-jo。两秒钟出结果：瞧人家画的这图，跟炒股曲线似的（见图四）。可以看出鲁爷江湖地位不可动摇，八十年代末九十年代初有点技术性下滑，随后又呈上升态势。但貌似三四十年代，鲁略输郭。不明白为啥曹禺就不带玩了呢，即使输入老拼法Tsao Yu也不济。金庸按说是这老几位里英文最好的吧，但就是不受待见，把他小名路易·查良镛（Louis Cha Leung-yung）算上，也不管用。这张小图够北大复旦那啥系的博导们喝一壶吧。顺便再给中国作家们支个招：以后要想名垂千古，就给你们家子孙后代都取同一个名，英文名也一样，无论性别，只要女眷能分清自己爷们就行。这招特适合代笔抄袭的。

例四、美国历史

过去是数学家研究自己的历史，所以有“数学的历史”，现在是数学家研究别人的历史，所以有“历史的数学”（Mathematics of History），这个词儿还真不是我瞎编的，哈佛的两位应用数学家艾略兹·利伯曼·埃顿（Erez Lieberman Aiden）和让-巴蒂斯特·米歇尔（Jean-Baptiste Michel）最近的主营业务就是研究历史，他们的任职单位是哈佛的IQSS（“定量社会科学研究所”），同时也在谷歌兼职，对谷歌的Ngrams项目有所贡献。哥俩最近写了本书《用大数据透视人类文化》（Uncharted: Big Data as a Lens on Human Culture），用通俗笔法介绍了他们的工作。书中提到了一个更有意思的例子。大家知道美国刚立国那会儿，各州之间是松散耦合，所以国名叫合众国（United States），乌合之众的意思。但内战之后，联邦的凝聚力增强，中央政府的权力也越来越大。埃顿和米歇尔用Ngrams查了两个词组：“United States are”和“United States is”。可以清楚看到，美国内战之前，民众的心态确实乌合，“合众国”原本是复数，所以大家自己的认同就是“are”，但现在的认同自然是铁板一块的“is”了。他们半开玩笑地说：美国内战其实是单数和复数之战，最后单数赢了。（见图五）

还是中国老人有智慧，啥事想不明白，就说：这事留给我们子孙后代解决。过去以为这是托辞，现在有了“计算”，觉得还真是那么回事。过去整不明白的事现在能“算”出来。1996年，IBM“深蓝”计算机逼得最牛的人类棋手卡斯帕罗夫认输，就是靠的计算：“深蓝”比卡斯帕罗夫能多看半步棋。现在人所谓“下一盘很大的棋”就是比其他人多看好几步。过去中国人追求“行万里路，读万卷书”，其实就是抱着三字经满脑子范冰冰，坐高铁去趟铁岭。但瞧人家谷歌——论行路：无人驾驶车已经在加州办好驾照了，而论读书：Google Books把全世界的书都读遍了，而且有问必答。这要是用下围棋做比喻，人家得让钱锺书或者艾兹拉-庞德们多少子啊。

以赛亚·伯林当年写过篇文章“论科学化的历史学”（The Concept of Scientific History），主旨是探讨历史学是否也能像科学那样有个客观标准，凭那时的手段和见识，这问题自然无解。也怪伯老师在牛津待的时间忒长，没和同时代剑桥的图灵过过招。但是伯林引用了英国前辈历史学家亨利·托马斯·巴克尔（Henry Thomas Buckle）的话说：历史学之所以没变成科学，主要是因为历史学家的智力不如自然科学家。他设想如果伽利略、牛顿、拉普拉斯有时间顺手玩点历史的话，历史学，说不定早就变成科学的一分子了。话虽损了点，但是出自历史学家自己之口，至少诚恳，而且还不能随便给他扣“智商歧视”的帽子，就像黑人或犹太人开自己同胞的玩笑，外人管不着。依我看，“科学化的历史学”搁现在就是“计算历史学”。

司马迁被腐刑之后，中国就没人干实地考据了。即使人家都做好了，也懒得看。现而今，坐绿皮火车去趟莫斯科图书馆回来就算中国史学界大事儿。其实要是真不想去做实际工作，莫斯科都太远，去东莞整一山寨手机，躺床上就能指导博士生。不信？我先出个题：“女权运动五百年全球发展史”。然后在Google Ngrams里偷偷敲“penis-逗号-clitoris”，并把起始时间设在公元1500年。瞧好吧，您呐。所谓“秀才不出门，便知天下事”。对了，这句话百度译为：Without going outdoors, scholar knows all the world's affairs。也可以意味深长地简化为：Lying in the beds, the world can be in your heads。

大数据文摘精彩文章：

回复院士看众多院士如何讲大数据

回复色情这个,你懂的,可是你真的懂吗？
回复翻译查看如何加入大数据文摘翻译组
回复隐私看看在大数据时代还有多少隐私
回复医疗 GOOGLE的医疗野心等6篇
回复征信大数据征信专题四篇
回复大国 "大数据国家档案"之美国等12国
回复体育大数据在网球、NBA等应用案例
回复平安中国平安相关大数据案例、新闻
回复131130 院士讲大数据时代的位置服务
回复131031 纽约开放数据平台
回复130930 阿里要用新浪微博做什么？
回复130915 大数据时代的教育革命
回复130831 北京一夜全城超40万摄像头...

反向激励，在加速这个社会的黑化

🪁来汕头，实现“露营自由”

微信潜规则：你发的朋友圈，其实别人看不见。

方志远：不能指望借助古人的智慧、指望倡导古人的精神来解决现实的问题

阿哲发圈点赞大太子！杰哥爆电母X视频，曝瓜三平台年度电母！