威尼斯时光机项目——机器学习如何重塑水城千年历史?*内有视频*
原文以The ‘time machine’ reconstructing ancient Venice’s social networks为标题
发布在2017年6月14日的《自然》新闻特写上
原文作者:Alison Abbott
机器学习项目将分析水上之城黄金年代跨越1000年的地图和手稿。
成群结队的游客浩浩荡荡地穿过威尼斯拥挤的广场,但几米开外,圣方济会荣耀圣母教堂里的静默是如此锋利,仿佛要刺痛人们的双耳。虽然国家档案保管员早已接管了这座十四世纪的教堂,但是他们就像曾经居住于此的方济会兄弟一样勤勤恳恳,认真照管着摆满80公里长的书架上的历史文献。现在,一组带着高科技设备的科学家正在这些神圣的书架间“大动干戈”。
威尼斯时光机将历史学家从现如今的圣马可广场(右)带回十八世纪威尼斯的繁华烟云(左)。圣马可广场上的斗牛。
Canaletto and Cimaroli/DeAgostini/Getty; zetter/Istock/Getty
这座教堂承载着厚重的历史,令计算机科学家Frédéric Kaplan为之着迷。他的一项宏伟计划是将1000多年的历史资料转录为动态数字形式,涵盖最尊贵的威尼斯共和国的光辉岁月。他将该项目命名为“威尼斯时光机”,项目将扫描地图、专著、手稿和活页乐谱等文件。它不仅能让学者重见尘封的历史,也让研究人员可以搜索文献信息,实现相互参照。这一切都得益于机器学习技术。
如果这个项目能成功,它将为一项更加雄心勃勃的项目开路——通过“时光机”再现欧洲文化与商业历史中心,以前所未有的细节展示社交网络、贸易和知识在过去的几个世纪里是如何在这片大陆上发展演化的。瑞士洛桑联邦理工学院(EPFL)的数字人文科学实验室主管Kaplan说,它就像是过去人们的Google和Facebook。
虽然在过去的十年里,涌现出了许多扫描手稿、为其添加注释和索引的数字人文科学项目,但是这个项目却能脱颖而出,因为它规模宏大,技术新颖:既有可以扫描未打开书本的顶级扫描仪,也有能够将手写文件转变为数字化、可搜索文本的适应算法。
https://v.qq.com/txp/iframe/player.html?vid=s0539k8x6l8&width=500&height=375&auto=0
Nature Video
它不仅给历史学家带来学术福利,其他学者也能从中获益。比如,经济学家和流行病学家迫不及待地想要阅读成千上万名普通民众留下的书面记录,它们或能向我们揭示金融市场是如何发展的,瘟疫等疾病是如何传播的。德国马克斯·普朗克科学史研究所所长Lorraine Daston说:“种种可能令我们激动不已,我都快要流口水了。”
最尊贵的共和国
威尼斯是此次实验的完美对象,因为它拥有大量极具历史价值、保存有序的文件。公元5世纪,罗马帝国的公民为逃离北部蛮荒之人的侵略,南下建立了威尼斯。不适合居住的潟湖为人们提供了急需的保护,位于亚得里亚海北端的地理位置也提供了战略优势。它很快成为了西欧与东方的重要贸易枢纽,积累了大量财富和力量。
威尼斯帝国在逐渐壮大的同时,也建立起多套行政系统,记录了大量信息:谁在哪里居住,每一艘进出港湾的船只的信息,还有每一次对建筑或运河的改造。现代银行业起始于里亚尔托(威尼斯最古老的地区之一),那里的公证人记录了所有的贸易交流和金融交易。
重要的是,这些记录历经动荡的几个世纪却仍旧保留了下来。当欧洲其他地方因王室持久交战而民不聊生时,威尼斯从十八世纪起,开始形成一个稳定的共和国,为贸易的繁荣发展提供了必要安定环境。在许多方面,它是民主的典范。人们选举领袖——总督,各种委员会辅佐总督工作,委员会成员通常也是选举产生的。政府是世俗的,但是在很大程度上与宗教和平共存。
1797年,法国国王拿破仑·波拿巴结束了最尊贵的共和国的统治。在征服奥匈帝国挺进维也纳的路上,他宣布威尼斯的世俗和民主治理是一种独裁政治形式,威尼斯这座城市是革命的敌人。他迫使共和国自我解散。1815年,古老的圣方济会荣耀圣母教堂被改为威尼斯国家档案馆。
在接下来的几十年,所有的国家行政文件都被转移至此,包括死亡登记簿、医疗记录、公证记录、地图和建筑平面图、专利登记簿及其他各色各样的文档,有些甚至来自意大利其他地方。其中意义重大的是来自欧洲和奥斯曼帝国的大使报告,这些独一无二的资料为后人提供了当时日常生活的详细信息。Daston说:“威尼斯的大使是观察力极强的旅行者,他们所接受的训练让他们可以掌握码头上卸下的货物是什么,以及某位王子或其他位高权重之人的性格如何。他们的报告充满了传闻和阴谋诡事。”
大多数档案都由拉丁文或威尼斯方言写成,现代历史学家从未读过它们。现在,它们将被系统性地收入威尼斯时光机,同样被收入的还有一些非常规的数据来源,比如绘画和旅行日志。
一项事业的诞生
Kaplan致力于将人工智能应用于人文科学,尤其是语言学。比如,他使用AI搜索几个世纪的新闻报道,寻找词汇和词组的使用规律,并借此建立了语言演化模型。但是他一直都渴望在某个拥有数百年档案的欧洲城市,应用这些技术来建造一台时光机。一开始,他将目光投向巴黎、阿姆斯特丹和瑞士的日内瓦。但是当EPFL和威尼斯大学的校长决定联合研究并征集创意时,他立刻提出为威尼斯打造时光机的想法。
他清楚地记得他在2012年第一次走进档案馆的场景。时间在这个拥有300多间房间的建筑中凝固了,里面既没有空调也没有暖气。冬天,寒冷刺骨,夏天则闷热难耐。易碎的文件从地上一直堆到天花板,时不时地,泛黄的纸张碎片从边缘飘落。“我被眼前的场景震惊了,”他说,“见到上千年的档案,却无法阅读它们——我当时就下定决心要做这个项目。”
当这个项目在2012年正式启动时,Kaplan知道他的计算机技能并不足以独挑大梁。还需要历史学家来解释手稿,为数据处理提供必要的背景知识。比如,他们可能有必要解释一份合同里每个人的角色,澄清接受者到底是谁,或者需要评估某个信息来源的可靠性。还需要档案保管员的帮助,他们拥有处理大批量文件的深厚知识。
威尼斯时光机能将公民、企业与威尼斯的历史地图连接起来,比如这幅十六世纪的威尼斯景象。
EPFL/Archivio di Stato
所以,当他邀请在威尼斯受训的历史学家Isabella di Lenardo(如今在EPFL任职)担任他的副总监时,她毫不迟疑地答应了:“这是我此生的梦想。”威尼斯国家档案保管员习惯于传统的保护办法,一开始并没有接受这个想法,但是不到一年,他们就决定全力合作。
这种跨学科的合作立刻收获了一般不为外界所知的晦涩档案信息。比如,虽然大使们的报告是极为丰富的细节来源,但是为防信息外泄,它们通常用密码写成,这令历史学家感到沮丧。不过,成员之间的一次聊天让他们偶然发现了一本16世纪的小书,名叫《Libro de le cifre》(“数字之书”),为一部分威尼斯大使报告提供了破译码。现在,历史学家摩拳擦掌,准备破解秘密。
扫描历史
甚至在威尼斯时光机到来之前,国家档案馆就开始了一项由意大利文化遗产部支持的数字化项目。2006年,一个大型特制的扫描仪开始对档案馆中超过3000幅的意大利城镇地图进行数字化,其中许多是由拿破仑下令绘制的,它们可谓是镇馆之宝。这些“地籍”图描绘了地产的边界,记录了小片耕地的所有权;其中一些文档甚至有4×7米大小。
威尼斯时光机加大马力运行,还投入使用其他顶级的、转为项目准备的高速扫描仪。其中一台有一条机械臂,能够翻开书页。还有一台是壮观的旋转式扫描仪,它有一个两米宽的转台,技术人员能够站在对面同时向其添加多本A3大小的文档。这些扫描仪组成一道流水线,每小时生成几千张高清图片,这些以兆兆字节计的信息被传送到威尼斯的服务器进行长期存储,同时也被传送到洛桑,那里的高性能计算机将图片转为可以加注释的数字文本。
自动读取古老的手写稿是一个巨大的挑战。标准的字符识别软件能一个字母一个字母(无论字体是什么)地读取印刷本,使它们变成可搜索的文本。但是这并不适用于手写稿,因为抄写员书写的单个字母形状差异巨大,并且随着时间推移而变化。一项名为“档案识别与充实”(READ)的欧盟合作项目试图找到不同的解决问题的方法。Kaplan是其中的一员,他目前也在威尼斯时光机中运用他喜欢的方法——机器学习来识别整个词的形状。
机器学习依赖于能在搜集数据样本的过程中修改自身规则和行为的算法,每一次的新体验会提升算法的能力。时光机的算法能够分析书面文字的结构,并找出看起来相似的图形,在两者之间建立关联(参见“解秘历史”)。所以,用户可以从某个文档中挑选一个名字,然后要求系统找出同样的名字在数据库所有其他手稿中出现的位置。
在接下来的十年,这些扫描仪就会和即使不用打开书就能读取其中内容的工具共同工作。这个概念基于医学中的CT扫描技术——从不同角度拍摄X光照片,然后一层一层叠加,构建身体内部的3D图象,目前EPFL正在对该概念进行完善。EPFL科学家正在分析古代墨水的成分,希望能找出能够用来当作X光造影剂的分子。Kaplan说:“或许还要不止5年才能在实践中应用断层扫描仪。”但是它将给我们带来巨大的好处:扫描速度更快、无损扫描、读取威尼斯档案馆中上千封密封的遗嘱(这些遗嘱一打开便会被损坏)。
社交网络
虽然这些技术仍旧处于研发和完善的过程中,但是威尼斯时光机已经向人们展示了它能够如何帮助重塑学者对过去的理解。历史教科书的叙事大多围绕著名人物展开,因为大家对他们了解较多。但是时光机将展现大量世俗记录,各地的国家行政人员按时搜集这些数据来掌握人口动态。这将使历史学家能够重构几十万普通民众的生活——工匠和鞋匠,使节和贸易商——打造更加丰满的历史叙事。
威尼斯国家档案馆藏有1000多年来的历史文件,填满了80千米长的书架。
EPFL/Archivio di Stato
拿破仑实施的高效行政管理体系对此次项目意义非凡。他在1808年下令绘制的一张威尼斯地籍图提供了经得起推敲的可靠数据,历史学家因此能为1740年人口普查所得的城中公民自有房产及租赁房产补充地理位置信息。结合这张地图和从画作(比如加纳莱托的作品)中获得的建筑的3D信息,时光机团队制作了一段穿越威尼斯的动画导览视频,展示当时每一个建筑中活跃的企业。“拿破仑或许终结了威尼斯共和国,但是对我们来说,他是复原此段历史的起点,”Kaplan说。
Kaplan和di Lenardo还制作了一系列其他的威尼斯动画,它们跨越不同的空间和时间。随着更多的数据被传入时光机,这些动画也会被更新和充实。其中一段视频讲述了里亚尔托从公元950年以来的发展,视频借鉴了不同时间点不同的信息来源。这项模拟展示了建筑物,包括标志性的里亚尔托桥,如何从盐沼中拔地而起,也展示了这一地区遭受的数次火灾及灾后重建。
另一些模拟将里亚尔托的建筑标记上家族企业的名字,或描绘在威尼斯人与其他欧洲人之间建立起来的社交网络。威尼斯时光机假设出现在同一份文件中的人名之间有某种联系,因此,每一个人都是关系网中的一个节点。当同样的人在其他文件中出现时,这张网便慢慢扩大——就像科学家从Facebook和Twitter数据中建立社交网络一样。该网络会让历史学家发现威尼斯及其他地区此前不为人知的大批普通人的生活细节,以及他们的社会地位。
单位、银行业和瘟疫
Daston认为时光机能帮助解答几乎无止尽的历史问题。比如,它能够揭示语言是如何发展以描述从新发现的国家带到威尼斯港口的陌生动物物种,也能够追踪学者和科学家在欧洲游历时的足迹。
她最喜欢的是对度量单位的认识。她说:“在十七世纪,所有人都为测量世界而疯狂,但是在十五和十六世纪,度量单位却几乎无人问及。对过去几个世纪的档案做关键词检索能帮助我们理解度量衡是如何确定下来的。”
这样的热情从历史蔓延到其他学科。伦敦政治经济学院的经济历史学家Joan Rosés说,威尼斯在经济史中占据着重要位置,获取可检索的城市公证记录数据“能够帮助改变我们对金融市场运行机制的理解”。他表示许多经济理论均未建立在实打实的数据上,由于缺乏有关交易和资金流动等方面的有效数据,经济学家难以找到较为可靠的证据基础。包括来自银行的现代记录并没有太大价值:这些数据已经根据机构所认可的经济理论被处理过了。历史数据更公正,因为它们记录了原始、本能的行为——纯粹是谁卖出了什么,收了多少钱。
但是欧洲的大型金融档案馆,比如西班牙巴塞罗那的加泰罗尼亚公证档案馆,都无法在线使用。Rosés说:“当我去巴塞罗那档案馆做研究时,我一天可能只能读三份文件,因此威尼斯时光机将改变这一局面。”从经商失败的人身上我们也能学到很多。“如果你只研究成功的著名人士——唯一被我们深入了解的人,你得出许多愚蠢的推断,”他说。
EPFL的流行病学家Marcel Salathé已经开始与威尼斯时光机合作了,他查看相关记录,了解到了死者姓名和死亡地点,很多时候还有他们离世的环境细节。“就像是原始的电子健康记录,”他说。在十七世纪中期,瘟疫杀死了威尼斯三分之一的人口,Salathé希望找到更多有关该疾病如何传播的信息。瘟疫在世界范围内仍有爆发,但是关于瘟疫如何传播的数据仍存在大量空缺。单纯的动物研究无法填补这些空缺,而现代人类数据集因规模太小而无济于事,他说。
Kaplan希望威尼斯是他们填补研究空白的起点。威尼斯时光机与欧洲各地的合作伙伴申请成为下一个由欧盟赞助的十亿欧元旗舰项目。如果它成功了,它将在其他有同样重要档案馆的城市中建造时光机,并将它们连接起来。今年早些时候,一个荷兰学术联盟启动了阿姆斯特丹时光机项目,不过它的经费还未落实。项目协调者是阿姆斯特丹大学研究创意产业历史的Julia Noordegraaf,她说它是“一个研究十七世纪黄金时代阿姆斯特丹与威尼斯之间的文化交流的大好机会”。巴黎时光机也在商讨中。
在某些研究人员看来,时光机项目不着边际的目标值得商榷,尤其是因为它的许多核心技术仍处于研发中。“运用数字化方式呈现过去的不同历史时间段是一个绝对正确的愿景,这一点毋庸置疑——但是选择大量不同的、更小的项目来实施或许更明智,”马克斯·普朗克科学史研究所的一位数字人文科学先驱和所长Jürgen Renn说。
尽管如此,Daston认为时光机预示着历史研究的新时代。她说:“我们历史学家从前受到了档案尘埃的‘洗礼’,但未来或许会变得不一样。”ⓝ
点击“阅读原文”阅读英文原文
The ‘time machine’ reconstructing ancient Venice’s social networks
版权声明:
本文由施普林格·自然上海办公室负责翻译。中文内容仅供参考,一切内容以英文原版为准。欢迎转发至朋友圈,如需转载,请邮件Chinapress@nature.com。未经授权的翻译是侵权行为,版权方将保留追究法律责任的权利。
© 2017 Macmillan Publishers Limited, part of Springer Nature. All Rights Reserved