查看原文
其他

安克强 | 关于《二十世纪上海报刊娱乐广告数据库(1907-1966)》

安克强 上师大数字人文 2023-04-27

关于《二十世纪上海报刊娱乐广告数据库(1907-1966)》


安克强 著

(法国艾克斯—马赛大学历史系)

张乐辰 译 蒋杰 校

(上海师范大学人文学院;数字人文研究中心)



“二十世纪上海报刊娱乐广告数据库”已经创建很多年了,这一切都源于华东师范大学姜进教授令人惊叹的一本参考书(见下文)。现在,完全可以通过一个可检索的数据库获得这一独特资源。而访问这个数据库(https://fms.db.huma-num.fr/fmi/webd),只需在首页点击“以访客身份登录”即可。


《申报》的广告版面


1

数据库的起源


“二十世纪上海报刊娱乐广告数据库”是四卷本《二十世纪上海报刊娱乐版广告资料长编:1907-1966》的网络版。该书由姜进主编,于2015年由上海文化出版社出版。


商业娱乐(歌剧、电影、跳舞等)构成了都市生活的一个主要侧面。清末民初,上海在现代娱乐形式的兴起与向全国的传播的过程中扮演了重要的角色。这座城市不仅成了中国电影、话剧和交响乐的发源地,同时也是一系列地方戏曲和音乐形式的摇篮。通过不断丰富的娱乐类型,娱乐机构成倍增加,休闲方式也变得丰富多彩。


“二十世纪上海报刊娱乐广告数据库”通过报纸上的广告记录了六十年来上海娱乐业的演变。该数据库建立在一个独特的数据库构成之上,可以追溯成千上万的演出,这些演出日夜上演,遍及全市及其娱乐设施。这种方式支持着一个观点——要向大数据的文化历史新形式迈进。


该数据库是研究1907年到1966年之间上海的休闲、娱乐以及流行文化的独特且无价的资源。这些资料来源于四家主要报纸:《申报》(1907-1949),《新闻报》(1907-1949),《新闻日报》(1949-1959)以及《解放日报》(1960-1966)。姜进指导了资料的收集、汇编以及综合处理工作,最终这些资料组成了四卷印刷本。


该数据库目前全部以中文呈现。有一项计划是为其中的演出地点、演员以及表演项目的名称添加拼音,而这一计划在短期内不会实施。


2

挑战与偏差


最初的挑战是如何处理上海报纸中庞大的娱乐广告体量。当时采用抽样的方式来收集信息,在每家报纸中抽取每个月的第一天、新年(中西)、端午节、中秋节、国庆节(仅限《申报》)以及其他纪念日的内容。然而,即使采用了这种方法,信息量依旧相当庞大,要把广告上的所有信息都记录下来是不可能的。于是调整方法为重点选择主要信息:位置、节目、票价、日期、机构、类型(基于来源中的原始显示)、演员、广告标签以及广告版面。


收集资料过程中的主要困难之一在于无法获得原始版本的报纸。《新闻报》是用“缩微胶卷”来处理的,而《申报》的资料来源是20世纪80年代以较小版面出版的重印集。报纸资源中反复出现文本模糊、缺页的问题(《解放日报》、《新闻日报》)。有时,广告文本本身是不清楚的,至少对于现在的历史学家读者来说是这样的,文本中也确实有错别字的存在。最后一个主要的问题是对娱乐机构的简称的使用,当两家不同的机构使用同一简称时,就会产生歧义(比如“新华电影院”的简称是“新华”)。


而偏差在于,在数据库中,广告的视觉维度完全丢失,尤其是报纸上广告的大小以及位置的差异。这就是拥有一个可完全搜索的数据库所要付出的代价。没有人试着收集原始图像,因为在当时所用资料来源的支持下,这是完全不可能的。另一个可能存在的偏差在于,该数据库仅仅包括表演场所刊登了广告的娱乐活动。虽然,很明显,表演场所通过刊登广告来吸引观众的概率是更高的,但是该数据库还是可能漏掉了一些确实举办了的,但没有刊登广告或是在所选样本以外的日期刊登广告的娱乐活动。


广告具有时效性,在报纸上刊登的广告数量取决于几个因素:机构的数量,娱乐活动的发展,市场营销决策等。下表提供了1907年至1966年间,每十年刊登的广告数量的分布情况。


每十年娱乐广告的总数


3

从印刷物到数据库


最初设计时,这个项目被构想为一个图书项目,而非数据库项目。信息是在微软Word文件中以表格的形式收集的。然而,这些表格不能自动转换或导出为表格数据。2014年,在编辑出版图书的最后阶段,姜进和安克强开始了有关建立数据库的对话。安克强建议将数据库创建为Filemaker数据库,为此他邀请了对Filemaker资源有很深了解的编程历史学家(现代西班牙)Jean-Pierre Dedieu加入该项目。该转换过程分两个步骤进行:在第一阶段,学生将信息基本版块从Word文件复制到一个基础数据库模板,以降低出错的风险。这一阶段通过自动例程对数据进行内部处理,对可以分开的数据进行分离,并且对收集数据的最终模板进行设计。在第二阶段,学生将剩余的未分离数据从Word文件中复制粘贴到最终的数据库模板。


“二十世纪上海报刊娱乐广告数据库”不可避免地包含一些错误和输入失误,还存在一些未分配的数据,偶尔也会出现字体大小问题。我们的邮箱是enpmuc@gmail.com,欢迎任何的修改建议。


4

数据库中有什么?


转换处理之后,“二十世纪上海报刊娱乐广告数据库”发展成为一个拥有139,655个表演项目和80,554场演出的数据库。每个条目代表一个表演项目,它可能是一场演出的一部分。这些演出在818个不同的表演场所举行,几乎所有的这些表演场所(756家机构)都位于上海,只有少数的978场演出是在未知或不确定地点进行的。娱乐机构所扮演的角色和重要性各不相同。“大世界”是一个强大的娱乐引擎,共有14,991场演出在这里上演,几乎占据这一时期所有演出的10%。下表列出了在这一时期举办了超过1,000场演出的18家机构。很明显,上海的娱乐机构是有等级之分的。


娱乐机构演出总数前18位


演出大多在晚上举行,但这是因演出类型而异的。京剧演出在白天(53%)与晚上(47%)几乎持平,但是电影、女性京剧、沪剧或杂技大部分在白天上演(平均80%)。这些当然是整个时期的平均数值,而实际情况必然是随着时间的推移而变化的。


“二十世纪上海报刊娱乐广告数据库”记录了13,700名演员的名字,这些演员被提及的次数多少非常参差。例如,8,376名演员仅被提及一次,2,265名演员仅被提及两次。更加有限的1,125名演员被提到5次以上,极少数的255名演员被提到20次以上。在后一群演员中,只有40位名人被提及超过50次。


最常登上广告的演员


表演可以分为让人眼花缭乱的589种类型, 尽管比起一种类型或一种运动,有一些分类项目(如飞车)更像一个特定的看点。事实上,可以将各种项目组合在一起,来优化和削减类型数量,并生成更大的统计结果,但“二十世纪上海报刊娱乐广告数据库”记录的是它们出现时原本的类型。


上海的主要表演类型(1907-1967)


娱乐的空间范围及其演变是“二十世纪上海报刊娱乐广告数据库”记录中最吸引人的方面之一。这一方面在数据库的介绍中无法呈现,但是“虚拟上海平台”(Virtual Shanghai)将提供上海表演场地分布的完整地图合集。


所有机构及演出次数(1907-1966)



京剧演出地点


当前的公共搜索界面只允许简单的查询,但我们计划很快推出一个更高级的搜索界面。



延伸阅读



王贺 | “数字人文”与传统学术 ——以《解放日报》目录、索引及数据库为中心

杜慧平 | 基于概念语义网络的词族挖掘研究

吕元智 | 基于Nanopublication框架的数字档案资源语义描述研究


编辑:刘婷

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存