交换机|北大“数字人文论坛”发言摘要
第二届北京大学“数字人文论坛”互动与共生:数字人文与史学研究
单击此处查看会议通知:交换机|2017DH热浪来袭(第一波)
会议摘要
苏珊·施赖布曼
报告题目:数字人文:新方法、新公众、新职责(Digital Humanities: New Methods, New Publics, New Responsibilities )
报告摘要:Digital Humanities, and by extension digital humanists, tend towards a culture of open access, interdisciplinary collaboration, and a maker ethos. These disciplinary values position the digital humanities for high impact reaching beyond disciplinary boundaries into more public fora. This public-facing ethos is a natural extension of web-based scholarship. But Web 2.0 technologies have provided digital humanists with new possibilities for involving new publics in our research: crowdsourcing, participatory engagement, and social engagement projects are technically within the reach of most digital humanities projects. But with this new engagement comes new responsibilities: ethical, social, and administrative. This talk will explore participatory engagement projects, as well as tease out the responsibilities they bring.
项 洁
报告题目:数字人文与脉络分析:历史数据库的视野与取向
报告摘要:数字人文在近二十年来从一个令人好奇的名词变成人文学科中不可忽视的研究取向。台湾的数字人文研究虽然还没有形成一个明显稳定的学术社群,但是参与者已经从建置大规模数据库的思维转向到思考数据库对于人文研究的意义。本报告即试图用一个甚具规模的台湾史数据库—台湾历史数字图书馆(THDL)为例,从信息科技如何因应人文研究需求的角度,探讨一个蕴含在文本中重要但并未被重视的特征,就是文本脉络(textual context)。
寻找字里行间的蛛丝马迹本来就是人文研究(尤其是历史研究)重要的一环,面对数字时代的大量文本,需要有更快速更有效率的方式对大量文本做俯瞰式的观察。本报告提出一个文本脉络(textual context)的关念,阐述一个数字史料库的主要功能,除了让用户可以检索之外,更应当提供检索得到文件之间的脉络。虽然我们提出的方法并没有限制在某一种语言上,但我们特别强调东亚语言的文本,因为东亚传统语言因为没有字母以及用空格(spacing)来区隔有意义的字符串,需要经过特殊的前处理(preprocessing)才能有效的萃取出人、时、地、物等有用的信息。本文着重分析以下三种数据库可以提供的文本脉络,一为诠释资料的脉络(metadata context),也就是以诠释数据字段(如时间、地点、出处等)对检索成果做不同的俯瞰式的编排与呈现;二为统计的脉络(statistical context),即依照设定的条件对数据进行数据型的分析,如词汇的共现度;三为语义脉络(semantic context),即找出与原始文本有特定关联的文本,并展示其彼此之间的关系。前两种脉络对于任何经过前处理的文本均适用,语义脉络则需要针对本文的特性做设计,但可以同时找出一个大型文本集中所有符合所定义的语义特征的脉络。
本报告强调,上述的脉络分析将数据库的巨量数据,转化为研究者可资观察和比较的对象,让研究者可以在很短时间内掌握文本集的特性,这是在传统时代难以达致的。尽管人文学者关心的脉络远超过文本之外,这一视野和取向却可望成为数字时代其研究的新起点。
康文林
报告题目:历史大数据开启社会科学新认识:李康研究团队理念
报告摘要:
I will discuss how analysis of historical big data of the sort commonly used in the digital humanities can advance our understanding of important questions in social science. Three characteristics of historical big data distinguish them as a source for studying social, political, and economic processes: 1) longitudinal depth, 2) the ability to make comparisons across communities and societies, and 3) prospects for synthesis of richly detailed, high dimensional datasets by nominative or other linkage of records in originally separate datasets. Taking full advantage of the potential of historical big data for such analysis, however, requires models of sustained, large-scale collaboration, comparison, and data documentation and dissemination that have become the norm in some areas of social science, but remain relatively novel in the humanities. I will show how such approaches make it possible for historical data to become the basis for social science inquiry, with illustrations from the experience of the Lee-Campbell Group. Examples will be drawn from our various ongoing projects to construct, analyse and publicly release large historical databases, and our involvement in large-scale interdisciplinary, international comparisons such as the Eurasia Project. Through this presentation, I hope to demonstrate that the datasets constructed for research in digital humanities have wide applications in social science, and that their potential for such use may be realized by the adaptation of relevant models of collaboration and comparison.
刘 炜
报告题目:以数据重现历史:“上海年华”数字人文平台的设计与建设
报告摘要:当前我国在数字人文领域的研究和建设与国外相比尚有相当差距,这与数据资源的积累、技术方法的应用和平台工具的开发等方面的滞后直接有关,这三方面构成了数字人文基础设施的主要内容。数字人文的研究者缺乏数据、拥有数据的机构找不到用户、跨学科跨领域合作普遍不足,以至于数字人文相关领域的研发缺乏协作、难以积累、难成规模成为一个普遍现象。上海图书馆利用丰富的近现代馆藏和连续20年的数字化建设,积累了海量的数字图像和文本,经过近年来对家谱、手稿等一批特藏的尝试性开发,基本具备了利用关联数据技术开发数字人文平台的能力。但数字人文领域的进展需要更大范围的开放与协作,需要探索大数据时代的服务模式。上图希望借新馆建设东风,把目前以数字文献为基础的数字图书馆系统升级为以内容关联和知识服务为特征的数据图书馆,在“上海年华”数字人文平台上以数据重现历史的细节,以软件呈现不同的视角,以工具挖掘可能的关联,展现上海开埠以来的恢弘发展,为海内外各学科的研究人员和相关人士提供各类新型的数据服务。
王晓光
报告题目:面向数字人文的文化遗产图像数据基础设施建设
报告摘要:随着文化遗产数字化的发展,文化遗产数字图像资源增长十分迅速。如何建设图像相关的语义资源,支撑图像深度语义标引,进而建立开放共享的细粒度图像语义数据集,已经成为数字人文研究基础设施建设中的重要任务。针对文化遗产领域图像深度语义标引的特殊性要求,我们首先分析了文化遗产图像的主题结构特征,总结了现有的文化遗产数字资源语义组织方法,进而提出了图像深度语义标引的基本流程,构建了文化遗产图像深度语义标引层次模型,包括宏观概念关系模型、语义蕴含层次模型,以及标引信息结构化组织模型,并针对敦煌壁画《九色鹿王本生图》进行了深度语义标引实验。在此基础上,我们对文化遗产图像数据基础设施的建设问题进行了探讨和展望。
路伟东
报告题目: 历史地理信息系统二十年:从基础数据到个案研究
报告摘要:自从上个世纪90年代中期,GIS走出实验室,进入到研究者,尤其是人文社科的研究者中来之后,取得了长足的发展。因为与地理学的特殊关系,历史地理学者在国内较早关注并使用GIS,这是中国HGIS(Historical GIS)的重要源头。而在历史地理学界,HGIS是最近20年来最重要的学术增长点之一。在这20年间,历史地理学者投入了大量的时间和精力对传统文献记载的海量空间基础数据进行矢量化,最终目的是要建立一套具有完整时间序列真正千年尺度的空间基础数据。数据是研究的基础,GIS所能提供的制图以及空间可视化也的确为传统历史地理研究提供了足够的便利。但是,单纯的数据矢量化与可视化并没有真正的学术意义。实际上,对于研究者来讲,最关心的仍然以问题为导向的学术研究。在GIS进入历史地理行业20年的今年,如何利用GIS空间分析的技术、理论与方法,去发现和解决那些通过传统文献耙梳和简单数学统计等方法,无法发现和解决的问题,做出真正具有学术价值的交叉研究,是热爱HGIS学者的共同追求。同时,这样的交叉研究,也是真正推动HGIS往更深层次和更高水平发展的基础。基于宣统人口调查甘肃地理调查表近7,000个聚落户口数据,引入GIS数据处理与分析方式,笔者探讨了晚清西北人口在较长时段内的变动问题。现提供两个研究个案,敬请诸位方家批评指证。题目分别是《1776—1953年西北地区的人口变动分析》、《宣统甘肃千人以上聚落分布与晚清西北人口迁移的空间特征与规律》,希望这一工作可以检验中国人口史现有典范式成果的同时,给出研究长时段区域人口史的不同方法,为GIS在中国人口史研究领域的应用提供有益的尝试和探索。
黄 晨
报告题目:大数据视野下的数字人文
林海青
报告题目:中国古典目录的数据化探索研究报告
报告摘要:中国目录学研究源远流长。古典目录学在漫长的发展过程中,逐渐形成了系统的研究方法,积淀了深厚的学术传统。清人章学诚将古典目录学的基本研究范式归结为“辨章学术,考镜源流”,这一研究范式奠定了目录学在中国古典学术中的重要地位,成为“学中第一要紧事”。编制书目是中国古代重要的学术活动之一,许多学者倾其毕生精力而为之,留下了大量的目录学著作。这些目录学著作揭示了中国古典学术的脉络源流,是中国学术研究的重要资源,尤其是当古典学术研究范式被取代后,古典目录更显示出其重要的学术价值,它们可以为现代学术研究,特别是人文研究提供文献证据。例如梁启超在《中国历史研究法》中提出辨别伪书的第一个公例就是“其书前代从未著录或绝无人征引而忽然出现者,什有九皆伪”。换言之,一个史料如果没有古典目录学的著录依据,其可靠性就会降低。古籍目录及其流变成为目录学的证据,并从根本上确保了基于历史文献的学术研究的可靠性。显然,目录学属于人文研究范畴,同时又是人文研究的基础。随着数字人文的兴起,如何用数字人文技术来处理古典目录是一个重要的研究课题。用数字人文技术来处理古典目录有两个基本功能需求,第一是如何用数字人文技术对古典目录进行分析挖掘和展示,从总体上描绘古典目录的内在关联,用数字技术来实现“辨章学术,考镜源流”。第二是如何提供古典目录的数字化服务,使得古典目录能够伺服各种数字技术工具,如文本分析工具、机器学习、可视化等。实现这两个功能需求的核心是古典目录的数据化。所谓数据化是一种后数字化的信息处理。数字化是将传统文本信息转换成数字化形式,以便数字化设备能够读取,而数据化是在数字化基础上进一步文本转换成机器可理解形式,以便机器可以进一步处理。所以,数字化是实现机器可读,而数据化是实现机器可理解,从而实现机器可处理。本研究试图以二种宋代目录《崇文总目》、《直斋书目解题》以及《宋史艺文志》为实例来探索古典目录数据化的可能性和基本方法。选择这三种目录是基于以下考虑:1)这三种目录主要著录宋及宋以前的文献;2)这三种目录的编制有一定的时间跨度,包括北宋时期、南宋及元,可以较好地反映文献的流传;3)这三种目录性质各不相同,将这三种目录放在同一个数据化框架中以探索这三种目录之间的各种关系。最后,这三种目录综合在一起,可以比较全面地反映宋代图书形况,在此基础上提供数据化服务,能够基本满足宋对代及宋代以前文献信息的需求。数据化的基本框架和技术是采用关联数据技术,选择关联数据技术的原因包括:1)关联数据框架比较成熟可靠,数据模型相对简单,可以很好地满足描述古典目录的要求。2)关联数据具有强大的关系描述及查询机制,而对关系的处理是古典目录数据化的核心。3)关联数据具有很强的开放性和可扩展性,可以满足各种数据服务要求。数据化古典目录的挑战是建模,由于文献制度的不同,不能简单地照搬基于描述现代文献的数据模型来描述古典目录,但又要使得描述古典文献的模型和通用模型兼容。本研究试图建立一个简单模型利用关联数据的基本规则来实现和其他数据模型的兼容。最后,我们将以这个实验性研究为例来讨论数字人文研究的基本范式。
潘 威
报告题目:清前中期东河河工银定额制度的结构性问题初探——基于“数字历史黄河”平台的工作
报告摘要:本文在“数字历史黄河”平台基础上,利用清代的河工钱粮档案记录,复原了乾隆晚期河东河银定额制度的变化和制度空间形态对这一制度动摇的影响方式。顺治朝开始,黄河维修就开始向定期化发展,河银耗费日渐增长;河银在康熙后期开始与地丁银挂钩,由此衍生出了专门的河库道制度和考成制度,原有的随意摊征、拖欠和地方府县的消极态度得到了一定程度的控制。乾隆后期清政府用于治理黄河的经费增长,但清政府已有的定额河银制度实际执行并不理想。乾隆中后期至嘉道年间,河南省定额河银制度经历重建的过程,即帮价银在乾隆中期出现,末年又被废止;嘉庆初年再次被提出,嘉庆中后期提出筹款生息的举措。初时帮价银由各州县摊征,而后由官员捐廉,最终筹款生息的方式使帮价银征收得以稳定下来。至少在东河地区,额征河银过度依赖少数州县承担,其他州县承担的额度太小,更为重要的是,灾害更多的地区承担了更多的河银任务,这些空间上的特征直接影响了额定河银的足额按期完缴。额定河银由于存在着收缴上的巨大问题而使这一制度缺乏可持续性,在物料价格不断上涨、雇佣民夫取代签派的背景下,养护工作面临着日益严峻的挑战。
徐力恒
报告题目:服务中国史研究的网络基础设施:CBDB的探索和建议
报告摘要:近年,和中国史研究相关的学术数据库和研究项目越来越多,有志参与中国数字人文研究的人员也大幅增加,学界有必要为中国史研究建立相应的网络基础设施(cyberinfrastructure),加强沟通合作。网络基础设施可以连接对这学科有用的电脑程序、数据、人才、工作模式、标准和合作形式,促进研究的进步和学术共同体的发展。此报告将具体论述为中国史研究者建设网络基础设施可以如何从资源的共享和成员的交流两方面开展。我将从哈佛大学、北京大学和中央研究院共同建设“中国历代人物传记资料库”(CBDB)的经验为例,例如利用API把不同数字化资源和工具进行互联的做法,说明建设网络基础设施可采取的合作方式。同时,也会介绍我们未来创造更多合作的计划。
林 展
报告题目:建立“量化历史研究数据库”的若干思考
报告摘要:高质量的数据库是数字人文研究、量化历史研究的基础。本报告计划介绍我所在团队在建立量化历史数据库过程中的一些经验和教训、部分研究发现。另外,从学术届对于量化历史数据库的需求和供给的角度,交流关于今后量化历史数据库建设的一些思考。
陈 静
报告题目:商业广告蜉蝣与图像意义挖掘
报告摘要:19世纪晚期,数以千计的日用消费品洪水般涌入为治外法权所管辖、国际规约控制的中国口岸城市。外国商品成为了全新的都市流行文化的主要载体。与之相应地,广告业巧妙地将商品品牌及品牌技巧渗入到老百姓的日常生活之中,使得商品图像成为了一种极为重要的、都市文明生活的象征符号。广告成为了一种强有力的方式,在现代主义的消费文化中推动着充满了欲望的商品流通。其重要意义在于,这种黑白两色的报纸广告像蜉蝣一般,是“日常生活的转瞬即止的记录。”我们将之视为一种图像性的认知方式。广告或者“图形”用一种无言地方式传达了诸如“现代生活是整洁的”或者“人是哺乳动物”这样的价值观。广告蜉蝣也因此为研究者提供了条件去思考关于现代性的优越性,特别是在广告从其原初状态解放出来成为数据后,就能够为我们所用去证明嵌入在广告中的概念是如何迎合那些商业文化了。为了进一步发掘广告的意义,我们启动了“中国商业广告数据库项目”(CCAA)并且开始“元数据化”上万张的高质量图片。这些图片是从1880到1940年间的五份主要的商业中文报纸的缩微胶卷转换而来。在Dublin Core的标准上,CCAA使用了定制化的元数据框架,对每一张外国商品广告的数字图片进行标注,输入所有可能的信息,比如品牌名、文本和交道名和公司名等等。我们的元数据包括描述性内容、语境信息、文献信息、技术和图片信息等等。我们的目的是:1)使得广告数据对文化批评家和历史学家可用;2)对商业文化生活在19世纪的晚期和20世纪在中国的出现及其对历史无意识的渗透得以理解。为了进一步探索图像、文本、商品、广告、全球资本和现代规训秩序的内在机制,我们提出了一种基于内容分析的概念模式,以期能解释现代主义领域中的内在关联性。在这个现代主义的领域中,视觉文化(文本/图像)、商业力量(商品、广告和全球资本)以及社会理论(现代规训秩序)结合起来,使得日常生活中的人们接受蜉蝣产物所传达的哲学观念。我们的目的是发掘关于广告及广告业更多的知识,并提供一种方式,得以从远距离审视在更大范围内的广告业。我们使用统计学方法帮助我们克服障碍,并期望文本挖掘来帮我们发现:1) 发掘由广告内提取出的词语及特征所具有的内在关系;2)简历这些词语及内在关系与中国通商口岸内的意识形态趋势之间的关系。我们主要依赖的方法是邓柯博士提出的文本发掘方法,通过建立技术术语索引和技术术语内部的关联模式。在韦廉士医生的个案中,借助统计数据和文本发掘的初步结果,我们得以更清楚地理解韦廉士在现代中国中的位置,并能理解韦廉士医生,作为野心勃勃的全球公司,是如何以一种清晰的、持续的策略、强大的经济支持和成熟的决策制定技巧来进行全球市场推广的。
朱本军
报告题目:GIS辅助战国历史地理研究
报告摘要:“数字人文”(Digital Humanities)可为史学研究提供新的方法、工具,帮助历史学者提出、重新界定和回答史学问题,而数字技术、工具和平台在史学研究中的成功运用反过来也会促进数字人文的研究和发展,二者相辅相成。本报告主要介绍如何在已有史料、考古遗址等的基础上,运用地理信息系统(GIS)相关技术重新审视和回答战国历史地理研究中的古地名方位定点标绘、河流水系走向、交通线路,及地缘战略与军事地理等问题,并提出若干通过GIS相关技术辅助下发现的其他新问题。
王 涛
报告题目:《群像的描绘与类型的分析:用数字工具挖掘<德意志人物志>》
报告摘要:“历史学的数字转型”是大势所趋,它将在宏观层面影响历史学的整体面貌,在微观层面改变个体史学研究者的工作方式。在中文学术圈数字人文方兴未艾,但这种思路与方法主要被用来研究中国问题。中文学界从事世界史研究的学者鲜有涉猎数字人文的佳作。本课题是运用数字人文工具研讨世界史问题的一次有益尝试:以德意志学界重要的人物传记辞典为蓝本,对历史人物进行了群体与类型的研究。传统的人物研究以个体传记为主,本课题开创性以德意志群体人物为研究对象,并且运用数字史学的观念与方法,力图在德意志人物传记的研究中发现隐含的问题,比如德意志历史人物的整体状况、出生-死亡地模型等。我们还会具体分析中世纪大学生群体的流动情况,对德意志学术史获得新视角的认知。本课题的具体应用,将拓宽我们对德意志历史的认识, 加深我们对欧洲文明的理解;同时,我们在新工具与新思维的具体运用中结合历史问题的分析,不仅能够对传统结论提出改进意见,也能够在学术实践中对数字史学的技术进行评判,从而推动数字人文的发展。
李煜明
报告题目:Gale与数字人文
报告摘要:Gale作为此次会议唯一国外学术出版集团赞助商,其一次文献平台上拥有的一亿七千万页数字化原始档案,被业内公认为全球最大体量的社科人文一次文献大数据。数字人文学者配合使用Gale全球领先的数据挖掘及分析工具,可有效提高数字人文科研产出。将通过具体案例介绍Gale如何支持数字人文。
洪 涛
报告题目:中华书局的数字人文服务
报告摘要:中华书局作为一个出版机构,我们在不断思考如何参与到数字人文建设中。数字人文是一个广阔的空间,每种角色都有自身的责任,能提供独特的贡献。本次报告是以中华书局和下属古联数字公司数字化实践为例,探讨古籍出版社作为一个不同于研究机构、图书馆、科技公司的主体,在现有社会分工体系里的作用如何有效率的延伸到数字人文发展中。
END
主编 / 徐力恒
责编 / 陈静 顾佳蕙
美编 / 傅春妍
零壹Lab
记录数字媒介之日常
反思科技与人文精神
长按关注