【对撞机】一个新领域的出现:中国的数字人文研究
徐力恒
哈佛大学博士后研究员
“中国历代人物传记资料库”目成员
电邮地址为:tsui01@fas.harvard.edu
虽然相关的研究中心为数不多,但投入数字人文研究的项目和专家还是不少。早在二十世纪七八十年代,中国学者对语言的研究就推动了不少现在可以认为属于数字人文的学术项目,例如1976年武汉大学语言自动处理研究组利用计算机统计老舍《骆驼祥子》字频;1979年以来为了分析现代汉语,出现了好几种机器可读的语料库等。由于中文信息处理需要对汉语的特点和人文意涵进行研究,又必须有计算机技术上的创新作为支撑,这就理所当然地造就了数字和人文的融合。
一些高校近两年举办的活动也反映人们对数字人文的关注;比如北大图书馆在2016年5月举办的首届“数字人文论坛”,得到超过150位学者和学子参加,反映出人们对这块新兴领域的浓厚兴趣。各人文领域的学者至少明确意识到,“数字人文”作为一个新概念可以引导不同学科的专家反思数字化工具带来的机遇和冲击,所以几个学科都举办了活动邀请学者进行讨论,例如是图书馆学、清史研究等等。当然,除了讨论以外,一些高校也在数字人文范畴投放资源,从事具体的研究,例如赞助历史地理信息系统(GIS)的建设。另外,可以预见的是高校图书馆以后在数字人文研究中会扮演非常重要的角色,因为它们既有管理甚至是创建数字资源的经验,又需要面对读者、用户和研究者,可能最具备担当桥梁角色的条件。它们和科研人员的合作会是推动数字学术(digital scholarship)发展的关键。
数字人文的研究项目往往是集体协作、国际合作的,有些中国的大学就和海外的研究机构从事这方面的学术合作。例如,我供职的“中国历代人物传记资料库”(CBDB)就是一个已经运作超过十年的国际合作项目,由哈佛大学、中央研究院和北大共同开发。这数据库目标在于系统地收录中国历史上所有重要的传记资料,并将数据开放供学术研究之用。截至 2016年,本数据库共收录超过37万人的传记资料,这些人物主要来自7到19世纪。数据库的数据既可在线查询,又可以全部下载,供用户离线使用。研究者可以利用其中提供的大数据,进行相对复杂的查询和分析——除了用作研究历史人物的参考资料之外,还可作统计分析、地理空间分析与社会网络分析之用,为中国史研究引入新视角。从2016年起,这个数据库项目在中国连续举办了不少推广活动,向学界介绍其资料特点和用法。
(“中国历代人物传记资料库”的线上查询界面)
数据的获取和开放程度也是中国数字人文面临的另一大挑战。以中国古代典籍为例,电子化材料的获得远远不是开放的。各类古籍数据库多如牛毛,但数据共享的做法仍然非常罕见——许多数据库都以商业模式运营,必须得到学术机构和研究者订购,才能生存。因此,它们的数据肯定不是完全开放的,这对不同电子资源之间的协作造成一定障碍。对于费用高昂的数据库,不少学校不能负担,也是另一难题。
虽然如此,还是有一些机构希望推动开放数据的做法。例如上海图书馆就建立了开放数据平台,以关联数据(linked data)的方式发布一些各个机构、项目都可调用的数据。同时,又创办了应用开发竞赛,开放了其馆藏家谱文献信息和内容信息,鼓励参加者有创意地利用数据,从而发挥资源的最大价值。类似活动无疑有利于推广数字项目,让更多人了解数字人文的理念和成果。对数字人文感兴趣的学者也越来越习惯在网络上讨论该领域的相关议题,尤其是用微信沟通,交流对各种电子资源、项目的意见,或发布相关学术活动的信息。一些微信公众号和群组也专门用于讨论数字人文研究(比如您正在看的这个“零壹Lab”!)。即便数字人文在学术研究的正统框架内还没有足够的影响力,许多交流已经通过非正式、非传统的渠道进行。
(上海图书馆的开放数据应用开发竞赛)
(本文原以英文在诺丁汉大学中国政策研究所博客发表,本篇中文版经过改写和补充。)
项洁教授简介:http://www.digital.ntu.edu.tw/hsiang/
王晓光教授简介:http://sim.whu.edu.cn/sz/jsxq/4/2016-05-09/873.html
陈静教授简介:http://artint.nju.edu.cn/TeacherDetail.aspx?newstype=9&id=32
武汉大学数字人文研究中心:http://sim.whu.edu.cn/xwdt/2016-05-25/1274.html
数字人文中心网络(centerNet):http://dhcenternet.org/南京大学“数字人文与超媒体GIS工作室”:http://114.212.112.28:81/index.php
台湾大学数位人文研究中心:http://www.digital.ntu.edu.tw/index.jsp
政治大学数位人文计划:https://sites.google.com/site/nccuwiki/home
政治大学文学院“数位人文研究中心”:http://www.la.nccu.edu.tw/allCenter1/pages.php?ID=allcenter1
香港公开大学数码文化与人文学科研究所:http://www.ouhk.edu.hk/wcsprd/Satellite?pagename=OUHK/tcSchWeb2014&l=C_ASS&lid=1385176377965&c=C_ASS&cid=1385176376066&lang=chi&sch=ASS&mid=0中文信息处理介绍:http://202.106.125.14:1168/indexengine/entry_browse.cbs?db=book1&value=%D6%D0%CE%C4%D0%C5%CF%A2%B4%A6%C0%ED&jm=%D3%EF%D1%D4%A1%A4%CE%C4%D7%D6
首届北京大学“数字人文论坛”:http://pkunews.pku.edu.cn/xwzh/2016-05/25/content_293906.htm
2014年图书馆前沿技术论坛:http://library.gensee.com/webcast/site/vod/play-ad9404318ac447aa98bfcf0a33c5b16d
“数字人文与清史研究”学术工作坊:http://pkunews.pku.edu.cn/xwzh/2016-05/25/content_293906.htm
“中国历代人物传记资料库”(CBDB):http://projects.iq.harvard.edu/chinesecbdb
中国历代人物传记资料库数据在线查询:http://db1.ihp.sinica.edu.tw/cbdbc/ttsweb?@0:0:1:cbdbkmeng@@0.6341087994044654
中国历代人物传记资料库数据下载:http://projects.iq.harvard.edu/chinesecbdb/%E4%B8%8B%E8%BC%89cbdb%E5%96%AE%E6%A9%9F%E7%89%88
中国历代人物传记资料库推广活动:http://projects.iq.harvard.edu/chinesecbdb/%E4%B8%96%E7%95%8C%E5%90%84%E5%9C%B0%E7%9A%84%E4%B8%AD%E5%9C%8B%E6%AD%B7%E4%BB%A3%E4%BA%BA%E7%89%A9%E5%82%B3%E8%A8%98%E8%B3%87%E6%96%99%E5%BA%AB%E7%A0%94%E8%A8%8E%E6%9C%83
上海图书馆开放数据平台:http://data.library.sh.cn/
开放数据应用开发竞赛:http://pcrc.library.sh.cn/zt/opendata/
ACLS Commission on Cyberinfrastructure:https://www.acls.org/programs/Default.aspx?id=644
Crowdsourcing, APIs, and a Digital Library of Chinese:https://cpianalysis.org/2016/06/08/crowdsourcing-apis-and-a-digital-library-of-chinese/
应用程序接口介绍:http://baike.baidu.com/view/592964.htm
“中国哲学书电子化计划”(CTEXT):http://ctext.org/zh
END
翻译 / 陈夏辛
责编 / 徐力恒 陈夏辛 顾佳蕙 彭玮 桑雨茜
美编 / 曹清语
零壹Lab
记录数字媒介之日常
反思科技与人文精神
长按关注