查看原文
其他

论文荐读 2019年第3期 | 人文社会科学领域网络资源存档利用现状综述

赵珞琳 信息资源管理学报 2022-04-25

题图来自图虫创意网


人文社会科学领域网络资源存档利用现状综述


赵珞琳

(北京大学新媒体研究院,北京,100871)


摘要

网络资源存档作为重要的资料和数据来源,不应仅局限在图书馆学、档案学范围,而应当在更多研究领域中得到广泛利用。通过在Web of Science和中国知网数据库检索相关文献,总结网络资源存档在人文社会科学研究中的利用现状,从学科领域、研究主题、数据来源、研究方法等角度进行文献分析,得出利用网络资源存档进行人文社科研究的启示,为未来研究提供参考借鉴。

关键词


网络资源存储  互联网档案  互联网研究  数字人文  网络信息保存


1

引言


互联网已经成为当前人类社会的信息、数据与知识最重要的承载平台和传播媒介,每分每秒都有数以亿计的用户在网络空间创造、利用着信息内容,这些信息是社会公共生活、思想的记录和反映,具有重要的文化和历史意义。随着网络空间信息资料的学术价值越来越受到重视,将这些网络资料进行妥善保存、形成档案,也成为一项共同呼吁[1-2]。 

“网络资源存档”是“收集网络中的内容并将其档案化,使其能作为档案被使用的过程”(web archiving),以及这些资料所形成的可供使用的档案库、数据库(web archive)[3]。该领域权威学者 Brügger将网络资源存档分为宏观与微观两个层面[4],宏观上的网络资源存档是系统性、大规模的互联网内容收集与保存工作,用以进行总体性的文化遗产保护,主要由专门机构(如国家图书馆、档案馆等)利用专业 技术来实施,并形成相关档案库和数据库;微观层面上,则是指不同的研究者或机构以其具体的研究问题为导向来利用特定的网络资源存档资料,或对于满足条件的、相对而言较小范围的互联网信息进行搜寻和存档,形成研究资料,帮助达到研究目的。 

1996年,第一个规模较大的国际化网络资源存档机构“互联网档案馆(The Internet Archive,IA)”成立于旧金山,标志着这一工作的系统化、标准化[5],由此,针对网络资源存档的研究也逐渐开展起来。近年来,国外相关研究成果颇丰,网络资源存档工作流程中的标准、方法与技术、具体存档项目评价研究、相关政策法律法规研究都是学者关注的主题[6-8]。我国的相关研究则较为滞后,主要集中在国外相 关实践的介绍和对我国的启示上,在采集与存储技术策略研究、风险管理研究等方面也有所涉及[9-10],但法律法规相关研究 较少,有关档案利用的论文则几乎没有[10]。 

总体上,网络资源存档受到学界日益增长的重视,但大多数研究都是围绕网络资源存档其自身技术与建设来进行,这些存档资料究竟该如何被研究人员妥善利用则少有讨论[11]。已有学者呼吁,网络资源存档作为重要的资 和数据来源,不应仅局限在图书馆学、档案学范围, 而应当在历史研究、网络传播(web communication)、数字人文(digital humanities) 等更多研究领域中得到广泛的利用[12]。由此,本文希望通过梳理网络资源存档在人文社会科学研究中的利用现状,分析相关研究的学科、主题、内容和方法,总结利用网络资源存档进行人文社科研究的启示,为未来研究提供参考借鉴。


2

文献来源


通过 Web of Science和中国知网数据库 (CNKI)分别对国外和国内相关研究进行检索。在 Web of Science数据库中,以“web archive” “web archiving” “internet archive” 作为主题词进行检索, 检索子库定为Social Sciences Citation Index(SSCI)、Arts& Humanities Citation Index(A&HCI)和 Conference Proceedings Citation Index-Social Science & Humanities (CPCI-SSH),文献类型定为期刊论文和会议论文,年限设置为 1996—2019 年,共检索到171篇文献。中国知网数据库中,篇名及关键词设置为 “web archive” 或 “web archiving” 或 “internet archive”或“互联网档案”,或“网络信息”并含“存档/保存/归档”,或“网络资源”并含“ 存 档/保 存/归 档 ”, 年 限 设 置 为 1996—2019年,资源类型设置为期刊和会议论文,共检索到207篇中文文献。人工筛选剔除重复文献、非研究性文献后,通过阅读摘要,再排除其中针对网络资源存档本身进行研究的文献,最后筛选出利用网络资源存档进行人文社科研究的相关文献共计40篇,包括英文37 篇,中文3篇。文献按年份发表的数量分布情况如图1所示,可以看出,对网络资源存档的关注和利用总体呈上升趋势。

图1  利用网络资源存档的文献按年份分布情况


3

学科与研究领域分析


总体而言,利用网络资源存档的研究呈现出学科多元化、跨学科化的态势。相关研究覆盖了人文社科的各个学科和研究领域,在信息管理学、新闻传播学、社会学等领域均有涉及。40篇文献中,学科类别最多的是新闻传播学,其次是信息管理学,分别有13篇和11篇,社会科学综合类7篇、社会学2篇、历史学2篇,其他类别(包括语言学、数字人文、人机交互等领域)5篇(见图2)。

图2  利用网络资源存档的文献在各学科刊物的分布情况


同时,这些文献体现出跨学科的视野和问题意识,关注人文社会科学交叉领域的前沿问题。例如:Brügger和 Finnemann的研究发表在新闻传播学刊物Journal of Broadcasting & Electronic Media中,关注的是网络资源存档为数字人文研究带来的理论与方法论问题[12]。更具代表性和启示性的是大英图书馆与多个 英国高校及研究机构在2014—2015年开展了一个跨学科研究项目,请10组不同学科背景的研究者利用 “BUDDAH” (Big UK Domain Data for the Arts and Humanities) 数据库进行“合作式的独立研究”,主题包括网络舆论、国际关系、文学史、数字鸿沟、商业发展史、网络文化社群、公共考古学等众多领域,最终汇结而成名为“英国网络文化图景”(Cultures of the UK web)的一系列研究成果[13]


4

研究主题分析


纵览相关文献,其中,认识论与方法论(15篇)、历史研究(16 篇)、 互联网相关研究 (16篇)成为涉及最多的3个研究主题,不同主题并非互斥,而是呈现出有机融合的态势。下面将分别就这3个主题概述相关文献的具体切入点和主要内容。


4.1 认识论与方法论


如何认识网络资源存档对于人文社会科学研究的价值,如何妥善利用网络资源存档做研究以及解决利用过程中可能产生的理论、方法论问题,都是学者关注的若干重点。根据其研究内容,可以将利用网络资源存档的认识论与方法论问题分为以下几类:

4.1.1 网络资源存档作为数据来源的可用性


众多研究者讨论了网络资源存档作为数据来源在数字人文[12,14-15]、国际关系史[16]、公共卫生史[17]以及语言学[18]等领域研究中的可用性以及利用时需要注意的问题。一部分文献从方法论理论角度进行思辨性讨论, 如Brügger认为,网站的存档版本不仅仅是“副本”(copies),而是通过存档行为创建的独特对象[1]。例如IA在存档网页文件时,如果有部分内容缺失,则会自动获取与用户正在查看的文件日期最接近并且可用的同名文件,将其作为替代文件。网络资源本身具备重要的利用价值,但“网络资源的存档”“被存档的原始网络资源”和“数字化资源”之间的差异是研究者将前者作为数据来源时所不可忽视的[19-20]。另一部分文献则以实证研究来验证网络资源存档作为数据来源的可用性。如:Kumar等人的研究通过 Way back Machine(IA的网页存档工具,简称 WM)找回社科文献曾引用但已失效的网页页面,发现 WM 可将在线引用的半衰期从5.40年延长到11.73年,藉此对网络资源存档进行可用性的证实[21]


4.1.2 网络资源存档与人文社科研究


研究者不约而同地强调,网络资源存档的建设和利用对于人文社科研究未来发展具有重要意义[12,14,22-23]。人文学科若要恢复其在学术界的历史地位,对数字材料中讲述的“故事”进行阐释将是不可避免的路径,而其中最重要的“故事”将来自于存档的网络材料[12]。在此基础之上,Dougherty等对人文社科学者进行访谈,发现共享实践、可访问工具以及清晰的法律伦理指南的缺乏成为了普及网络资源存档利用的障碍;作为基础设施的宏观网络资源存档和适宜特定研究需求的微观个性化存档,二者共同发展并在技术上实现有机融合,则是研究者们期待的发展方向[22]。


4.1.3 网络资源存档资料的获取和分析方法


在利用网络资源存档获取研究资料时,研究者首先需要根据具体研究的问题建立一系列标准,来确定资料获取的范围,即哪些网站或链接是跟踪挖掘的目标、挖掘的范围(文本、图片、动画等)和深度(网站的层级)、网页资料获取的时间尺度和频率等实际方案,并做好某些数据和资料缺失(如图片损坏、链接失效、文件格式不支持)时的应对方案[12,19]。在存档资料的分析方面,除了传统的定量、定性方法的验证适用之外,研究者们还对网络存档的研究方法和网页内容的分析框架进行了新的探索[24-27],这些将在第5节详细介绍。


4.2 历史研究


历史研究相关文献主要都围绕社会史、文化史议题展开,并将网络资源存档作为资料数据来源,这与网络空间作为一项社会公共生活、思想的重要载体不无关联。 

其中,针对社会史相关议题,一部分文献对网络空间呈现的集体历史记忆进行研究,从而发掘一段社会史。集体历史记忆的切入点包括对重要事件(如南京大屠杀[28]、“9.11”事件[29]等)的集体记忆,对战争的记忆[30]、对网站的记忆[31]等。例如,吴世文等分析网民关于消逝网站的记忆叙事,讲述网站在政治、资本、技术等力量共同作用下如何消逝又如何被记忆书写,为理解互联网社会史提供了新的视角[31];黄顺铭等则通过研究网民对南京大屠杀事件进行阐释的话语协作与话语争夺,探讨维基百科这一全球性记忆空间背后反映的国族认同、文化间性与历史书写的身份政治[28]。 

另一部分研究侧重于思想文化史,通过网络资源存档发掘特定文化现象的变迁,微观文化现象和宏观文化态势等均有所涉及。微观文化现象,例如重金属这一音乐风格在世界范围的传播及其影响因素的研究[32]、克拉拉·蔡特金(Clara Zetkin)的政治思想研究[33]等;宏观的思想文化议题则包括英国文化图景变迁[13]、马克思主义政治思想史及其非洲研究范式的提出[34]等。 

此外,研究者在解决具体历史问题的同时,也不乏对历史研究方法及方法论的探讨。如姚百慧以国际关系史在线一手档案文献资源为例, 讨论网络资源存档对国际关系史研究的作用以及使用的注意事项[16];Gorsky利用大英图书馆的英国域名存档来探究英国公共健康卫生与地方政府之间的关系在网络上是如何体现的,提出了研究过程中由于部分网站的重复对聚合网页资料形成可视化时造成的困难,同时也指出了对网页存档的文本和图像 进行主题和话语分析的潜力[17]


4.3 互联网研究


互联网研究是近年来逐渐热门的跨学科研究领域[35],利用网络资源存档进行的相关研究主要针对互联网与社会文化、互联网自身、互联网与用户这四个方面来进行。


4.3.1 互联网与社会文化


Web 2.0时代,网络空间已经成为人们重要的信息来源和文化交流渠道,而网络资源存档则为这些海量、易逝的信息提供了有条理的归宿。研究者从多角度讨论了网络空间与社会文化的相互作用:如John通过对社交网站页面变迁的分析,探讨了“共享”作为网络社会的关键词的兴起过程,以及“共享”作为一种话语策略和社交媒体二者之间的相互型塑关系[36]; Musso等关注1996—2001年英国早期商业网站的发展变迁,讨论了互联网所带来的“界限消失”对在线商务发展的影响[37]


4.3.2 互联网自身


互联网自身的结构、内容与特征是文献的关注点之一。研究者利用网络存档资料对网页的词汇特征[38]、网页的生命周期[24]、网络空间的文本信息是否在减少[39]等问题进行了探究。如 Bodker等分析了新闻网站存档和在线新闻时间性之间的关系,认为理解这一时间性必须考虑到网页的不同层次上文本元素之间复杂的相互作用[26]。


4.3.3 互联网与用户


一部分文献以特定类型的网站和特定人群为案例,讨论了网络新媒体的媒介效果,即对不同用户人群的影响。例如:Hackett等利用IA的WM工具对高等教育网站进行回顾性分析,研究网页设计技术的进步对残疾人可访问性的影响[40];Harrison等利用20个养老保险网站的存档研究网络是否对消费者有信息赋权作用的问题[41]。与媒介效果相对,网络用户的行为和感知研究也是议题之一,围绕此议题进行了如用户对美国州政府网站的感知态度[42]、在短消息中使用缩写的性别差异[43]等研究。 

在解决互联网相关实证研究问题的同时,对网络资源存档的价值思考也有机融合在文献之中。例如:Giannetti对5个网络音频档案库 (大英图书馆Europeana Sounds、Internet Archive、PennSound、UbuWeb)在 Twitter上的提及和引用情况的研究发现,用户对档案的主动使用和讨论受到社群认同、知识需求、创新分享等多个驱动力的影响,藉以佐证网络音频资源档案的文化传承价值、教育价值和社区价值[15]


5

数据来源与研究方法分析


文献分析显示,研究者在数据来源的选择上使用了多种类型的网络资源档案,采用了多样化的定量定性研究方法。此外,还针对网络资源存档的分析方法进行了旧方法的改善和新方法的探索。部分代表性研究的数据和方法使用情况如表1所示。


表1  利用网络资源存档的代表性实证研究


5.1 数据来源


较多文献采用了美国IA的网页档案,并根据具体研究问题在IA中筛选获取特定网站、特定时间范围的网页存档。例 如:Ryan等[42]在IA获取了1997—2002年间美国50个州政府网站存档,并采用实验法研究用户对政府网站页面变化的感知态度。英国作为最早一批开始网络资源存档实践、并拥有大规模成熟档案库的国家,也有相当一部分研究采用了大英图书馆的数据 库,如Hale等使用大英图书馆 的.uk域名数据库,将英国国家顶级域名做了整体的、历史性的变化分析[27] 。另有一部分文献采用了 Brügger[4] 所定义的“微观”的网络资源存档进行研究,即自行根据研究问题建立网络档案,或者采用了其他小规模、短期的、个人建立的、具有特定对象和主题的网络档案库,而非官方机构提供的档案资料。例 如:Dyvik等[30] 利用了一个由志愿者在网上进行征集和策展的档案库“WarInk”,该网络档案包含了退伍老兵们与战争相关的文身图片和个人经历叙述资料;黄顺铭等[28]则将中文维基百科中的 词条编辑历史记录作为资料来源。这反映了无论是政府部门、专业机构设立的大规模网络档案,还是小规模、针对性的微观网络资源存档都在人文社科研究中得到了相当程度的利用与探索。


5.2 研究方法


分析文献得出,相关实证研究的研究方法呈现多样化态势,不同的定量和定性方法均有使用。表1展示了利用网络资源存档开展实证性研究的代表文献,可以发现多样的研究方法反映了网络资源存档资料的可用性及其运用形式的灵活性。同样利用来自IA的网站存档资料,研究者们有的对资料本身进行定量[39]或定性的内容分析,有的则以实验法[42]测量他人对资料的感知态度。例如:Cocciolo利用计算机视觉算法(computer visional gorithm)对IA中100个 美国网页在 1999、2002、2005、2008、2011 和2014年的存档进行定量分析发现,从上世纪90年代末到2005年,网页上的文本比例一直在上升并达到峰值(占网页内容的32.4%),此后便一直在下降[39];Ryan等则通过实验法测量人们对1997—2002年美国50个州政府主页的看法发现,可从页面布局、导航支持和信息密度这三个维度解释对政府主页的不同态度[42]。此外,也有文献将网络资源存档与数据挖掘相结合对其数据做全景式的描绘分析,充分利用了宏观 网络资源存档的规模性特征。 

值得注意的是,研究者还根据网络资源存档的资料特点和技术特征,提出了创新的资料收集和分析方法,如档案发现方法[25]、历史网络分析法[44]、纵向网络分析法[27]、网页分析框 架[26]等。 

具有代表性的是Bodker等提出的网页分析框架[26],这一框架的出发点是将网络空间内容分为五个层级:网页元素(web element)、网页 (web page)、 网站 (website)、 网络领域 (web sphere)和网络整体(the web as a whole)。网络领域是指一系列关于特定的共同主题、事件或问题(如政治选举和自然灾害)的网页或网站。而网络整体则包含了超越其他层次的网络特性,例如 web浏览器、插件或计算机病毒等。具体的元素可以分形态和句法两个维度进行分析,这两个维度又可从语义、形式和物理表现形式三个层次进入,从而交叉形成了2*3的分析框架。在此基础上,由于网络信息的快速和分散特性,使研究者难以在历史维度上精准完整地重构网络领域,Musso等提出了一种基于网络历史资源目录(historical web directories)来获取和分析过去的网络空间的方法[37]。这些创新的方法实践都为网络资源存档未来在更多研究领域的利用提供了重要的借鉴。


6

结论与启示


本文通过对相关文献进行分析综述,从研究领域、主题、方法等方面梳理了网络资源存档在人文社会科学领域的利用现状,得出以下结论与启示。 

(1)网络资源存档作为研究工具普及程度低,但前景良好。总体而言,在所有检索到的网络资源存档相关研究(378篇)中,将其作为研究工具来进行人文社会科学实证研究的文献数量并不多(40 篇),仅占 10.58%,这说明现阶段,网络资源存档作为研究工具还仍有待普及。但值得注意的是,相关研究数量呈上升趋势,并且覆盖了人文社科研究的各类学科领域,呈现出多样化、跨学科的现状,从侧面反映了网络资源在多研究领域具有良好的可用性。由此,网络资源存档的持续建设与发展以及作为资料工具在更多学科领域的普及是未来可以预见的趋势。 

(2)如何妥善利用网络资源存档进行研究不仅是当前相关研究的重点,未来也仍将是重点之一。网络资源存档作为新的、在人文社科领域当前仍较为小众的资料来源,如何对它妥善利用是绝大多数先行者们关注的问题,这也是方法论相关文献占大多数的原因。许多实证研究也都在解决研究问题的同时加入了对研究方法的思考和创新,就网络资源存档的利用对后续研究提供了方法上的借鉴。这反映出当前围绕网络资源存档还未形成成熟的方法论框架和研究范式。同时,考虑到国内外网络资源存档的技术、法律规范仍处在不断发展和完善过程中,因此,网络资源存档的利用方法及方法论问题仍将是未来研究讨论的重要议题。

 (3)当前研究主题、方法多样化,体现出跨学科、垂直化的趋势。网络资源存档作为网络空间瞬息万变的信息资源的系统化再现,为人文社科研究者带来了灵活新颖的研究视角,这从40篇文献所涵盖的丰富多样的研究议题中可见一斑。横向上,文献涵盖了社会变迁、文化研究、互联网研究等人文社科研究的重要域;纵向上,文献多从历史变迁的视角展开,使稍纵即逝的网络信息展现出丰富的时间维度。此外,多种定性、定量方法的运用和创新都反映了网络资源存档与人文社科研究的良好相融性。一方面,随着存档技术的发展、相应规范的完善,网络资源存档将会与更前沿的数据分析方法相融合;另一方面,随着更多领域研究者认识到网络资源存档的学术价值,相关研究也将会向跨学科、垂直化的方向继续拓展。

 (4)国内相关研究相较国外还存在较大的差距,网络资源存档的建设与利用工作亟待结合。从国别比较来看,40篇相关文献中仅有3篇来自国内学者,反映了在网络资源存档的建设和利用上我国都还有较大的进步空间。国内其他关于网络资源存档的研究大多针对其本身,并没有将其作为研究工具进行利用。这一方面说明,我国网络资源存档的可用性相较于国外大规模、权威的存档(如IA、大英图书馆网络档案等)还有较大的差距,使研究者难以将其作为研究工具进行实证研究;另一方面也反映了国内人文社科学者还没有普遍了解、认识到网络资源存档作为研究工具和资料来源的学术价值,使其没能充分发挥作用。因此,就未来趋势而言,无论是档案工作者还是人文社科研究者都需要提升对于网络资源存档的 重视,加强相互沟通,推进网络档案建设工作与其利用实践有机衔接起来,这样才能避免网络资源存档沦为闭门造车的产物,从而使它的学术价值得到充分的利用。


作者简介

赵珞琳,博士研究生,研究方向为新媒体与网络传播


注释

① “针对网络资源存档本身进行研究的文献”,指的是针对网络资源存档工作本身的方法技术、建设策略进行研究的文献。因为本文的综述对象是“利用网络资源存档进行人文社会科学领域研究的文献”,所以有关网络资源存档本身的文献不在筛选范围内。


参考文献




*原文载于《信息资源管理学报》2019年第3期33-40页,欢迎个人转发,公众号转载请联系后台。


制版编辑 | 王小燕



论文荐读 2019年第3期 | 基于构型视角的信息行为研究:研究主题、理论构建与分析方法


论文荐读 2019年第2期 | 网络主权安全的国际战略模式研究


论文荐读 2019年第2期 | 欧盟GDPR中数据可携权对中国的借鉴研究


论文荐读 2019年第2期 | 基于CLOUD法案的美国数据主权战略解读


论文荐读 2019年第2期 | 大数据时代美国网络空间战略体系研究


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存