其他
大数据背景下图书馆的数据存储策略优化研究
在大数据时代,数据的爆炸式增长超出了人类的想象,以知识存储为基本责任的图书馆应该如何应对呢?受技术瓶颈和经费短缺的限制,大多数图书馆要想全面升级换代现有数据库和提高现有存储容量是不可能的。在这种情况下,图书馆学情报学界往往把数据存储解决方案寄托于大数据存储技术的突破。事实上,这种研究是严重脱离和滞后于图书馆现实的,最终后果将会导致在大数据带来的巨大契机面前消极无为。鉴于此,本文立足图书馆数据存储的实际操作层面来探讨这一问题。
图书馆存储能力面临的挑战1. 图书馆不可能存储所有数据大数据时代,基本矛盾关系决定了图书馆不可能存储所有数据。该结论不仅对单个图书馆存储容量适用,而且对整个图书馆事业的存储能力也适用。在这种境况下,要求任一图书馆只能根据自己的读者需求、办馆特点和发展定位,有选择性地存储“有意义”的数据。但这也并非意味着对其他数据可以置之不理,因为任何数据都是有潜在价值的,只是针对不同对象而言。
2. 图书馆不易存储非结构数据大数据之所以“大”关键在于半结构数据和非结构数据(以下统称为“非结构数据”)飞速增长。
第一,非结构数据增长量大。按照大数据发生学的解释,信息技术开发与应用的高度融合直接催生出云计算、移动网络和社交平台,而它们的出现又为人们能够随时随地地利用智能手机、平板电脑或导航系统等现代通信工具去生成、发送和获取数据提供了便利和平台,于是就形成了大数据赖以存在的生态环境。据 IDC 2012 年《数据世界》报告显示,全球结构化数据增长率为32%,非结构数据增长率是65%,至2012年,结构数据的数量略高于互联网数据总量的10%。
第二,非结构数据没有相应的数据库可供存储。“非结构数据”特指那种非线性的数据类型,它主要相对于以“事务”为中心而建构起来的关系数据, 亦即“结构数据”而言的。在“小数据”时代,结构数据占统治地位,对应的 IT 架构是“关系型数据库”;在大数据时代,传统的关系型数据库已经无法直接存储这些带有异质构造性质的“非结构数据”。
第三,非结构数据占用的存储空间较大。非结构数据主要是与传感器、图像、视频、音频、微博、微信、帖子、点击等数据紧密联系在一起的,完全以“碎片”的形式存在于物理空间。在一般情况下,它们占用的物理空间都非常大且不易整理。
(3)图书馆不得不存储非结构数据目前,图书馆还习惯于存储结构数据,但非结构数据的所占有比例远远高于结构数据的比例。而这些来自人类日常生活世界且占主要份额的非结构数据同样是人类生存体验、社交对话和情感互动的缩影,同样是人类智慧的“呈现者”,因而在很大程度上更富有“隐性知识”的价值和意义。从人类生存论上看,大数据时代已经悄然来临,不管你是否意识到都已经身临之中,都必须借助数据与世界“打交道”。可见,非结构数据具有不可或缺和不可忽视的价值,所以大数据背景下的图书馆不仅要关注结构数据,而且更应该重视非结构数据。
当前,图书馆要与时俱进地进入大数据视域,就会感受到大数据对图书馆存储容量的压力。以大数据视野审视图书馆的建设,就会发现当今图书馆数据存储的难题:一方面是不能完全把控大数据但又不得不试着去存储它;另一方面是如果要存储它,又不得不面临半结构数据不易存储的问题。
坐等数据存储技术成熟是一项消极被动的路径选择图书馆界学人大多主张走第一条路径,但他们却又无时无刻不在感叹图书馆的基础设施建设的滞后。按照这样的思维逻辑推演可以预见,在大数据带来的巨大契机面前必将碌碌无为。原因有3点:一是非关系型数据库建构观念能否转变为现实还是一个未知数。很多 IT 界权威机构以及资深人士预计,还需要再经历10年以上时间,大数据存储技术的应用前景才能基本清晰。如果把解决问题的方案寄托于一个似是而非的设想,那是非常不可取的。二是建构出的非关系型数据库也不一定能解决所有数据存储问题。如前所述,大数据之“大”是因为数据总量超出人类存储、管理和处理能力。该矛盾关系始终构成大数据时代存在的现实基础,因为假如当人类有能力把控所有数据之时,数据也就无所谓“大”了。三是非结构数据还不是完全意义上的知识,不能直接运用。即使人类拥有了非关系型数据库,如果不加整理地把全部非结构数据都装了进去,仍然不是知识形态的数据。图书馆的基本职责不仅要存储知识,而且还要提供知识服务。“传统意义上的数据、信息和知识具有完全不同的概念。数据是信息的载体、信息是有背景的数据,而知识是经过人类的归纳和整理,呈现规律的信息。”这也就是说,数据要成为知识还需要一个复杂的转换过程。按照当代图书情报学的观念来讲,图书馆存储的文献资源如果是零利用率则属于资源的浪费。这不仅对纸质书籍适用,而且对数据也同样适用。这即是说,大数据给图书馆的数据存储管理提出了更高的要求。首先,要有针对性地采撷、提取、挖掘能够满足读者需求的数据。这与大数据本质完全契合,即我们不可能存储全部数据,但可以有选择地存储有用数据。其次,要把特定的非结构数据“知识形态化”。最后,要把知识形态化了的数据方便快捷地推送给读者利用。
利用现有技术推进数据知识形态化是一项积极主动的路径选择数据知识形态化就是要把非结构数据勾连、转换或改造为结构型数据。这就进入到第二条路径的语境,也是一条非常符合图书馆实际情况的大数据存储的路径选择。同时,图书馆经过多年的信息化和智能化建设,已经具有了一定的大数据存储管理的特征。这主要表现在以下4个方面:一是图书馆馆藏文献资源种类繁多,不仅有纸质印刷品资源、数据库资源、光盘资源等结构化数据,也有大量的读者信息、服务日志等大量的非结构数据;二是图书馆存储信息资源的容量也在迅速增长。单个图书馆的资源总量也许不能达到 PB 量级,但全国所有图书馆的资源加起来却是 ZB 量级的,如全国文化共享工程的资源总量就达到108 TB。由此可以看到:我们完全可以统筹安排整个图书馆行业的存储空间,再通过分布式共享,消除在数据存储过程中产生的重复数据,从而最大限度地扩展存储空间。三是根据读者需求,图书馆的采访、编辑工作也出现个性化、学科化和团队化的趋势。四是图书馆自动化水平进入一个新的水平,不仅大量读者行为信息被记载和统计,而且还能实现读者服务信息被即时传送。总之,经过多年实践积累,图书馆已经具备大数据存储管理的一些经验和优势,我们在大数据面前并非束手无策。另外,信息技术发展已经为大数据存储提供了一系列相对实用的工具系统。在数据存储方式方面,已为广大图书情报学研究者熟知的有:网络附加存储(Network Attached Storage,简称 NAS)、存储域网络存储(Storage Area Network,简称SAN)、直接外挂存储(Direct Attached Storage,简称 DAS)。在非结构数据处理软件方面,主要有 EMC、Hadoop 和 Datameer。数据转换工具主要有语义关联分析、网络分析、聚类分析、可视化分析、数据融合和数据集成等。充分利用这些现有的大数据技术,再结合已经积累的大数据存储经验,我们完全可以在大数据存储方面大展身手。
通过馆际联盟存储次重要数据由于单个图书馆存储设备容量始终是有限的,而读者需求数据又呈几何级数增长,即使仅存储核心数据也会很快“爆棚”。比如当前,综合图书馆每年必需数据增量大约为20 TB,如此浩瀚的数据量,对于一座拥有100 TB存储容量的大型图书馆也仅能满足5年左右的存储需要。因此,图书馆之间寻求合建数据存储库来实现科学数据的收集、共享和服务也成为必然选择。近10年,图书馆为解决文献资源不全而构建的“馆际互借系统”和为形成文献资源互补优势而建立的图书馆联盟都为这种分布式共享奠定了物质基础,提供了技术支撑,比如北京地区高等教育文献保障系统(BALIS)就是在北京地区高校图工委的统一领导下建构的。它采用集中式门户平台建设和分布式存储相结合的方式,不仅提高了文献资源的利用率,而且减少了单个高校图书馆的存储容积。这种模式完全可以借鉴到大数据图书馆联盟建设上。对图书馆来说,如果要想提高数据存储容量而又能规避云系统带来的安全威胁,组建或加入图书馆联盟是可行的策略之一。 这是因为图书馆之间具有很多天然的同一性,图书馆在应对潜在风险方面的立场基本一致。图书馆馆际之间合作的深化还有利于克服重复建设以及资源浪费方面的弊端。这一解决措施反映在图书馆的软硬件建设上,就必须由过去追求高端服务设施向中低端软硬件基础设施构建的大规模分布式计算机群集转变,将分块、分类的大数据复制到集群服务器节点上进行处理。
利用馆内存储来建设自己的特色数据库图书馆行业的内部竞争决定了任何一个图书馆都不愿意把自己具有核心竞争力的特色数据通过链接方式予以共享。与之相反,各图书馆都在竞相自建独具特色的数据库。而特色数据库具有高度的可靠性和安全性要求,但存储周期长、数据类型多、数据量大,这同样会对内部存储容量构成巨大的挑战。在图书馆的实际管理经验中,经常是采用整理碎片的技术来提高存储空间利用率和数据查询效率,这对小容量操作切实可行,但对于大型数据系统却是远远不够的。鉴于目前图书馆存储设备容量利用率不到50%的现实情况,提高数据库存储最有效的办法是运用大数据压缩技术。相比较于自动精简配置技术和重复数据删除两项传统压缩技术,大数据压缩技术不仅兼顾了它们两者功能,而且功效更强大,它可以针对整个图书馆系统内两个或多个文件之间数据的相同性和相似性,通过分析比较,删除多余数据,达到数据压缩的目的。图书馆在自建特色数据库时,总会遇到大量的非结构数据。在进行“数据知识形态化”过程中,针对复杂、多样的非结构数据管理需求,可以结合 OLTP、Datameer 和 Hadoop 等 IT 技术给予解决。具体操作程序是:首先利用 Datameer 提供采集和读取不同类型数据库的平台,然后将“二次生成数据”植入 Hadoop 开源框架之中,凭借其提供的分析工具对数据进行可视化分析、预测性分析、智能语义分析,从而建立“名副其实”的语义引擎,最后把“三次生成数据”进行 OLTP 技术处理。这样,原初的非结构数据经过一套蕴含多重深度分析工具程序的改造之后,就能直接存储到关系数据库之中。当然,由于“数据知识形态化”程序的技术含量高,这必然给图书馆员提出了更高层次的业务能力要求。
(文章素材来源于网络,如有侵权请联系删除)