海量小文件,存储大问题
数据即资产,当面对着千万、上亿乃至上百亿的小文件数据资产,对于用户来说不啻于是一场“甜蜜的烦恼”,拥有如此海量的数据资产同时,担忧的是如何存好、管好。
不期而遇的小文件
一个是教育行业用户,一个是制造业用户,看起来风马牛不相及,但都与海量小文件存储不期而遇。
中部地区某省考试院:为了落实国家教育主管部门对各类学历考试的考卷,采用永久性数字式保存的要求,中部地区某省考试院在试卷数字化存储上面临的挑战是:仅以高考为例,每次都会产生百万级的小文件,而传统NAS存储在写入效率上无法满足其要求,如何提高小文件数据写入效率?如何提升文件存储数量?
国内某领先的光电元器件制造商:该企业面向工业4.0时代,在多个园区的9条关键业务生产线,正在构建智能化制造核心竞争力。为了实现产品质量检验的自动化,其生产的产品需要在出厂前,经过检验拍摄不同角度图片,并回传至预设的检验模型中进行自动比对,以检验产品是否合格。对该企业来说,最关心的是存储如何支持跨地域、24*7连续生产的海量图片小文件的读写与共享?
解决之道
对象存储中,海量小文件已成为一类非常典型的海量数据应用,文本、图片、音频都是典型的小文件应用场景。不仅仅是教育数字化过程中数字化形式保存的试卷,大量上传的教案和课堂录音,以及广电行业推流业务中面向移动端的视频内容拆条,按关键帧提取的节目海报等都是这一类应用。
在千万乃至上亿的海量小文件中,如何能够确保快速的进行数据写入,如何能够增加存储空间利用率?
海量小文件归并
XSKY海量小文件归并,采用 SSD 索引池提升小文件的写性能,当累计数据量超过设定阀值时,会将小文件以一定的规模为粒度进行合并,能够将小文件合并成为底层存储空间而优化的大文件,然后将其保存到归并目标池中,以应对海量小文件对性能和容量利用率的要求。
海量小文件归并在我们日常生活中的例子也比比皆是。春节将至,在外工作打拼的人们,往往网购一部分年货到老家,快递员从网店接到订单后将商品保存在就近分支网点,快递公司会按时间或物流网点库存情况,将商品转存至该城市中转网点,在中转站点,为了方便运输和节省占用的空间,小件货物还会进行统一、标准的打包归拢。
大量的分支网点能够大幅提升快递公司的接货能力,正如我们采用SSD来实现海量小文件大幅提高的写性能;而分支网点在收到货物后,接下来统一运送到城市中的集中大站点按标准进行统一打包运输,这好比小文件的归并。
XSKY海量小文件归并极大的优化了小文件写性能,并大幅提高了存储空间使用率,为用户应对海量小文件问题提供了参考解决方案。
小文件烦恼不再
在应对海量小文件这一问题上,中部地区某省考试院最终通过采用X-EOS对象存储平台,承载了千万级的小文件,并利用小文件归并技术极大提高了系统写入性能,经实测,千万级数据写入效率提升了15%,存储数据量可由亿级轻松提升至百亿级,不仅如此,每TB数据存储成本相对于之前采用分布式NAS方案还节约了30%。
国内某领先的光电元器件制造商,同样针对产线图片选择了在XSKY对象存储存放,并进行API 接口二次开发与现有的管理软件进行对接,同时还采用了同为未来就绪企业云联盟(F.R.E.C.O)的核心发起者——戴尔存储双活LV+异步复制软件一体化,保护关键业务系统连续性,一站式解决了该企业未来十年的IT需求。