查看原文
其他

Fred Moore:畅谈存储行业前景(3万字)

云头条 2021-04-27

Horison Information Strategies创始人Fred Moore畅谈存储行业前景


新兴概念对于左右存储行业的未来起到了重大作用。

 

本报告由Horison Information Strategies创始人弗雷德·摩尔(Fred Moore)在2016年6月份撰写,这是科罗拉多州博尔德的一家信息战略咨询公司,专门为IT公司和存储公司提供战略及业务发展提供咨询服务。他有着21年的从业经历,最初在StorageTek担任首位系统工程师,最后的职位是主管战略规划和市场营销的企业副总裁。


(要说谁是支持磁带技术的最后一个人,非摩尔莫属,他毕生坚定地支持磁带技术。)


存储行业前景


摘要


存储行业在不断发展,不仅底层技术如此,部署、管理、保护和使用存储介质的方式也是如此。眼下正是形势迅速变化、快得将来都过时的时候!


大数据分析、云计算、超融合基础设施、坚不可摧的数据保护、对象存储、软件定义存储和物联网,这些重大的新技术给了IT和存储团队设计比以往更先进的解决方案的无数理由,以满足企业永无止境的需求。存储工作负载在不断增长,现代数据中心日益需要可扩展性更强的环境来运行要求最苛严的企业应用程序。


这些因素受到了这种需要的进一步影响:面对训练有素的存储工作人员继续匮乏的形势,永远需要管理、存储和保护数据。在诸如此类的21世纪发展趋势的引导下,许多公司不断期望获得显著效率,并将IT更加变成一种服务,由此催生出了云计算,作为一种流行的服务提供技术。不妨看一看对于左右存储行业未来起到重大作用的几个新兴概念。


大数据是个笼统而广泛使用的术语,它所指的数据集(包括结构化数据,但主要是非结构化数据)非常庞大或复杂,以至于许多传统的数据处理应用软件无能为力。大数据这个术语常常指使用预测分析或其他先进的方法,从大量数据当中获取价值。由于现在非结构化数据在创建的所有数据中占到近90%的比例,大数据方面的挑战包括数据分析、捕获及精选、隐私、搜索、共享、存储容量、传输和可视化。


分析庞大而复杂的数据集可以发现新的关系,从而发掘商业趋势、预防疾病以及打击犯罪。试想一下这个挑战:100多颗绕地球运行的卫星每天生成数百TB的数据,这些数据需要及时地挖掘分析,用于趋势预测、国家安全、天气预报、人口特征统计及其他用途,这个挑战变得几乎难以想象。


云计算目前改变数据中心的速度之快可能超过其他任何技术力量。如今,云是一种主流架构,这主要是由于人们越来越认识到它是一个强大的业务推动者,助力移动及社交业务计算、数据分析以及许多数据密集型应用。在传统的IT环境下,要预测对应用程序和容量的需求,因而要投入时间和金钱以便在内部开发适当的资源,或者购买资源、在内部运作。


有了云计算,不需要客户自行拥有或管理基础设施,因而可以避免庞大的资本支出和复杂性。云存储系统通常由传统硬盘(HDD)和磁带组成,我们现在看到云俨然成了一种新的存储层。云端数据可以从任何地方来加以访问--假设该地方可访问互联网,提供了远程访问,无需物理存储设备。云计算被认为是一种颠覆性技术,正在迅速改变信息技术和存储商业模式。


冷存储(cold storage)指不大活跃或不活跃的数据,但它正成为一种热门技术。创建的数据中约70%很快变得不活跃,形成通常所说的冷存储。大容量、低成本、长期保留是冷存储的几个重要目标。冷存储解决方案青睐磁带库、活动归档概念和低成本的商用HDD。磁带存储是存储冷数据的最具有成本效益的介质,这类解决方案正融入到云基础设施中。


超融合基础设施(HCI)是一种集成式解决方案,把存储、计算、网络和虚拟化结合到单一的硬件盒子或设备中。HCI常常包括站点到站点复制、云归档、硬件加速的256位加密及其他功能。HCI专注于克服零散的数据孤岛引起的挑战,而采用各种单点解决方案来满足备份、文件服务、数据分析及其他二级存储等使用场合引起了数据孤岛现象。


HCl解决方案可能成本高昂,目前最适合小规模部署和中小企业领域的次级应用。针对较大规模的环境,由于成本和可管理性等方面的原因,HCI还没有成为首选的解决方案,但将来这种情况或许会有所变化。


对如今的大多数IT策略来说,坚不可摧的数据保护和数据恢复已成为一个首要的因素。据身份盗窃资源中心(ITRC)发布的一份最近报告显示,2015年跟踪统计的美国数据泄密事件共有781起,这是自ITRC在2005年开始跟踪统计泄密事件以来创第二高的年份。不过每起数据泄密事件给声誉造成的影响不一样。


数据泄密事件给客户会不会再次与公司联系带来了显著影响。由于软硬件方面的问题、不怀好意的人、安全泄密、盗窃和自然灾难等,许多企业在为数据保护作规划,之前对规划从来没有这么重视过。如果企业未能堵住安全漏洞,问题只会变得更糟糕,因为全球各地在出台更严格的管理数据泄密报告的法规,因而泄密事件更容易被公众所知道。


基于对象的存储正受到追捧,这是一种软件定义的存储技术。说到如何管理数PB的数据以及包括几亿、乃至几十亿非结构化数据对象的归档,IT部门面临日益复杂的问题。


就对象存储而言,非结构化数据用对象ID及进一步描述对象的丰富元数据来加以存储和访问。对象存储可以提高底层存储的规模和灵活性,会在可预见的未来,与文件存储系统和块存储系统共存。


对象存储可实施在多个层面,包括设备层、系统层和接口层。在每一个层面,对象存储力求实现其他存储架构所欠缺的功能。


软件定义的存储(SDS)是一个迅速发展的概念,它使用存储软件,以便极其高效地使用基于策略的配置,以管理存储设备,从而让存储显得独立于底层硬件。SDS通常实施一种存储虚拟化技术,将存储硬件与管理存储基础设施的软件分开来。SDS为定义和管理硬件系统提供了显著的灵活性和易用性。


物联网是实体物件组成的网络,这些“物件”嵌入了电子元件、软件、传感器和网络连接,从而让这些物件能够收集、存储和交换数据。物联网有望将互联网从一个人与信息交互的网络,变成众多设备、机器、部件、系统、自动驾驶汽车和人彼此交互的网络,每天生成大量的信息。


众多业内人士估计,到2020年,物联网将把250多亿个“物件”连接到互联网。如果某物件有IP地址,可以连接到互联网,它就可能成为物联网的一个节点。过去花在把物件连接到互联网上的精力比花在确保安全上的精力多得多。物联网的问世还标志着,信息安全系统必须有效地堵住一系列全新的、比过去要复杂得多的漏洞。物联网有望全面改变安全行业。


日益需要先进的存储解决方案


数据增长和存储要求


2016年存储场景


  • 全世界总人口超过 73亿,亚洲总人口超过 40亿。

  • 互联网用户超过33亿(46%)。

  • 68亿手机用户。

  • 2013年数字数据总量4.4泽字节(ZB),到2020年将增至44 ZB(每两年翻一番)。

  • 2020年,44ZB相当于全球每人5.2 TB。

  • 所有数据中约42%是重复的(至少重复一次)。

  • 所有数据中约33%是压缩的(2次)。

  • 所有数据中约5%是瞬态的(临时的)。

  • 所有数据中7%是非结构化结构(很难浏览)。


注意:创建的数据量≠存储的数据量


按商业价值对数据进行分类

并非创建的所有数据都一样!



数据缩减后需要多大的存储空间?

(2020年以ZB计量)


资料来源:EMC、IDC和Horison, Inc.


  • 据估计,新创建的数字数据每两年翻一番,现在由数十亿人在生成,而不是像过去那样仅仅由大型数据中心在生成。

  • Nasuni公司预计,每天创建的数据为2.5艾字节(EB);由于全球33多亿互联网用户和68亿手机用户,这个趋势愈演愈烈,这个市场远未饱和。


大数据和物联网可能最终会使每年的数字数据增长率接近100%,从而引来庞大内容时代,需要拥有高度智能化存储技术的百亿亿次(exascale)存储系统应对这种增长。


  • 如今全球90%的数据是在过去两年创建的,其中绝大多数在比较短的时间内进入到归档状态。

  • 将来需要新的数据管理方法:数据缩减、Hadoop、分级存储管理(HSM)、并行文件系统、向外扩展型文件系统、软件定义存储、分散存储和独立磁带冗余阵列(RAIT)。

  • IT安全、数据保护、高可用性和灾难恢复的规则将发生变化。


创建的数据量常常被错误地认为与存储的数据量一样,这对容量规划工作的准确性有很大影响。重复数据删除和压缩等数据缩减技术减少了所需的物理存储量。


此外,多达5%的数据是瞬态数据,只在事务或会话持续的时间内存在,并不永久存储,进一步降低了净存储要求。由于“保存一切”的惯常做法,至多5%的数据被有意删掉。因而,生成的数据量和所需的净存储量不一样。


分层存储体系



存储解决方案的选择从未如此众多,其中许多选择代表存储体系的某一层。许多企业在实施分层存储(tiered storage),大幅降低成本、提高运营效率。如今的选择种类繁多,从体系结构顶层的超高性能的固态硬盘(SSD),到底层容量很大、成本很低、性能很低的存储介质。每一层提供了先进的数据管理功能,以及一系列广泛的数据保护和安全功能。


分层存储是指这种方法:将分门别类的数据分配到不同类型的存储解决方案,以降低总的存储成本,同时仍满足服务级别要求。云计算成了一种新的存储解决方案,可以把SSD、HDD和磁带合并到其自己的分层体系中。


分层存储的主要参数之一就是适用于大多数数据类型的数据老化曲线(aging profile)。大多数类型的数据老化后,访问它们的可能性就会下降,数据逐渐进入到归档状态。分层存储是数据生命周期管理的一个基本原则。分层存储策略可能用到2个、3个或4个存储层,4个存储层提供了成本和性能的最佳组合。


分层存储的基础在30多年前就开始出现了,当时磁盘、自动磁带库和先进的基于策略的数据管理软件(现在名为HSM)结合起来,把不太活跃的数据有效地迁移到不大昂贵的存储设备上。实施分层存储的商业理由很充足,存储池变得更庞大后,理由变得更充分了。


第0层(又译成主存储层,Tier 0 Storage)

存储级内存和解决方案


SSD场景


存储级内存――几种SSD和混合存储实施



  • 第一只SSD出现在1978年(STK 4305,每MB售价8800美元,这是DRAM)。

  • 全闪存阵列(AFAS)和混合闪存阵列(HFA)呈爆发式增长。

  • 现在SSD的容量是15.36TB(SAS)。

  • 每秒输入/输出操作频繁的应用、数据库、联机事务处理(OLTP)和高性能计算(HPC)突发缓冲。

  • 非易失性、低功耗(只有HDD的三分之一)。

  • 无活动部件、可靠性高――位误码率(BER)1 x 1017

  • 读取存取时间:0.2毫秒,存取时间比HDD大概快 50倍。

  • 闪存的成功在全面影响HDD(从企业级HDD到桌面级HDD)的销量。

  • 3D NAND技术崭露头角。

  • 第0层就关注性能!


存储级内存(SCM)设备(第0层)用DRAM、闪存或硅芯片做成,而不是用旋转盘片或流式磁带做成,被称为SSD。第一款成功的SSD产品是StorageTek在1978年针对IBM S/370大型机市场开发的,每MB标价高达8800美元。换成今天的价格衡量指标,这相当于每GB售价880万美元!


虽然HDD在不远的将来仍是联机存储容量的主体,但由于HDD日益被闪存SSD取代用于高性能应用、被磁带取代用于低活动归档应用,它在存储体系中的地位受到了挤压。


影响这个转变的几个关键因素包括:相比最快速的HDD,SSD的每秒输入/输出性能要高得多,能耗降低以及闪存每GB的成本在迅速下降。


展望未来,如今SSD在容量方面已超过HDD,3D NAND架构指日可待,容量会大幅提升。然而在过去十年间,闪存的基本性能只是略有提升(读取、写入和擦除延迟)。新的解决方案将专注于降低成本、增加有效的存储容量,最终处理这类特定的云工作负载:以读取为主,在写入性能和耐久性方面没有严格要求。


闪存现在广泛应用于从超级计算机、台式机到个人设备的众多领域,这种广泛的吸引力使得闪存存储用于数据中心显得日益具有成本效益。预计用相变存储器(PCM)等非易失性存储器(NVM)做成的速度快得多的SSD有望最终取代闪存,成为首选的第0层介质。


主要的闪存架构



传统的混合闪存阵列结合比较小的闪存介质容量和容量大得多的HDD,使用块级存储分层,以同等成本提供比独立HDD更佳的性能。


AFAS完全使用SSD,提供了很高的性能级别,而延迟最低。像压缩和重复数据删除等缩减技术,结合更大容量的SSD,可以让全闪存的成本更接近HDD的水平。预计有望提供一致性能,又不影响弹性、可扩展性和数据移动性的全闪存阵列会稳步扩大市场份额。


融合型闪存阵列是一种新的全闪存阵列,它还可支持磁盘介质,提供了AFA的高性能和零延迟、混合阵列的低成本以及支持文件、块工作负载和对象访问的统一阵列的灵活性。这种新型内存级存储阵列支持HDD以获得容量上的可扩展性,还能够在数据老化时,将数据分配和自动迁移到HDD。


3D NAND闪存仍处于发展阶段。2D NAND闪存广泛应用于手机、家电、平板电脑和SSD,成本变得日益低下,功能变得日益强大。最终,3D NAND闪存在多少数据可以塞入到特定面积的硅片方面会遇到瓶颈,因为2D NAND闪存在晶粒(die)表面上的长度和宽度方面无法进一步的扩展。


NAND闪存的写入周期次数是有限的,单个存储单元(cell)开始失效后,NAND通常会逐渐出现故障,整体性能随之下降,这个概念名为写入疲劳或耗损,这促使闪光厂商实际的存储容量比标称容量做得更大。2D NAND闪存有巨大的规模经济效应,已在全球各地的制造工厂投入了数十亿美元成本。


为了克服2D NAND的某些限制,闪存厂商在努力为闪存存储单元增添第三个维度,这就是所谓的3D NAND或3D NAND堆叠。这种新的3D NAND技术垂直堆叠闪存存储单元,堆成32层,以获得可装在标准封装件里面的256GB MLC和384GB TLC晶粒。


仅仅通过增添更多层,3D NAND不需要减少维度;相比2D NAND,速度快一倍,而功耗只有二分之一,每平方英寸的存储单元数量提升一倍,在增加容量的同时,还将存储单元的耐用性提升10倍。随着对第0层的需求迅速增长,3D NAND和相变存储器(PCM)是不久有望取代2D NAND的最佳选择。


第1层存储和第2层存储

HDD技术和解决方案


磁盘存储场景



  • HDD容量以20%至30%的速度增长,磁录密度的增长在放缓。

  • 目前HDD的最大容量是10TB(SAS)。

  • HDD的利用率低下(低于50%),增加了最终用户的成本。

  • HDD在未来的性能提升空间极小。

  • RAID重构时间较长――预计分散存储和纠删码会取代RAID。

  • 可靠性(BER)已落后于磁带。

  • 叠瓦式磁记录(SMR)有助于克服物理限制(磁道重叠)。

  • 部署的自加密硬盘(SED)仍然极少。

  • HDD可支持所有的数据类型和要求。


HDD(HDD驱动器或纯粹的磁盘)一向是存储行业的主力,可以处理任何数据要求。第1层HDD比第2层HDD更快速、更可靠也更昂贵。光纤通道和SAS驱动器通常用于第1层,SATA驱动器用于第2层。预计HDD容量会继续以每年16%的速度提增,到这个十年底有望达到20TB至40TB,同时仍保持基于行业标准的3.5英寸规格。


展望未来,HDD在未来的扩展速度方面存在很大的不确定性,这归因于克服超顺磁性效应( )方面面临挑战,加上何时推出让HDD继续扩展所需的新技术以及最终能否成功存在不确定性。容量为10TB的HDD在开始满足业界的大容量、随机存取存储要求,但是想提供更大的容量和更高的性能,面临几大挑战。HDD性能近些年来没有多大的提升。


如今HDD厂商试图在未来几年保持销量,但面临其他挑战,那是由于闪存在高性能市场获得更多的份额,而磁带作为长期存储介质变得更具成本效益、更可靠。实际上,一切归结为价格。闪存和磁带的价格一直在迅速下跌,预计未来几年会延续这个趋势,因而对HDD厂商构成越来越大的挑战。


在今后几年,HDD厂商希望,像热辅助磁记录(HAMR)和叠瓦式磁记录(SMR)这些可以提高磁录密度的技术会迅速投入使用。结合充氦的HDD技术,这些有望做出密度比前一代产品更高,而功耗和散热量更低的磁盘。


几种新的HDD概念问世



HAMR是一种面向HDD的数据记录技术,小小的激光器被用于加热磁盘表面上写入数据的那部分。热量在短时间内改变磁盘的磁特性(“矫顽磁力”),从而在写入过程中缓解或杜绝超顺磁性效应。


HAMR的效果在于允许数据写入到比之前小得多的空间,大幅增加保存在标准磁盘盘片上的数据量。HAMR起初被认为很难实现,这让人对其商业可行性产生了一些疑问。截至2016年,目前市面上还没有出现采用HAMR的HDD,但HAMR继续处于开发的后期阶段,厂商在生产演示磁盘。


充氦HDD并不是HDD行业的全新产品,因为40多年来一直在考虑使用氦。然而,没有一家公司能做出性能稳定的产品,因为氦很容易从其容器泄露出去,就像充氦的生日气球几天过后就会瘪下去。


充氦HDD泄漏的后果要严重得多,因为磁盘会停止工作,根本无法访问数据。如果泄漏问题得到有效解决,充氦磁盘使用较低的能耗即可旋转磁盘(由于相比空气阻力更小,旋转起来更顺畅),散热量更低,还可以在同一空间堆叠数量更多的磁盘。充氦硬盘目前使用7块盘片,盘片数量从5块增加到7块让表面积增加40%,因而存储容量比5盘片硬盘增加40%。


自加密硬盘(SED)充分利用内置到磁盘驱动器控制器的硬件,控制器负责加密写入到磁介质上的所有数据,并自动解密从介质读取的所有数据。所有SED自出厂就一直加密,运行起来与其他任何   HDD无异,加密过程对用户来说完全透明。用户提供的密码被硬盘用来加密或解密介质加密密钥。这样一来,如果不知道密码,连介质加密密钥都无法知道。


按照设计,SED在磁盘驱动器控制器里面完成所有的加密,这意味着磁盘加密密钥从不放在计算机的处理器或内存中,因而黑客搞不到密钥。虽然有无数的数据安全威胁,但是由于IT安全专业人员通常不参与购买决策,市场接受SED的步伐缓慢。另外,由于HDD供应商通常将产品卖给OEM供应商和分销商,对于SED的需求不大。鉴于众多重大的数据泄露和黑客活动促使加强数据安全的要求迅猛增长,这确实令人费解。


SMR是一种比较新的HDD记录技术,于2014年首次问世。与充氦磁盘一样,SMR技术让HDD可以获得比传统存储方法更高的容量。SMR实现更高磁录密度的方法就是重叠磁道(相当于屋顶上的木瓦),让更多的数据可以被写入到同一地方。新数据写入后,磁盘磁道被修整(即叠瓦)。由于磁头上的读取元件比写入元件更小,所有数据仍可以从被修整的磁道来读取,而不危及数据的完整性或可靠性。


此外,传统的读取和写入元件可用于SMR,让SMR HDD能够有助于管理成本,避免研发新技术。SMR带来的容量增加限制了随机写入性能,而顺序读取/写入和随机读取性能类似现有的HDD。这使得SMR磁盘特别适合流数据、数据归档和不大活跃的数据。


纠删码日益受到追捧,那是由于不断增加HDD容量已让HDD RAID重构时间对许多企业来说实在太长了,接受不了。大容量HDD可能需要好几天才能重构,因而鼓励企业取代用于硬件故障保护的RAID。因而,纠删码等替代的冗余技术随之兴起,以弥补RAID的不足。纠删码是一种数据保护方法:数据被分成了片段,用特定数量的冗余数据片段来扩展和编码,并存储在不同的位置,比如HDD、存储节点或地理位置。


纠删码的目标是,使用存储在阵列里面、或者甚至存储在另一个地方的数据方面的信息,能够重构损坏的数据。纠删码的工作原理是,创建一个数学函数以描述一组数字,可以核查这些数字的准确性,如果某个数字丢失,就加以恢复。这有时被称为多项式插值(polynomial interpolation)或超采样(oversampling),这是纠删码方法采用的基本概念。


纠删码占用的存储空间也比磁盘镜像少得多。纠删码的高CPU使用率和延迟使得它更适合这种存储环境:拥有庞大的、中等活跃的数据集,以及数量相应众多的存储元件。


磁盘上有什么?



为了应对数据增长,少关注提高容量分配效率、多关注提高容量使用效率带来了更大的好处。让许多人颇感意外的是,磁盘驱动器平均被分配了约60%的总容量,而总容量中只有40%含有活跃(实际)数据。存储在普通磁盘上的数据中约60%至70%是相对不大活跃的数据,以及很少访问的、极少改变的数据,因而让这些数据在比较短的时间内成为一种出色的归档对象。


其余磁盘容量被系统开销、闲置空间、孤立数据、未知文件和各种数据副本所占用,如果这些数据副本能从磁盘或闪存存储系统迁移出去,就能够让大量成本高昂的主存储重新派得上用场,因而重塑存储容量需求和成本曲线。


存储管理器常常对高容量磁盘驱动器做“短行程”(short stroke)处理,尽量减少机器磁盘臂的移动(寻道时间)活动,为此只将HDD容量的一小部分(通常不到20%)分配给对性能敏感的数据,让磁盘容量的剩余部分处于未分配、未使用的状态。


如果你借助短行程机制限制容量,最低性能就极其接近最高性能,磁盘整体性能会有所提高,但是一大副作用是容量大大降低。比如说,采用短行程机制的6TB磁盘驱动器可能只用1.2TB,4.8TB未使用,不过这部分需要花钱,而且占用场地空间和耗电。明智而谨慎地使用SSD可以支持高性能应用需求,同时提高磁盘分配效率。


活动(实际)的HDD数据可以按价值来分类:从关键任务数据到非关键数据,不一而足;典型的数据分配价值已在上面显示。从特定数据集或文件的价值来看,就可以分配适当的数据保护方法,以确保最高级别的可用性。


HDD面临的挑战:容量与性能相冲突


衡量HDD性能的指标



  • HDD性能并没有随容量增长或服务器速度的提升而同步扩展。

  • 未来HDD的性能提升空间极小。

  • SMR增添了多达25%的容量,可是写入速度比较慢。

  • 存取密度延长了响应时间――驱动臂争夺现象更严重。

  • HDD容量增加后,存取密度会继续下降。

  • HDD容量增加后,RAID重构时间会增长(N天)。

  • 眼下对高性能和混合磁盘类别:SSD(第0层)有更多的需求。


HDD行业目前面临前所未有的挑战;因而,企业存储领域出现了一个根本性的转变。这个转变的核心就是这个事实:磁盘的速度没有大大加快,但是容量大大增加了。磁盘容量每年以16%的幅度递增,但是旋转速度或寻道时间在短期内很少有什么改进。


衡量磁盘驱动器性能的主要指标名为存取密度(Access Density),它是指磁盘每秒输入/输出的性能与磁盘容量(GB)之比。如果性能没有相应的提升,磁盘容量增加会继续降低存取密度,并降低有效性能和响应时间。这种局面在可预见的将来似乎不会有变。存取密度下降的趋势促使第0层内存级存储解决方案出现,以处理性能更高的数据。


另一个因素与磁盘驱动器的容量稳步增加有关,结果是远离高容量的HDD RAID阵列。自上世纪80年代后期以来,RAID就被用于防范HDD故障。重构RAID阵列取决于从阵列中的剩余磁盘读取整个磁盘的数据。


子系统的整体活动越多,HDD容量越高,重构时间也就越长,重构常常要好几天才能完成。RAID重构时间至关重要,越来越被存储管理员所关注,因为重构过程中性能会下降。子系统中的多只失效磁盘会导致重构时间还要长。


第3层存储

磁带技术及未来


磁带存储场景



  • 出货的磁带驱动器中超过85%是LTO(出货的LTO容量超过100000PB,即100EB)。

  • 磁带驱动器的可靠性、数据传输速率和容量已超过磁盘。

  • 磁带的原生容量为10TB,超过压缩容量25 TB――磁带的容量最高。

  • 磁带的原生数据传输速率为360MB/s。

  • LTFS为磁带提供了一种通用、开放的文件系统。

  • 磁盘通过重复数据删除技术,在备份应用领域从磁带手里夺得一些份额。

  • 磁盘在归档应用领域输给了磁带――由于成本因素、可靠性和介质寿命。

  • 所有数字数据中超过70%被分类为第3层――归档和固定内容。

  • 由于总体拥有成本,云积极采用磁带解决方案用于归档服务。


磁带确立了其针对新的使用场合有效地管理增长极快的数据方面的长期角色,磁带行业继续迅猛发展。LTO和企业磁带产品继续提供每只磁带盒前所未有的存储容量,相比其他所有现有的存储解决方案,总体拥有成本最低。


稳定发展已使磁带技术成为市面上最可靠的存储介质,现在可靠性比HDD高出三个数量级。磁带完全有能力有效地支持许多数据密集型行业(包括云、娱乐和互联网),满足这一业务需求:为大数据、备份及恢复、归档、灾难恢复和合规等应用确保可以“永远”访问数据。


请记住,磁带和磁盘各自满足不同的存储需求。磁盘技术一直在进步,但让许多人惊讶的是,磁带在过去十年的进步还要迅猛。企业磁带每只磁带盒的原生容量达到了前所未有的10TB,压缩容量为25TB(2.5:1),原生数据传输速率达到360MB /s。


企业自动化磁带库可扩展到超过1EB的水平,这标着百亿亿次存储解决方案的到来。开放系统用户利用新的LTO-7格式,现在可以在一只6TB原生磁带盒上存储相当于多达240部蓝光质量影片的数据。将来,一只LTO-10磁带盒就能存储多达1920部蓝光影片的数据。如今的现代磁带产品与前几代产品截然不同。


磁带容量加快增长



2014年4月30日,索尼公司宣布推出具有细磁颗粒和统一结晶方向的纳米晶粒磁层,磁带存储介质的磁录密度达到每平方英寸1480亿比特,因而每只数据磁带盒可存储超过185TB的非压缩数据。


2015年4月,富士胶片记录介质美国公司宣布,与IBM一道实现了在钡铁氧体线性磁颗粒磁带上的磁录密度达到了每平方英寸1230亿比特。这有望在一只标准的LTO磁带盒上获得220TB的非压缩容量。


INSIC磁带技术路线图表明,有望以之前的速度继续扩展磁带技术,至少在今后十年如此,因为磁带在可预测的将来在容量方面很少面临限制。


INSIC路线图表明,近些年来,磁带的磁录密度一直以约33%的速度提升,预计在可预见的未来也会如此。2003年至2009年,HDD的磁录密度增长率是每年35%左右。最近,2009年和2015年,HDD磁录密度的增长率降到了每年约16%。


HDD中盘片和磁头数量的增加在一方面弥补了磁录密度增长减慢的这种窘境;然而,当前HDD容量的增长速度还是比以往慢得多。相比之下,最先进的磁带驱动器的磁录密度比最新的HDD小两个数量级。


因此在至少今后十年,可以继续以之前的速度扩展磁带技术,之后磁带开始面临与超顺磁性效应有关的类似挑战。尽管磁带的磁录密度比HDD低得多,但是磁带在容量方面较之HDD具有优势,那是由于磁带盒中的记录面要大得多,大约是3.5英寸磁盘盘片面积的1000倍,因而不需要一样高的记录磁录密度,就能在每GB成本方面获得优势。


保持磁带盒容量每两年大致翻番的历史增长速度,让磁带系统得以继续保持、极可能加大相比磁盘的成本优势。另外,磁带的数据传输速率预计会提高22.5%,HDD性能的增长速度预计不会有所提高。牢记一点:对任何存储介质而言,在不提升性能(存取时间和数据传输速率)的情况下增加容量会引起存取密度下降。


磁带介质的归档时间最长


> 30年



  • 氧化是磁颗粒(MP)退化、导致数据可能丢失的主要原因。

  • 钡铁氧体是一种新型的磁颗粒,尺寸可大大缩减,在磁信号不丢失情况下提高记录密度。

  • 然而,钡铁氧体介质已经被氧化,寿命比磁颗粒磁带更长。

  • 磁颗粒在30年后磁信号稍有下降,不过并不有损读取/写入性能。注意:平均的HDD寿命是4.1年。

  • 钡铁氧体能承受逼真的存储环境模拟,证明了其在30多年间的可靠性和稳定性。

  • 钡铁氧体用于T10000、TS11xx和LTO介质。


钡铁氧体介质的问世让介质寿命远远超过之前的磁带格式,写入到磁带上的数据在30年或更久后仍可以读取。磁带由极小的“磁颗粒”组成,磁颗粒均匀地分散和涂覆在磁带表面上,然后名为“比特单元”(bit cell)的小存储单元写入到上面。


多年来,磁颗粒是主要的磁带介质类型。磁颗粒主要由铁(Fe)做成,因此最终会氧化,磁性会下降。为了减慢这个过程,磁颗粒的外层有意一开始就氧化。LTO-6之前的所有几代LTO磁带盒都使用磁颗粒。


相比其他金属颗粒,钡铁氧体提供更大的存储容量,具有噪声更低、频率更高的特性。钡铁氧体用氧化物制成。因此,它不会逐渐因氧化而丧失磁性,钡铁氧体介质的标称寿命是30年或更久。因此,磁带盒的寿命极可能比底层驱动器技术和软件系统还长。用户应部署这样一种磁带策略:自动将磁带数据从旧技术转移到新技术,要明白最现代的磁带驱动器能读取新介质和两种之前版本的介质。


由于这项功能,典型的磁带驱动器在换掉之前可以轻松用上6年至8年。钡铁氧体磁带已成为未来几代磁带的首选的记录技术,因为需要更小的颗粒来获得高出一大截的磁带盒容量,同时提供所有磁记录介质中最长的介质寿命。


磁带的未来预测


(资料来源:2015年信息存储行业协会)


磁带技术的未来前景为磁带主要指标的大幅提升描绘了一张诱人的路线图。尤其是,磁带盒容量预计每年的增长率会超过40%,而数据传输速率在今后六年会翻一番。其他关键参数如上所示,它们为磁带描绘了大好前景。


除了传统的备份、恢复和灾难恢复等角色外,诸多磁带存储特性增强了磁带对许多新的数据密集型和长期存储应用的吸引力,比如加密、WORM、LTFS以及活动归档,LTFS是一种通用、开放的文件系统,它对磁带进行了分区,便于文件存取。


廉价磁带冗余阵列(RAIT)这个概念已存在了近20年,但还不是一种主流产品。这种情况可能很快有所变化,充分利用磁带的快速流数据传输速率和出色的可靠性。RAIT架构是高可用性的冗余磁带阵列,同时拥有数据分段和奇偶校验功能,好比用于磁盘阵列的RAID-3、RAID-4、RAID-5或RAID-6。RAIT这种方法聚合物理存储卷,以创建庞大虚拟卷,同时消除了单一故障点,在某些情况下消除了底层物理磁带卷中的多个故障点。


RAIT还借助数据分段,提高了数据传输速率,因为数据路径分布在更多通道上。RAIT对于磁带的快速顺序读取和写入而言最高效。由于磁带的顺序性,写入始终按顺序操作,这使得RAID对于以写入为主的归档而言很高效。相比镜像,RAIT还能以更少的磁带盒提供更高的可用性,提供的磁带系统吞吐量要快得多。


磁带架构方面的说明


  • LTFS――LTFS大大增强了磁带的功能和易用性。

  • 容量――目前,磁带盒的原生容量是10TB,压缩容量是25TB。

  • 可靠性――磁带驱动器的可靠性(1 x 1019)超过了磁盘驱动器的可靠性(1 x 1016)。

  • 能耗――磁带的能耗远低于其他任何数字存储技术。

  • 介质寿命――对企业级磁带和LTO而言,磁带介质的寿命至少是30年。

  • 总体拥有成本――磁带存储的购置成本较低,总体拥有成本通常只有磁盘的1/15左右。


LTFS是2010年宣布的;由于磁带传统上更长的顺序搜索时间让位于使用熟悉的拖放技术的更类似磁盘的存取,磁带存取长期以来的规则终于发生了变化。


LTFS分区功能最先出现在LTO-5格式上,对磁带进行分区以改善数据存取,其办法是能够对文件标注描述性文本,以便更快速、更直观地搜索磁带盒和磁带库的内容。


磁带得益于磁带库、驱动器、介质和文件管理软件等方面重大的开发和生产投入,能够有效地适应这一形势:不断需要增强的可靠性、更高的容量、能耗效率、所有存储解决方案中最低的每GB购置成本和总体拥有成本。


磁带的可靠性已达到1x 1019的误码率(BER),因而高于其他所有存储介质。IT主管和云服务提供商在支持充分利用磁带,以获得显著运营和经济优势的新型应用和服务。


由于未来磁带技术有着大好的发展前景,许多数据密集型行业和应用领域已经开始或即将开始得益于磁带的持续进步。很显然,创新、诱人的价值主张和新的开发工作表明磁带技术并未停滞不前。


磁带已由主要是备份解决方案这一历史角色,变为专门满足一系列更广泛的存储要求,包括数据归档和灾难恢复服务。


几项关键技术带来了众多改进,包括使用钡铁氧体介质后,磁带盒容量出现了前所未有的增加,相比磁带大大改进了误码率,介质寿命要长得多,数据传输速率比任何之前的磁带或磁盘技术都要快。


对所有新的LTO和企业级磁带而言,介质寿命现在达到了30年或更久,这使得磁带成为市面上最安全的长期数字归档存储介质。今天的现代磁带技术与过去的磁带截然不同,预计基于磁带的解决方案会支持未来一系列更广泛的应用领域。


云存储进入主流


云服务驱动对磁带的需求


云计算――混合云、私有云和公共云:


在公共Web 2.0、可能在专有内联网上交付计算应用软件的几种方法。


  • 将计算周期和存储问题移到别处。

  • 云并不适合每个人!


主要挑战:


1. 安全

2. 标准

3. 随时可用的数据


云存储――云端磁带已到来:


  • 采用LTFS的企业级磁带和LTO是云的关键支持因素。

  • 磁带盒容量以前所未有的速度增长。

  • 总体拥有成本和原始硬件成本偏向于磁带,而非磁盘(磁带成本是磁盘的1/4至1/15)。

  • 最适合于归档、固定内容、合规、流媒体和记录。

  • 预计在今后5年,云存储和服务的年增长率在100%左右。


“新的磁带功能在改善云归档的经济模式。”


从改变数据中心的所有技术力量来看,论影响之大,没有一个比得上云计算。如今,云是一种主流架构,这主要是由于人们日益认识到云的这个角色:对移动和社交业务、分析和创新而言是一种强大的业务驱动因素。云计算用于存储服务,就叫“云存储”。


云存储因简单、低成本的存储解决方案而备受青睐。它把数据保存到由第三方托管的异地存储系统(公共云),或者为单单一家企业托管的存储系统(私有云)。由于数据总量急剧增加,将不大活跃的数据完全放在HDD上变得成本越来越高,各大云服务提供商获得了将磁带实施在云基础设施中的成本效益。


IDC表示,云IT基础设施的增长超过了整个IT基础设施市场的增长,在过去一年增长了25%。云存储平台在整个存储市场略有增长,在2015年出货的总存储容量中估计占有4.7%的比重。


据Statista公司声称,到2016年,云存储行业的收入预计约40.4亿美元。到2020年,所有数据中超过三分之一预计驻留在云端或通过云来传输。70%以上的企业和IT专业人士已经实施了云存储系统,或者打算在不远的将来实施。你会把什么放在云端?



云的关键定义


云计算包括软硬件资源,这些资源在互联网上作为托管型第三方服务提供给用户。这种服务依赖先进的应用软件和服务器计算机组成的高端网络。云计算系统通常旨在支持大量的并发用户和不可预测的需求激增。带宽依然非常昂贵;如果活动变得很频繁,带宽可能是使用云服务时要考虑的一大因素。


公共云由某家提供商拥有和运营,提供商让用户可以访问低成本计算资源的公共网络,并为许多企业提供存储资源(多租户)。有了公共云服务,用户无需购买硬件、软件或支持性基础设施,这些由云服务提供商拥有和管理。对非结构化数据应用和不想操心IT事务的公司来说,公共云大受欢迎。


私有云是专门为某家企业运营的基础设施,无论由内部工作人员管理还是由第三方管理,无论托管在内部还是托管在外部。私有云是最常用的一种云,最适合这类用户:更喜欢定制,想充分利用云的经济效率,同时提供资源方面的更大控制权、避免多租户模式。


混合云采用私有云基础,并结合使用公共云服务。它至少包括一个私有云和一套公共云基础设施。比如说,一家企业可能将频繁使用的结构化数据(数据库)存储在私有云,以改善性能,将非结构化的归档数据存储在公共云。现实是,私有云无法孤立于公司的其余IT资源和公共云而存在。建有私有云的许多企业会逐渐使用私有云和公共云来管理数据中心上的工作负载,因而组成混合云。


云存储网关是部署在客户处的一个设备,充当本地应用程序和基于云的远程存储系统之间的桥梁,可消除用于公共云技术的协议和遗留存储系统之间的不兼容性。网关可以让云存储如同是NAS文件管理器、块存储阵列、备份目标,或者甚至应用程序本身的一种延伸。现在大多数公共云提供商依赖互联网协议,常常是基于HTTP的充分利用REST的API,而不是传统的SAN或NAS协议。如今的许多云存储网关产品提供数据缩减技术,比如压缩和重复数据删除,这可以使昂贵的带宽用起来更具成本效益,并且尽快移动数据。


云存储要求


私有云、公共云或混合云


对云存储越来越高的期望


  • 出现归档云和灾难恢复云――云层。

  • 大规模可扩展的存储,可以扩展、分析、适应并提高性能。


最佳实践支持云存储效率


  • 按需分配。

  • 实时压缩和重复数据删除――最多可节省80%的空间。

  • 第3层(磁带)用于云端归档,总体拥有成本只有HDD的1/4至1/15 。

  • 对HDD实行自动精简配置,最多可将利用率提高35%。


云端数据保护/安全性/ 高可用性


  • 借助加密和WORM,确保多租户模式安全。

  • 远程镜像、远程存储库和地域分散的云站点。

  • 文件复制和文件级快照,用于业务连续性和灾难恢复。


数据管理


  • 支持统一的SAN及NAS(块和文件)以及对象存储。

  • 支持NFS/CIFS/FTP/HTTPS等文件协议。

  • 基于策略的管理,结合用户定义的策略,对数据进行分类。

  • 主动归档提供了存取时间优化机制。


云存储系统


扩展后可支持数十亿的并发用户。它们提供必须永久保护、可抵御拒绝服务攻击,并经受得住随时随地的大规模灾害的数据存储和检索。


关键挑战――安全!


上图显示了许多常见的云需求。越来越多的公司在借助云来解决不断增长的存储要求:公司的数据存储起来,可通过多个分布式和联网设备来访问。存储扮演了至关重要的角色,因为“高性能云和归档云”的问世有赖于它。由于延迟和带宽速度方面的限制,使用云来存储对性能敏感的文件尚不现实。每秒输入/输出流量密集的本地第0层和第1层事务型应用仍是未来的挑战,对云服务来说也是发展机遇。


首选的云存储解决方案应该能够扩展,可根据需要适应额外的存储容量,并且能够使用基于策略、对用户透明的系统来这么做。比如说,可设定策略,一旦延迟达到某个值或吞吐量需求发生变化,就分配存储资源。安全历来是使用云服务所面临的主要挑战。


虽然公共云由多个客户(多租户)共享,但一家公司的数据应该只由拥有数据的那些人才能看见或访问。可通过许多方法来确保对数据的访问,主要是借助加密,确认只有相应客户拥有该数据集的加密密钥。


另一个要求是,存储在云端的数据并不被某个特定的物理位置束缚。相反,云数据很分散,那样即便一家公司位于东海岸,由于信息存储在相隔千里的多个地方,用户不会受到任何影响。云用户需要能够移动和访问文件和对象,预期的响应时间基于服务级别协议(SLA)。如果一个数据中心停运,用户应该仍能够在不受影响的情况下访问数据。


(因公众号字数限制,下半部分点击“阅读原文”。继续观看)


云头条编译|未经授权谢绝转载


相关阅读:

高端IT圈人群,欢迎加入!

如何存储泽字节(ZB)级的海量数据?

Gartner:2016年全球公共云存储服务魔力象限|「云头条」

国家“互联网+”行动战略发布:核心芯片、高端服务器、高端存储、数据库和中间件等产业将受益

前EMC首席技术官:存储阵列终将走向死亡

Gartner发布《对象存储关键能力》报告

Gartner:2015年存储技术成熟度曲线

不懂这些术语,还好意思叫数据存储专业人士?

关于对象存储,你知道多少?

Gartner:2016年分布式文件系统和对象存储魔力象限

NetApp、HPE 和 IBM 将跌出存储市场前四强,AWS、Azure 会上位|云头条

为何RAID阵列日渐式微?


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存