存储系统形态之争,从块存储到统一存储
在正式内容之前,这里先插播一条广告。本人写的关于文件系统的新书《文件系统技术内幕》已经由电子工业出版社出版,欢迎大家购买。
在远古时期,计算机与存储设备之间并不像现在这样是用过网络的方式连接的。当时无论是计算机还是存储设备,其体积都是非常庞大的,而能力却非常弱。对于存储系统而言,其容量是非常小的,性能也是非常差的。以IBM 350为例,其体积比现在的冰箱都大,但容量仅仅5MB。所以,当时一台计算机通常需要多台存储系统来提供存储容量,计算机与存储之间通过某种方式直接连接。
以IBM System/360为例,当时通过Bus and Tag(作者也不清楚怎么翻译)总线建立其与存储系统等外围设备的连接。这种在大型机与存储系统之间的连接最大带宽才4.5MB/s,这个速度在现在是难以想象的,但在当时已经足够了,毕竟当时一个存储系统的容量才5MB。这种连接方式虽然速度很慢,但一用就是30年(从1960到1990)。直到1990年9月份,IBM又搞了一个称为ESCON(Enterprise Systems Connection)连接方式,其最大带宽是10MB/s, 后来增加到17MB/s。
由于当时的限制条件,一个存储系统无法共享给多个计算机系统,一般专属于某一个计算机系统,存储与计算机之间通过线缆直接连接,这种系统称为DAS系统(Direct Access Storage)。比如IBM于1989年发布的IBM 3390就是这样一个存储系统,虽然其容量已经达到22GB了,但依然直接于计算机相连。
虽然DAS应用广泛,但DAS存储的缺点也逐渐暴露。由于用户很难对其业务需求进行预测,业务需要的存储容量和带宽可能是变化的。一些前期对存储容量要求低的业务,可能由于业务的快速发展而对存储容量的需求大幅增加。而有些业务可能用户减少对存储容量的需求远小于前期规划,从而导致存储资源的浪费。如下图所示,中间业务由于规划不足导致存储资源的紧缺,而左右两边的业务则造成了存储资源的浪费。
存储网络的出现解决了DAS存储资源利用率的问题和配置复杂的问题。存储网络通过网络的方式建立了计算节点与存储节点之间的连接。于是可以实现多台计算节点对存储系统资源的共享,如下图是典型的SAN(Storage Area Network,存储区域网络)存储的拓扑结构。
如上图所示,SAN存储最大的特点是在服务器端呈现的是一个硬盘,从用户角度来看这个硬盘与本地硬盘没有任何差异。在该图中,服务器与存储系统通过网络相连,这里的网络可以是以太网、FC网络或者IB网络。
另外一种比较常用的形态称为NAS(Network Access Storage),也就是网络连接存储。这种存储形态基于以太网实现,不需要类似FC或者IB等特殊的网络。与SAN存储不同,对于NAS存储,用户所看到的存储资源以目录的形式呈现。
随着云技术的发展,出现了一种可以通过互联网直接访问的存储形态,这就是对象存储。前面无论是SAN也好,还是NAS也罢,通常都是服务器(计算节点)访问存储资源,客户端通常无法直接访问存储资源。对于互联网应用,传统的架构形态服务器将会成为性能瓶颈。对象存储的出现在一定程度上解决了上述问题,同时对象存储在数据组织形态和访问粒度方面也有很多改变。
上面我们从概念层面介绍了存储的常见形态,总结为DAS、SAN、NAS和对象存储。但从产品层面,早期的产品往往只提供一种形态的存储服务,比如EMC于1990年发布的Symmetrix系列存储是用于替换IBM SLED存储的一个非常简单的磁盘阵列,为IBM大型机提供存储服务。该存储系统通过block multiplexer channel实现与IBM大型机的一对一的连接,本质上是一个DAS存储。后来才开始逐渐支持SCSI、FC和iSCSI,原因很简单,Symmetrix发布的时候这些协议还没有发布。
在中端存储领域,1991年数据通用公司(Data General Corporation)的CLARiiON发布,这是一款SAN存储,用于给计算节点提供块设备服务。这款存储产品其实最开始叫HADA (High Availability Disk Array,也就是高可用磁盘阵列),他是RAID的最早商用产品之一。直到1994年才被命名为CLARiiON,1999年被EMC收购,如下图是其AX4系列的实物图。
在相同的年代,还有另外一家神级公司发布了SAN存储产品。这就是Sun公司于1994年3月22日发布的SPARCstorage(TM) 阵列模型,该产品的100系列可以支持最大31.5 GB的容量。其最大的特点是模块化设备,其中磁盘、控制器、制冷模块和电源模块都可在线插拔。这些特性在哪个年代堪称典范。
回到存储大佬EMC,他还有另外一款NAS产品Celerra,这款产品可以支持非常丰富的数据共享协议,包括SMB, NFS, FTP, NDMP, TFTP和MPFS等。在数据服务层面,可以支持数据去重、远程复制和数据分层等功能。
EMC于2011年对CLARiiON 和Celerra两块产品进行了整合,推出了新产品VNX。VNX通过一个统一的入口实现对SAN和NAS的统一配置管理,降低了用户存储管理的复杂性。同时,由于VNX整合了CLARiiON 和Celerra,所以他可以同时提供SAN存储和NAS存储两种不同的形态。
VNX虽然整合了两款产品,能够同时提供SAN和NAS存储服务,但是依然是两个独立的物理设备。2016年,EMC对其终端存储产品进行进一步优化,推出了真正的多形态融合存储Unity。该存储产品将原来VNX需要7U高度多个设备才能提供的存储服务缩减到一台2U的存储设备。
EMC的另外一款存储产品PowerScale是另外一种文件存储,其最大的特性是分布式实现。该存储系统除了可以作为传统NAS使用外,还可以支持原生S3协议和HDFS接口。也就是说该存储既是NAS存储,又是对象存储,其架构简图如下所示。