分布式存储方案漫谈:GPFS 对话 CEPH
1. 数据中心云存储趋势
过去20年,传统的集中式数据存储经历过了它最辉煌的时代,云计算带来的底层存储架构变革,已经慢慢宣告这个王者时代的谢幕,接棒数据中心下一代存储黑科技的架构,是近年关注度更高的关键词,如分布式存储,对象存储,超融合等技术,在这其中,除了传统一线厂商的战略迭代产品,也不乏优秀的民间开源解决方案,经过多年的技术沉淀,而今也结束了野蛮纷争的草莽时代,各家产品划地为王,纷纷找到了它的用武之地,而其中的佼佼者,一个是商业软件界的霸主GPFS,另一个是开源软件界的王者CEPH。
2. GPFS和CEPH的初次亮相
关于我:
各位好,我叫GPFS,是一个高性能的共享并行文件系统,自诞生起,就为高性能、数据共享、开放、安全而生。我今年23岁,是一名95后,两年前,为了更好的融入IBM光谱存储大家庭,我有了个更好听的名字——SPECTRUM SCALE,当然对于我来说,这不仅仅是名字的变更,也意味在我身上,增加了关于闪存、容灾、备份、云平台接入等诸多特性,我扮演的角色更加重要,职能定位也愈加明晰了。关于未来,我也有自己的想法,有更大的愿景,希望能和数据中心的其它小朋友们相处愉快,和谐。
关于我:
大家好,我叫ceph,是一个00后,今年12岁了,法律上还未成年,但我的公众形象已经十分成熟,我的名字来源于宠物章鱼的一个绰号,头像就是一只可爱的软体章鱼,有像章鱼触角一样并发的超能力。我平常主要活跃在云计算领域,经过多年的脱胎换骨,不断迭代,我积攒了良好的口碑,好用,稳定,关键还免费,我可以提供对象,块和文件级存储的接口,几乎可以覆盖所有…哇,说着说着突然感觉自己原来无所不能呢,谢谢大家这么关注我,当然,目前我还在长身体的阶段,很多特性在趋于完善,希望未来我们可以相互促进成长。
3. GPFS的前世今生
作为一款成熟的商业产品,GPFS的发展史早已百转千回了,在揭开GPFS的面纱之前,我们还是先来扫扫盲,复习一下在GPFS集群架构中涉及到的基本概念和组件。
架构解耦
Cluster:GPFS的组成架构,由一系列的节点和NSD组成,集群的配置文件通常保存在两台主备的节点上。
Node:安装了GPFS软件的主机,它可以通过直接或者通过网络访问其它节点的方式来访问存储,每个节点在集群配置中有不同的角色。
Cluster manager:负责整个集群配置的正确性和完整性,主要负责监控磁盘租约,检测节点故障和控制节点的故障恢复,共享配置信息,选举文件管理节点等任务。
File system manager: 维护文件系统中磁盘的可用性信息,管理磁盘空间,文件系统配置,磁盘配额等。
Block: 一个集群中单个I/O操作和空间分配的最大单位。
NSD: 提供全局数据访问的集群组件,如果节点和磁盘间没有直接连接,则NSD最好具有主服务节点和辅服务节点。
Chunk: FPO架构中的概念,它是一组block块的集合,看起来像一个大的block,一般用于大数据环境。
Failure Group: 一组共享故障的磁盘组,当其中一块盘失效时,整个组会同时失效。
Metadata: 包括集群配置信息和非用户数据。
Quorum Nodes: 用于保持集群活动的仲裁节点,一般有两种仲裁方式,节点仲裁和带Tiebreakerdisk(心跳盘)的仲裁
上述组件如何有机的组合在一起提供存储服务呢,把以上组件拼接起来,就可以得到下图所示的集群大体架构:
使用方案
基本架构了解了,那怎么用呢?先祭出三张架构图,业内人士一看应该懂,不明白没关系,往下针对这几张图稍作解释:
左上:传统的GPFS(Directattach)使用场景,图中分为主机,交换机,存储三类角色,前端主机(即图中的Application Nodes)类型可以是AIX/Linux/Windows服务器节点,存储使用集中式的存储架构,存储lun通过光纤交换机Zoning的方式映射给所有主机,数据传输走光纤网络,在前端主机中能识别到所有lun的块设备,并为其创建NSD,主机与存储间通过SAN网络直接通信,不借助通过其它结点。
右上:混合的GPFS使用场景,是左上架构的拓展,跟左上不同的是,在该架构中,并非GPFS用到的所有NSD都映射给了所有的主机,我们给集群中的NSD添加了NSD Server的属性,这就决定了集群中一部分节点访问存储的方式,不是直接访问存储,而是通过TCP/IP网络访问NSD Server的方式来访问后端存储。主要适用于以下情形,1. 集群节点跨站点,但两个站点间没有足够稳定的光纤通道可以互通。2. 节省光纤资源。
下图:这张图是我们今天的主角,也是GPFS之所以拿来和CEPH对决的核心架构,我们在后面再展开说说。接下来说说应用场景。
应用场景
在传统DB2数据库双活方案GDPC的使用场景中,为了实现跨站点的双活+容灾,底层存储方案选用GPFS,双站点架构中,两个站点均配备主机和存储资源,每个站点的存储形成一个failure group,远程访问对端存储采用nsd server的方式访问,两个failure group间完全冗余,任何一个站点出现故障都不影响文件系统的正常使用,并通过第三方站点的一台服务器和nsd作为仲裁节点,是真正意义上的双活。
GPFS可以用来替代HDFS作为大数据的底层存储,GPFSFPO+Symphony作为相对Mapreduce更领先的分布式计算框架,可以更灵活和支持和对接企业的IT使用场景。
在IBM的部分企业级云产品中,GPFS FPO也被用来作为私有云产品的底层存储来使用,用来存储虚机镜像和介质,这一点上使用和CEPH也极为相似。
4.CEPH的发展之路
作为云计算的三架马车,网络,存储,管理平台,业界的开源方案里,网络层面SDN日渐成熟,管理平台上,Openstack已经创造了一个时代,而CEPH,无疑成为存储最犀利的开源解决方案。谈起它的架构之前,我们有必要先来了解以下这些概念,同时为了更加形象化,我们将部分组件对应到GPFS的组件上来理解,但请注意实际的功能和结构仍然差别巨大。
架构解耦
Ceph monitor——对应quorum +cluster manager:保存CEPH的集群状态映射,维护集群的健康状态。它分别为每个组件维护映射信息,包括OSD map、MON map、PG map和CRUSH map。所有群集节点都向MON节点汇报状态信息,并分享它们状态中的任何变化。Ceph monitor不存储数据,这是OSD的任务。
OSD——对应NSD: CEPH的对象存储设备,只要应用程序向Ceph集群发出写操作,数据就会被以对象形式存储在OSD中。这是Ceph集群中唯一能存储用户数据的组件,同时用户也可以发送读命令来读取数据。通常,一个OSD守护进程会被绑定到集群中的一块物理磁盘,一块磁盘启动一个OSD进程,可以对应GPFS的NSD概念。
Pool:是存储对象的逻辑分区,它规定了数据冗余的类型和对应的副本分布策略,副本支持两种类型:副本(replicated)和纠删码( Erasure Code)
PG(placement group)——对应Chunk:是一个放置策略组,它是对象的集合,该集合里的所有对象都具有相同的放置策略;简单点说就是相同PG内的对象都会放到相同的硬盘上; PG是 ceph的核心概念,服务端数据均衡和恢复的最小粒度就是PG;
MDS——对应Filesystemmanager:Ceph元数据服务器,MDS只为CephFS文件系统跟踪文件的层次结构和存储元数据。Ceph块设备和RADOS并不需要元数据,因此也不需要Ceph MDS守护进程。MDS不直接提供数据给客户端,从而消除了系统中的故障单点。
RADOS:RADOS是Ceph存储集群的基础。在Ceph中,所有数据都以对象形式存储,并且无论是哪种数据类型,RADOS对象存储都将负责保存这些对象。RADOS层可以确保数据始终保持一致。要做到这一点,须执行数据复制、故障检测和恢复,以及数据迁移和在所有集群节点实现再平衡。
RBD:RADOS块设备,提供持久块存储,它是自动精简配置并可调整大小的,而且将数据分散存储在多个OSD上。RBD服务已经被封装成了基于librados的一个原生接口。
RGW:RADOS网关接口,RGW提供对象存储服务。它使用librgw和librados,允许应用程序与Ceph对象存储建立连接。RGW提供了与Amazon S3和OpenStackSwift兼容的RESTful API。
CephFS——对应GPFS文件系统:Ceph文件系统提供了一个使用Ceph存储集群存储用户数据的与POSIX兼容的文件系统。和RBD、RGW一样,CephFS服务也基于librados封装了原生接口。
同样,如果把上述元素和概念按照逻辑进行拼接,可以得到以下这张CEPH的基本架构图,图中反映了各个组件的逻辑关系。
CEPH提供了一个理论上无限扩展的集群,客户端和ceph osd进程通过crush算法来计算数据位置,而不必依赖一个中心查找表,我们知道凡是网络设备都有并发连接数据的限制,集中式/单体式的存储系统,对于大规模部署来说,很容易达到物理极限,在CEPH的数据访问机制中,客户端和osd进程直接通信,提高了性能和系统总容量,消除了单点故障,CEPH客户端仅在需要时与osd进程建立一个会话。
osd进程加入一个集群,并且报告他们的状态,分为up和down两种状态,代表是否可以响应ceph客户端的需求,如果osd进程失败,则无法通知ceph monitor它已经down掉,ceph通过周期性的ping OSD进程,确保它正在运行,CEPH授权OSD进程,确定授信的OSD进程是否已关闭,更新cluster map,并报告给CEPH Monitor.
OSD进程也通过crush算法,计算对象的副本应该存放的位置,在一个写场景中,客户端使用crush算法计算应该在哪里存放对象,并将对象映射到一个pool和placement group, 然后查询crush map来定位placement group中的主OSD进程。
客户端将对象写入主osd的placementgroup中,然后主osd使用它自己的crush map来找到第二、三个OSD,并且将对象副本写入第二、第三OSD的placement group中,主OSD在确认对象存储成功后会给客户端一个回应。OSD进程完成数据的复制,不需要ceph客户端参与,保证了数据的高可用性和数据安全。
CephFS从数据中分离出元数据并保存在MDS中,而文件数据保存在CEPH存储集群的objects中,ceph-mds作为一个进程单独运行,也可以分布在多个物理主机上,达到高可用和扩展性。
使用方案
了解了架构和原理,该怎么使用呢?Ceph主要用于完全分布式操作,没有单点故障,可扩展到exabyte级别,完全免费使用。其采用的位置感知算法和数据复制机制使其具有容错能力,并且不需要特定的硬件支持,也成为他天生骄傲的资本,大大降低了使用门槛,在贫瘠的物理介质上就可以野蛮生长。一般来说,CEPH主要提供三种使用场景,rbd(block device),对象存储和CephFS文件系统方式,如下图所示:
CEPH客户端使用原生协议与CEPH存储集群进行交互,CEPH将这些功能打包成librados库,因此你可以创建自己的CEPH客户端,CEPH作为分布式存储,对外提供各类型的标准存储服务。
CEPH blockdevice的快照功能对于虚拟化和云计算来讲很有吸引力,在虚拟机场景中,极具典型的是在Qemu/KVM使用rbd网络存储驱动部署CEPH block device,宿主机使用librbd向客户机提供块设备服务。而在K8S管理的容器平台中,Ceph也可以提供标准rbd设备的动态供给和共享存储空间。
5.CEPH与GPFS的正面交锋
为了更深入透彻的了解CEPH和GPFS的优劣,我们将从以下这些方面逐一对比CEPH和GPFS的特性,期望可以提供更科学客观的参考。
管理功能
GPFS——GPFS提供了一系列完美的商业化产品功能,基于策略的数据生命周期管理,高速扫描引擎,在线数据迁移,闪存加速,这些特性都大幅提升了它的用户体验,在复杂的IT环境中有了更多施展拳脚的空间。
CEPH——CEPH产品相对年轻,周边功能和生态目前尚不完善,延展功能上来说不及GPFS丰富,但已经具备管理的基本功能,它的VSM功能,即Ceph的web管理界面,目前也已完善。
平台兼容性
GPFS: GPFS一个很大的亮点是支持跨平台部署和文件共享,同一集群中可以包括Windows/ Linux/AIX等异构平台,良好的异构兼容性尤其对于传统企业复杂的异构IT环境有着天然的亲赖。
CEPH: 目前CEPH所提供的rbd是基于Linux内核的,CEPH仅支持部署在Linux平台上,rbd的块设备不能直接映射给非linux的客户端使用(如果要使用可以通过导出为iscsi设备的方式)。
服务方式
GPFS——是一个高性能并行集群文件系统,可支持多种存储设备,包括Flash、磁盘等块存储、对象存储、文件存储,甚至可以管理磁带。支持多云部署以及POSIX、NFS/CIFS、HDFS/Hadoop 、Swift/S3等多种接口。
CEPH——可同时支持对象存储,块存储和文件型存储,且鉴于当前基于POSIX的文件系统方案尚不完善,CephFS功能正努力完善中。支持Switft/S3等云存储环境。
存储性能
GPFS——广泛应用于世界领先的 HPC 超级计算环境。在加速并行访问方面的显著优势有:改善了小文件的 IO 性能,支持超过 4600个计算节点的高速并发访问,实现16GB/s 单节点顺序读写带宽,以及每秒可创建 260万个小文件。作为一个并行文件系统,它将智能融入客户端,并由客户端在集群中的所有存储节点之间分配负载,即使对于单个文件也是如此。
CEPH——CEPH的算CRUSH法和PG存放机制,使它可以充分利用多块磁盘的IO队列,但最开始基于HDD设计,对于SSD和NVRAM等使用场景没有没有特别的性能优化策略,可能导致这些硬件的物理性能在CEPH中发挥受限,延迟和IOPS在高速硬件环境下得不到显著提升。
技术架构
GPFS——具有集群管理者的概念,节点间采用仲裁机制,在灾备环境下需要引入第三方站点,参与集群仲裁。
CEPH——没有绝对的中心结点,可以完全排除单点故障,无中心化的设计思想,使集群具有理论上无限扩张的可能性。
适用场景
GPFS——适用当下流行的生产环境,其中FPO架构可通过多个block组成Chunk的方式,很好的适应大数据环境,并且可以与IBM Symphony分析工作配合使用。同时FPO架构也可用于IAAS平台的底层存储,用于存储虚拟机镜像,用于PAAS容器云环境,用来对容器提供数据存储的接口服务。另外,也可以搭建集群环境提供NAS的功能用于文件和影像的共享。
CEPH——更多用来提供对象存储和块存储的服务,不适用于大数据环境,同样可用来IAAS和PAAS架构的云环境提供存储服务,或者为单一架构的IT环境提供块存储服务,作为分布式的优秀解决方案,天生有对接云生态的基因,CEPH不仅在OpenStack时代可以大有作为,同样在容器云时代也可以大放异彩。
数据分层
GPFS——GPFS具有很好的数据分层实现机制,cache机制,将日志卷部署在SSD上,在某些场景下可以带来显著的性能提供
CEPH——Crushmap可以用来做分级存储,例如根据底层不同硬盘,例如HDD或SSD等来分为不同的 pool,Ceph的Cache tier技术可以实现hot data和 cold data分离,把热数据放到Cache层,过段时间同步到cold date层等等。
安全机制
GPFS——该环境中,某一节点的硬盘连接丢失,不会影响到其他的节点,GPFS使用RSCT的功能持续的监控不同文件模块的健康状态,当任一错误被检测到时,相应的恢复动作将自动执行。GPFS还提供了额外的日志和恢复功能,可以维持元数据的一致性。最大三副本,可支持节点的自动Failover。
CEPH——rados采用强一致性设计,可容忍网络中断、掉电、服务器宕机、硬盘故障等,并进行自动修复,保证数据的可靠性和系统可用性。也是同样的三副本设计,支持节点的自动Failover。Monitors是Ceph的管家,维护着Ceph的全局状态。Monitors的功能和zookeeper类似,它们使用Quorum和Paxos算法去建立全局状态的共识。其OSDs可以进行自动修复,而且是并行修复。
冗余机制
GPFS——数据冗余可以通过failure group机制实现,以文件系统作为复制单元,数据在物理上存储两份或三份,节点冗余上,重要角色如集群管理者,会分配主备两个节点,其它角色会在集群节点间飘移。
CEPH——数据冗余上,底层文件对象默认存储3个副本,节点冗余上,多mointor机制可以有效防止单点故障,在文件存储上,额外的ceph-mds实例可以备用以取代任何失效的ceph-mds,由ceph-mon自动完成,也可以启动多个ceph-mds实例,将目录树分离为子目录树,这样能够在多个启动的实例中有效的平衡负载。
6.分布式存储未来畅想
未来的IT架构是生态之争,赢生态者得天下,就像开放的安卓赢得了众多开发者的亲赖,繁荣的产品生态也成就了安卓。运维自动化和智能化运维建设,要求底层IT环境实现高度整合,自主可控更是对开放性的要求,开放是一个产品的亲和力,意味着可以更灵活的融入当前IT环境,当前云计算的存储标准接口仍然有开放席位,静待新的有生力量入驻。
不管是存储,还是网络等基础架构,都在试图屏蔽底层物理硬件的差异,实现硬件的标准化管理,用软件定义一切,分布式存储就是在这样的趋势下,赢得了蓬勃发展的契机,开放的产品接口,丰富的插件,与当前环境的兼容耦合性,都将成为分布式存储领域制胜的关键,未来分布式存储在安全性、产品化建设、兼容性、可管理性、稳定性上的不懈努力,将是引领分布式存储占领数据中心存储江山的重要砝码。
本文作者:刘文,就职于民生银行,数据中心系统与存储产品运维专家,致力于运维自动化开发建设,传统IT架构的管理革新,以及智能运维领域探索。
欢迎关注社区以下 技术主题 ,将会不断更新优质资料、文章,您也可以前往提出疑难问题,与同行切磋交流:
→ 分布式存储(点击阅读原文即可前往)
http://www.talkwithtrend.com/Topic/23951
→ GPFS
http://www.talkwithtrend.com/Topic/2493
→ CEPH
http://www.talkwithtrend.com/Topic/25017
下载 twt 社区客户端 APP
与更多同行在一起
高手随时解答你的疑难问题
轻松订阅各领域技术主题
浏览下载最新文章资料
长按识别二维码即可下载
或到应用商店搜索“twt”