查看原文
其他

Ceph 集群警告和错误类型总结

李航 twt企业IT社区 2022-07-03
指标说明
noscrub flag(s) set防止集群做清洗操作
full flag(s) set使集群到达设置的full_ratio值。会导致集群阻止写入操作
nodeep-scrub flag(s) set防止集群进行深度清洗操作
pause flag(s) set集群将会阻止读写操作,但不会影响集群的in、out、up或down状态。集群扔保持正常运行,就是客户端无法读写
noup flag(s) set防止osd进入up状态
nodown flag(s) set防止osd进入down状态
noout flag(s) set防止osd进入out状态
noin flag(s) set防止osd纳入ceph集群。有时候我们新加入OSD,并不想立马加入集群,可以设置该选项
nobackfill flag(s) set防止集群进行数据回填操作
norebalance flag(s) set防止数据均衡操作
norecover flag(s) set避免关闭OSD的过程中发生数据迁移
notieragent flag(s) set
osds exist in the crush map but not in the osdmaposd crush weight有值但是osd weight无值
application not enabled on 1 pool(s)没有定义池的使用类型
osds have slow requests慢查询
Monitor clock skew detected时钟偏移
bigdata failing to advance its oldest client/flush tid客户端和MDS服务器之间通信使用旧的tid
Many clients (34) failing to respond to cache pressure如果某个客户端的响应时间超过了 mds_revoke_cap_timeout (默认为 60s )这条消息就会出现
mons down, quorumCeph Monitor down
in osds are downOSD down后会出现
cache pools are missing hit_sets使用cache tier后会出现
has mon_osd_down_out_interval set to 0has mon_osd_down_out_interval set to 0
is fullpool满后会出现
near full osdnear full osd
unscrubbed pgs有些pg没有scrub
pgs stuckPG处于一些不健康状态的时候,会显示出来
requests are blockedslow requests会警告
osds have slow requestsslow requests会警告
recovery需要recovery的时候会报
at/near target max使用cache tier的时候会警告
too few PGs per OSD每个OSD的PG数过少
too many PGs per OSDtoo many PGs per OSD
> pgp_num> pgp_num
has many more objects per pg than average (too few pgs?)每个Pg上的objects数过多
no osds部署完就可以看到,运行过程中不会出现
full osdOSD满时出现
pgs are stuck inactive for more thanPg处于inactive状态,该Pg读写都不行
scrub errorsscrub 错误出现,是scrub错误?还是scrub出了不一致的pg


本文作者:李航,多年的底层开发经验,在高性能nginx开发和分布式缓存redis cluster有着丰富的经验。目前供职于滴滴基础平台运维部-技术专家岗位,主要负责分布式Ceph系统。


相关阅读:

Ceph 原理、架构等知识梳理总结 | 干货分享


点击阅读原文关注社区  分布式存储技术主题 ,将会不断更新优质资料、文章,您也可以前往提出疑难问题,与同行切磋交流。


下载 twt 社区客户端 APP

与更多同行在一起

高手随时解答你的疑难问题

轻松订阅各领域技术主题

浏览下载最新文章资料


长按识别二维码即可下载

或到应用商店搜索“twt”


长按二维码关注公众号

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存