查看原文
其他

分享TSM、NBU、Legato等备份系统运维独门绝技

来自社区交流活动“TSM、NBU、Legato等备份系统运维难点与故障处理”,活动正在进行中,欢迎来分享你的独门绝技~


@聂奎甲  长春长信华天项目经理

我觉得常见的故障比如:

RC 106,一般是日志权限的问题,找到需要的日志,加上权限。

RC 12,介质mount不可用,一般是TSM调用带库的时候出现问题,查查驱动器和path,看看存储池的最大可用scratch数值;如果是磁盘,看看磁盘的文件系统权限。

第一次启动调度的时候,如果调度进程未启动,可能是因为password生成参数没设置好,或者没有手动的登录一下客户端。

ANS0102W,语言包的问题导致dsmc登录不了,将/opt/tivoli/tsm/client/lang/en_US目录内所有内容,拷贝到/opt/tivoli/tsm/client/ba/bin目录下试试。

ORA-19554,动态链接库的问题可能大些。

挺多的,遇到就记下来,可能就好了。

------

tsm的所有错误信息都保存在活动日志里,但活动日志不仅信保存错误信息,也会保存系统中所有行为的相关信息:

查看一小时以前的所有日志:

query actlog

如查看昨天8点以后的所有日志:

query actlog begindate=today-1 begintime=08:00:00

查看日志中有关nc_ora节点的相关信息,可以加上search参数:

query actlog search=nc_ora

查看TSM服务器中的日志信息:

query actlog originator=server

大家在调试和运维备份软件时有哪些技巧可以来分享一下,大家交流学习。


@pingpang1018  启明信息系统工程师

个人觉得分析备份问题首先是分为Server端和client端,如果日志直观显示问题所在,则直接处理问题即可;

如果一个备份失败了,但是日志模糊不清,无法具体定位问题时,首先是判断服务器是否可用,如果当前还有其他备份可以执行,基本可以判断服务器可用性;

接下来需要判断存储介质可用性,如果当前的数据备份存储池仍有其他备份作业写入成功,那么存储介质可用;

接下来具体分析该客户端,如果是数据库备份,则可以尝试在该节点发起一个文件备份实施是否链路可用,介质可用,通信正常;

如果是一个Lanfree的节点,则先注销lanfree发起备份,判断是否是由于LANFREE的path问题,引起的故障。

常见的错误都是累计出来的,比如oracle备份首次出现7011 RC106,那么改一下日志权限,基本能成。


诚邀大家前往交流分享,点击阅读原文即可

▼▼▼

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存